SUPERIOR DE ENSENADA, BAJA CALIFORNIA
MR
PROGRAMA DE POSGRADO EN CIENCIAS
EN CIENCIAS DE LA COMPUTACI ´
ON
Clasificaci ´on de objetos en im ´agenes naturales
utilizando el paradigma de la programaci ´on
cerebral con un enfoque multiobjetivo.
Tesis
para cubrir parcialmente los requisitos necesarios para obtener el grado de Maestro en Ciencias
Presenta:
Jos ´e Carlos Mercado Chan
Jos ´e Carlos Mercado Chan
y aprobada por el siguiente comit ´e
Dr. Gustavo Olague Caballero
Codirector del Comit ´e
M.C. Jos ´e Luis Brise ˜no Cervantes
Codirector del Comit ´e
Dra. M ´onica Elizabeth Tentori Espinosa
Miembro del Comit ´e
Dr. Jos ´e Luis Medina Monroy
Miembro del Comit ´e
Dra. Ana Isabel Mart´ınez Garc´ıa
Coordinador del Programa de Posgrado en Ciencias de la Computaci ´on
Dr. Jes ´us Favela Vara
Director de Estudios de Posgrado
Resumen de la tesis que presenta Jos ´e Carlos Mercado Chan como requisito parcial para la obtenci ´on del grado de Maestro en Ciencias en Ciencias de la Computaci ´on.
Clasificaci ´on de objetos en im ´agenes naturales utilizando el paradigma de la programaci ´on cerebral con un enfoque multiobjetivo.
Resumen elaborado por:
Jos ´e Carlos Mercado Chan
Por varias d ´ecadas, el reconocimiento de objetos ha sido uno de los principales proble-mas estudiados por la comunidad cient´ıfica de visi ´on por computadora, con el prop ´osito de poder dotar a los sistemas artificiales y agentes cognitivos con la capacidad de llevar a cabo este proceso y permitirles una mejor interacci ´on con el medio que los rodea. Sin embargo, hoy en d´ıa, sigue siendo un problema abierto.
El reconocimiento de objetos puede verse como la combinaci ´on de dos procesos re-lacionados aunque a la vez diferentes: la clasificaci ´on y la identificaci ´on. En este trabajo de tesis se trata el problema de la clasificaci ´on, el cual se puede definir como el reco-nocimiento que se basa en la descripci ´on general de un objeto como perteneciente a una clase natural de objetos similares. En las ´ultimas d ´ecadas algunas investigaciones se han centrado en estudiar al sistema visual humano como un modelo que ofrece los pasos claves para resolver dicho problema, el cual exhibe resultados prometedores com-parados con los reportados en el estado del arte, alcanzando algunas veces resultados superiores.
Este trabajo de tesis se encarga de estudiar el problema de la clasificaci ´on de objetos en im ´agenes naturales tomando como base el m ´etodo de la corteza visual artificial, defini-do en trabajos anteriores, defini-donde se propone como un modelo computacional que realiza una analog´ıa con el funcionamiento de la corteza visual humana. A la vez, se hace uso de la programaci ´on cerebral que consiste en un paradigma evolutivo basado en la progra-maci ´on gen ´etica. Se realiza un an ´alisis del desempe ˜no de estas propuestas trabajando con im ´agenes naturales y se proponen algunas mejoras para la corteza visual artificial, as´ı como tambi ´en el uso de la programaci ´on cerebral con un enfoque multiobjetivo con el fin de involucrar a la atenci ´on visual mediante el proceso de la detecci ´on de objetos.
Los resultados obtenidos en este trabajo de tesis logran superar la mayor´ıa de los resultados reportados en el estado del arte para el problema que hemos abordado, au-mentando as´ı las aplicaciones y la robustez del m ´etodo de la corteza visual artificial y el paradigma de la programaci ´on cerebral.
Abstract of the thesis presented by Jos ´e Carlos Mercado Chan as a partial requirement to obtain the Master of Science degree in Master in Sciences in Computer Science.
Object classification in natural images using the brain programming paradigm with a multi-objective approach.
Abstract by:
Jos ´e Carlos Mercado Chan
During several decades object recognition has been one of the main problems studied by the computer vision community, with the purpose of providing artificial systems and cognitive agents with the capability of carrying out this process in order to achieve better interactions with the environment around them. However, it still remains an open problem.
Object recognition can be seen as the combination of two related but different proces-ses: classification and identification. On this thesis we focus on the classification problem, which can be defined as the recognition based on the general description of an object as an element to a natural set of similar objects. In recent decades, some research has focus on the human visual system as a model of study that may provide the key to sol-ve the problem, which has shown promising results compared with those reported in the state-of-the-art, and sometimes outperforming them.
This thesis studies the problem of objects classification in natural images based on the artificial visual cortex model defined in previous work, which is proposed as a compu-tational model analogous to the functionality of the human visual cortex. At the same time, applying the paradigm known as brain programming which is an evolutionary model based on genetic programming. The performance analysis of these proposed systems is perfor-med working over natural images. Some improvements for the artificial visual cortex are proposed, as well as the use of the brain programming paradigm with a multi-objective approach in order to integrate the visual attention process for object detection.
The results obtained in this thesis surpass most of the results reported in the state-of-the-art for the problem addressed in this work. Therefore, increasing the robustness of the artificial visual cortex method and brain the programming paradigm, hence increasing the possible applications for both these models.
Dedicatoria
A mis padres
Margarita Chan L ´opez y
Agradecimientos
A mis padres, por todas sus ense ˜nanzas y la formaci ´on que me han brindado. A mis
hermanos, por siempre estar ah´ı, brind ´andome su motivaci ´on y apoyo. A toda mi familia.
A Nayely Casas, quien ha llegado a formar parte importante de mi vida, d ´andole un
sentido y direcci ´on, por su cari ˜no, motivaci ´on, apoyo y paciencia durante todo mi tiempo
de estudio en la maestr´ıa.
A mis codirectores de tesis, el Dr.Gustavo Olague y el M.C. Jos ´e Luis Brise ˜no, y a los
miembros del comit ´e de tesis, la Dra.M ´onica Tentori y el Dr.Jos ´e Luis Medina, por sus
ense ˜nanzas y apoyo, as´ı como por su tiempo, inter ´es, consejos y aportaciones brindadas
para la realizaci ´on de este trabajo de tesis.
A los compa ˜neros del laboratorio de Evovisi ´on: Miguel, Le ´on, Pa ´ul, Andersen y Luis,
por su amistad y sus consejos. Y en especial a Eddie y Daniel, por su tiempo, sus valiosas
aportaciones y su amistad.
A Cynthia, Jacob y la familia Duarte Dominguez, por su amistad y apoyo durante mi
estancia en la ciudad de Ensenada.
A todos los investigadores, estudiantes y personal del departamento de ciencias de la
computaci ´on por su ense ˜nanza acad ´emica.
Al Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada
(CICE-SE) por haberme abierto las puertas y brindarme la infraestructura necesaria para mi
formaci ´on acad ´emica.
Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACyT) por brindarme el apoyo
Tabla de contenido
P ´agina
Resumen en espa ˜nol v
Resumen en ingl ´es vii
Dedicatoria ix
Agradecimientos xi
Lista de figuras xvii
Lista de tablas xxiii
1. Introducci ´on 1
1.1. Descripci ´on del problema . . . 2
1.2. Objetivos . . . 3
1.2.1. Objetivo general . . . 3
1.2.2. Objetivos espec´ıficos . . . 3
1.3. Contribuciones . . . 4
1.4. Organizaci ´on de la tesis . . . 5
2. Marco te ´orico 7 2.1. El sistema visual humano . . . 7
2.1.1. El cerebro humano . . . 8
2.1.2. El sistema visual y la corteza visual . . . 10
2.2. Atenci ´on visual . . . 14
2.2.1. Definici ´on de atenci ´on visual . . . 14
2.2.2. Atenci ´on visual ascendente y descendente . . . 15
2.2.2.1. Atenci ´on visual ascendente . . . 15
2.2.2.2. Atenci ´on visual descendente . . . 16
2.2.3. Atenci ´on visual inspirada biol ´ogicamente . . . 17
2.3. Reconocimiento de objetos . . . 19
2.3.1. Definici ´on de reconocimiento de objetos . . . 20
2.3.2. Clasificaci ´on e identificaci ´on . . . 21
2.3.3. Reconocimiento de objetos inspirado biol ´ogicamente . . . 22
2.4. Reconocimiento de objetos y atenci ´on visual . . . 24
3. M ´etricas de evaluaci ´on del rendimiento de los m ´etodos de reconocimiento de objetos 27 3.1. Exactitud . . . 29
3.2. Precisi ´on y cobertura . . . 29
3.3. Precisi ´on media . . . 32
3.4. Gr ´aficas y curvas ROC . . . 33
3.4.1. Espacio ROC . . . 34
3.4.2. Las curvas ROC . . . 36
3.4.3. Puntuaciones relativas contra absolutas . . . 38
3.4.4. Generando curvas ROC . . . 40
Tabla de contenido (continuaci ´on)
3.4.6. Tasa de error equivalente (EER) . . . 42
3.5. Medida-F . . . 44
4. Bases de datos para la clasificaci ´on de objetos 47 4.1. CalTech-5 . . . 48
4.2. GRAZ . . . 50
4.2.1. GRAZ-01 . . . 50
4.2.2. GRAZ-02 . . . 51
4.3. VOC . . . 53
4.3.1. Competencias de clasificaci ´on y detecci ´on . . . 54
4.3.2. Conjunto de datos y evaluaci ´on . . . 55
5. M ´etodos 59 5.1. Corteza visual artificial . . . 59
5.1.1. Etapa de adquisici ´on y transformaci ´on de caracter´ısticas . . . 59
5.1.1.1. Dimensiones de caracter´ısticas . . . 62
5.1.1.2. El proceso centro-periferia . . . 65
5.1.2. Etapa de descripci ´on y clasificaci ´on . . . 65
5.1.2.1. Mapas mentales y descripci ´on . . . 66
5.1.2.2. Clasificaci ´on . . . 67
5.2. Programaci ´on cerebral . . . 67
5.2.1. Proceso evolutivo de la programaci ´on cerebral . . . 69
5.2.2. Representaci ´on gen ´etica de la corteza visual artificial . . . 70
5.2.3. Funci ´on objetivo . . . 76
5.2.4. Operadores gen ´eticos . . . 76
5.2.4.1. Operadores de cruce . . . 77
5.2.4.2. Operadores de mutaci ´on . . . 79
5.3. Corteza visual artificial version 2 . . . 80
5.3.1. Modificaci ´on de la etapa de descripci ´on de la CVA . . . 82
5.4. Programaci ´on cerebral con enfoque multiobjetivo . . . 85
5.4.1. Antecedentes de la optimizaci ´on multiobjetivo . . . 87
5.4.2. Definiciones en la optimizaci ´on multiobjetivo . . . 88
5.4.3. Algoritmos evolutivos multiobjetivo . . . 91
5.4.4. Programaci ´on cerebral con enfoque multiobjetivo . . . 93
6. Experimentos y resultados 95 6.1. Especificaciones t ´ecnicas . . . 95
6.2. Metodolog´ıa general . . . 95
6.3. Dise ˜no de los experimentos . . . 97
6.3.1. GRAZ-01 . . . 97
6.3.2. GRAZ-02 . . . 99
6.3.3. VOC . . . 101
6.4. Configuraciones iniciales de la programaci ´on cerebral . . . 102
Tabla de contenido (continuaci ´on)
6.5.1. CVA . . . 104
6.5.1.1. An ´alisis del proceso evolutivo . . . 104
6.5.1.2. An ´alisis del rendimiento de los mejores individuos . . . 112
6.5.1.3. An ´alisis estructural de los mejores individuos . . . 118
6.5.1.4. Funcionamiento de los mejores individuos . . . 119
6.5.2. CVA2 . . . 130
6.5.2.1. An ´alisis del proceso evolutivo . . . 130
6.5.2.2. An ´alisis del rendimiento de los mejores individuos . . . 137
6.5.2.3. An ´alisis estructural de los mejores individuos . . . 142
6.5.2.4. Funcionamiento de los mejores individuos . . . 143
6.5.3. CVA-MO . . . 154
6.5.3.1. An ´alisis del proceso evolutivo . . . 154
6.5.3.2. An ´alisis del rendimiento de los mejores individuos . . . 162
6.5.3.3. An ´alisis estructural de los mejores individuos . . . 168
6.5.3.4. Funcionamiento de los mejores individuos . . . 169
6.5.4. VOC . . . 180
6.5.4.1. An ´alisis del proceso evolutivo . . . 180
6.5.4.2. An ´alisis del rendimiento de los mejores individuos . . . 185
6.5.4.3. An ´alisis estructural de los mejores individuos . . . 186
6.5.4.4. Funcionamiento de los mejores individuos . . . 190
7. Conclusiones 195 7.1. Conclusiones . . . 195
7.2. Aportaciones . . . 196
7.3. Trabajo futuro . . . 197
Lista de figuras
Figura P ´agina
1. Vista lateral de los l ´obulos del cerebro humano. . . 9
2. Anatom´ıa del ojo humano. . . 11
3. Diagrama esquem ´atico del flujo de la informaci ´on en el sistema visual y de las ´areas de la corteza visual que participan en su procesamiento. . . 13
4. Matriz de confusi ´on de las predicciones de un clasificador. . . 28
5. Curva de precisi ´on y cobertura. . . 31
6. Relaci ´on entre precisi ´on y cobertura. . . 31
7. Gr ´afica de la precisi ´on media interpolada comparada con una gr ´afica de precisi ´on y cobertura. . . 33
8. Gr ´afica ROC donde se muestran cinco clasificadores discretos y algunas caracter´ısticas sobre el an ´alisis del espacio ROC. . . 35
9. Curva ROC generada variando el umbral en el conjunto de prueba de 20 instancias. . . 37
10. Curvas ROC y gr ´aficas de precisi ´on y cobertura para clases con distribu-ci ´on no uniforme. (a)Curvas ROC, 1:1; (b)Curvas de predistribu-cisi ´on y cobertura, 1:1;(c)Curvas ROC, 1:10; (d)Curvas de precisi ´on y cobertura, 1:10 . . . 39
11. Dos gr ´aficas ROC. (a) Muestra el ´area baja dos curvas ROC. (b) Muestra el ´area bajo la curva de un clasificador discreto A y un clasificador proba-bil´ıstico B . . . 41
12. C ´alculo del EER usando el punto de intersecci ´on de fpr y fnr. . . 43
13. C ´alculo del EER de una curva ROC. . . 43
14. Diagrama que muestra las ´areas que se utilizan para calcular la cobertura y la precisi ´on para el c ´alculo de la medida-F, en base a un proto-objeto y la segmentaci ´on manual del objeto. . . 45
15. Ejemplos de las im ´agenes de la base de datos de CalTech-5 . . . 49
16. Ejemplos de las im ´agenes de la clase de fondo de la base de datos de CalTech-5 . . . 49
17. Ejemplos de las im ´agenes en GRAZ-01. . . 51
18. Ejemplos de las im ´agenes en GRAZ-02. . . 52
19. Ejemplos de las im ´agenes de la base de datos de VOC2007. . . 57
20. Clases de objetos presentes en VOC2007. . . 58
21. Analog´ıa del modelo biol ´ogico y el modelo computacional CVA. . . 60
Lista de figuras (continuaci ´on)
Figura P ´agina
23. Ciclo inspirado en la evoluci ´on natural y aplicado en el computo evolutivo. . 68 24. Representaci ´on de una soluci ´on o individuo y su analog´ıa con el sistema
natural . . . 71 25. Representaci ´on de una soluci ´on o individuo a trav ´es de su genotipo . . . . 72 26. Esquemas que ilustran las operaciones de cruzamiento a nivel cromosoma
(a) y a nivel gen (b). . . 78 27. Esquemas que ilustran las operaciones de mutaci ´on a nivel cromosoma (a)
y a nivel gen (b). . . 79 28. Ejemplos de los resultados utilizando la CVA donde los puntos del
descrip-tor se encuentran dispersos en la imagen. . . 81 29. Flujo de la informaci ´on visual para la CVA2. . . 84 30. Nueva matriz de confusi ´on donde se combinan los procesos de
clasifica-ci ´on y detecclasifica-ci ´on. . . 86 31. Relaci ´on entre el espacio de variables de decisi ´on y el espacio de funciones
objetivo . . . 89 32. Nueva mutaci ´on a nivel cromosoma implementado para la programaci ´on
cerebral con enfoque multiobjetivo. . . 94 33. Generaci ´on de los conjuntos utilizados en la prueba de validaci ´on cruzada
para los experimentos sobre el conjunto de datos de GRAZ-01 . . . 98 34. Generaci ´on de los conjuntos utilizados en la prueba de validaci ´on cruzada
para los experimentos sobre el conjunto de datos de GRAZ-02 . . . 99 35. Ejemplos de im ´agenes segmentadas del conjunto de GRAZ-02. . . 100 36. Ejemplos de im ´agenes segmentadas del reto VOC2007 de la clase Personas.101 37. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on
cerebral sobre la clase Bicicletas de GRAZ-01. . . 107 38. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on
cerebral sobre la clase Personas de GRAZ-01. . . 108 39. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on
cerebral sobre la clase Bicicletas de GRAZ-02. . . 109 40. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on
Lista de figuras (continuaci ´on)
Figura P ´agina
41. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on cerebral sobre la clase Carros de GRAZ-02. . . 111 42. Comparaci ´on del desempe ˜no de la CVA mediante las curvas ROC con los
m ´etodos del estado del arte sobre GRAZ-01. . . 116 43. Comparaci ´on del desempe ˜no de la CVA mediante las curvas ROC con los
m ´etodos del estado del arte sobre GRAZ-02. . . 117 44. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-01. . . 120 45. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-01. . . 121 46. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-02. . . 122 47. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-02. . . 123 48. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-01 generado mediante la CVA. . . 125 49. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de GRAZ-01 generado mediante la CVA. . . 126 50. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-02 generado mediante la CVA. . . 127 51. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de GRAZ-02 generado mediante la CVA. . . 128 52. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros
de GRAZ-02 generado mediante la CVA. . . 129 53. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on
cerebral sobre la clase Bicicletas de GRAZ-01. . . 132 54. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on
cerebral sobre la clase Personas de GRAZ-01. . . 133 55. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on
Lista de figuras (continuaci ´on)
Figura P ´agina
56. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on cerebral sobre la clase Personas de GRAZ-02. . . 135 57. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on
cerebral sobre la clase Carros de GRAZ-02. . . 136 58. Comparaci ´on del desempe ˜no de la CVA2 mediante las curvas ROC con los
m ´etodos del estado del arte sobre GRAZ-01. . . 140 59. Comparaci ´on del desempe ˜no de la CVA2 mediante las curvas ROC con los
m ´etodos del estado del arte sobre GRAZ-02. . . 141 60. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
indi-viduos generados mediante la CVA2 y considerando el conjunto de im ´age-nes de GRAZ-01. . . 144 61. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
individuos generados mediante la CVA2 y considerando el conjunto de im ´agenes de GRAZ-01. . . 145 62. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
indi-viduos generados mediante la CVA2 y considerando el conjunto de im ´age-nes de GRAZ-02. . . 146 63. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
individuos generados mediante la CVA2 y considerando el conjunto de im ´agenes de GRAZ-02. . . 147 64. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-01 generado mediante la CVA2. . . 149 65. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de GRAZ-01 generado mediante la CVA2. . . 150 66. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-02 generado mediante la CVA2. . . 151 67. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de GRAZ-02 generado mediante la CVA2. . . 152 68. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros
de GRAZ-02 generado mediante la CVA2. . . 153 69. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la
progra-maci ´on cerebral sobre la clase Bicicletas de GRAZ-01. . . 156 70. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la
Lista de figuras (continuaci ´on)
Figura P ´agina
71. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la progra-maci ´on cerebral sobre la clase Bicicletas de GRAZ-02. . . 158 72. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la
progra-maci ´on cerebral sobre la clase Personas de GRAZ-02. . . 159 73. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la
progra-maci ´on cerebral sobre la clase Carros de GRAZ-02. . . 160 74. Frentes de Pareto encontrados mediante la CVA-MO para las clases de
GRAZ-01. . . 161 75. Frentes de Pareto encontrados mediante la CVA-MO para las clases de
GRAZ-02. . . 161 76. Comparaci ´on del desempe ˜no de la CVA2-MO mediante las curvas ROC
con los m ´etodos del estado del arte sobre GRAZ-01. . . 166 77. Comparaci ´on del desempe ˜no de la CVA2-MO mediante las curvas ROC
con los m ´etodos del estado del arte sobre GRAZ-02. . . 167 78. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-01. . . 170 79. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-01. . . 171 80. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores
individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-02. . . 172 81. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores
individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-02. . . 173 82. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-01 generado mediante la CVA2-MO. . . 175 83. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de GRAZ-01 generado mediante la CVA2-MO. . . 176 84. Ejemplo visual del funcionamiento del mejor individuo para la clase
Bicicle-tas de GRAZ-02 generado mediante la CVA2-MO. . . 177 85. Ejemplo visual del funcionamiento del mejor individuo para la clase
Lista de figuras (continuaci ´on)
Figura P ´agina
86. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros de GRAZ-02 generado mediante la CVA2-MO. . . 179 87. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on
cerebral sobre la clase Personas de VOC2007. . . 182 88. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on
cerebral sobre la clase Personas de VOC2007. . . 183 89. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la
progra-maci ´on cerebral sobre la clase Personas de VOC2007. . . 184 90. Frecuencia de uso de las funciones por cada dimensi ´on de los individuos de
la ´ultima generaci ´on generados mediante la CVA, la CVA2 y la CVA2-MO, considerando el conjunto de im ´agenes de la clase Personas de VOC2007. 187 91. Frecuencia de uso de las terminales por cada dimensi ´on de los
indivi-duos de la ´ultima generaci ´on generados mediante la CVA, la CVA2 y la CVA2-MO, considerando el conjunto de im ´agenes de la clase Personas de VOC2007. . . 188 92. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de VOC2007 generado mediante la CVA. . . 191 93. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de VOC2007 generado mediante la CVA2. . . 192 94. Ejemplo visual del funcionamiento del mejor individuo para la clase
Perso-nas de VOC2007 generado mediante la CVA2-MO. . . 193 A.1. Ejecuci ´on de c ´odigo en forma paralela utilizando la instrucci ´on“parfor”. Se
Lista de tablas
Tabla P ´agina
1. Comparaci ´on entre el rendimiento de HMAX y AVC para la base de datos de CalTech-5. . . 49 2. Funciones y terminales para el operador visual de orientaci ´on (OVO) 73
3. Funciones y terminales para el operador visual de color (OVC) . . . . 74
4. Funciones y terminales para el operador visual de forma (OVF) . . . 74
5. Funciones y terminales para el operador visual de los mapas menta-les (OVM M) . . . 75
6. Configuraciones de la programaci ´on cerebral sobre los conjuntos de datos de GRAZ . . . 102 7. Configuraciones de la programaci ´on cerebral sobre la clase Personas
de VOC2007 . . . 103 8. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA sobre la clase Bicicletas de GRAZ-01. . . 113 9. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA sobre la clase Personas de GRAZ-01. . . 114 10. Estad´ısticas del desempe ˜no de los mejores individuos en los
experi-mentos utilizando la CVA sobre GRAZ-01. . . 114 11. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA sobre la clase Bicicletas de GRAZ-02. . . 114 12. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA sobre la clase Personas de GRAZ-02. . . 115 13. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA sobre la clase Carros de GRAZ-02. . . 115 14. Estad´ısticas del desempe ˜no de los mejores individuos en los
experi-mentos utilizando la CVA sobre GRAZ-02. . . 115 15. Comparaci ´on del desempe ˜no de la CVA con los m ´etodos del estado
del arte sobre GRAZ-01. . . 116 16. Comparaci ´on del desempe ˜no de la CVA con los m ´etodos del estado
del arte sobre GRAZ-02. . . 117 17. Estructura del mejor individuo por cada clase de los conjuntos de
datos de GRAZ generados mediante la CVA. . . 124 18. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2 sobre la clase Bicicletas de GRAZ-01. . . 138 19. Desempe ˜no del mejor individuo de cada corrida en los experimentos
Lista de tablas (continuaci ´on)
Tabla P ´agina
20. Estad´ısticas del desempe ˜no de los mejores individuos en los experi-mentos utilizando la CVA2 sobre GRAZ-01. . . 138 21. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2 sobre la clase Bicicletas de GRAZ-02. . . 139 22. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2 sobre la clase Personas de GRAZ-02. . . 139 23. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2 sobre la clase Carros de GRAZ-02. . . 139 24. Estad´ısticas del desempe ˜no de los mejores individuos en los
experi-mentos utilizando la CVA2 sobre GRAZ-02. . . 140 25. Comparaci ´on del desempe ˜no de la CVA2 con los m ´etodos del estado
del arte sobre GRAZ-01. . . 140 26. Comparaci ´on del desempe ˜no de la CVA2 con los m ´etodos del estado
del arte sobre GRAZ-02. . . 141 27. Estructura del mejor individuo por cada clase de los conjuntos de
datos de GRAZ generados mediante la CVA2. . . 148 28. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2-MO sobre la clase Bicicletas de GRAZ-01. . . 163 29. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2-MO sobre la clase Personas de GRAZ-01. . . 163 30. Estad´ısticas del desempe ˜no de los mejores individuos en los
experi-mentos utilizando la CVA2-MO sobre GRAZ-01. . . 163 31. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2-MO sobre la clase Bicicletas de GRAZ-02. . . 164 32. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2-MO sobre la clase Personas de GRAZ-02. . . 164 33. Desempe ˜no del mejor individuo de cada corrida en los experimentos
utilizando la CVA2-MO sobre la clase Carros de GRAZ-02. . . 165 34. Estad´ısticas del desempe ˜no de los mejores individuos en los
experi-mentos utilizando la CVA2-MO sobre GRAZ-02. . . 165 35. Comparaci ´on del desempe ˜no de la CVA2-MO con los m ´etodos del
Lista de tablas (continuaci ´on)
Tabla P ´agina
36. Comparaci ´on del desempe ˜no de la CVA2-MO con los m ´etodos del estado del arte sobre GRAZ-02. . . 167 37. Estructura del mejor individuo por cada clase de los conjuntos de
datos de GRAZ generados mediante la CVA2-MO. . . 174 38. Comparaci ´on del desempe ˜no de la CVA, la CVA2 y la CVA-MO con
los resultados reportados para la clase Personas de VOC2007 . . . . 185 39. Estructura del mejor individuo para la clase Personas de VOC2007
mediante la CVA, la CVA2 y la CVA2-MO. . . 189 A.0.1. Instrucciones“for” y“parfor” . . . 208 A.0.2. Instrucciones“for” y“parfor” con variables dependientes . . . 209 A.1.1. C ´odigo“for” y“parfor” utilizados en la programaci ´on cerebral con un
solo objetivo . . . 212 A.1.2. C ´odigo “for” y “parfor” utilizados en la programaci ´on cerebral con
Cap´ıtulo 1.
Introducci ´on
El reconocimiento de objetos es una tarea fundamental en los seres humanos y en todos los seres vivos dotados del sentido de la vista. Dicha capacidad permite reconocer un objeto dado y por consiguiente permite la interacci ´on del organismo con su medio ambiente.
Por varias d ´ecadas, el reconocimiento de objetos ha sido uno de los principales proble-mas estudiados por la comunidad cient´ıfica de visi ´on por computadora, con el prop ´osito de poder dotar a los sistemas artificiales y agentes cognitivos con la capacidad de llevar a cabo este proceso y permitirles una mejor interacci ´on con el medio que los rodea.
A trav ´es de a ˜nos de investigaci ´on se han obtenido grandes avances principalmente al resolver el reconocimiento de objetos en ambientes controlados, con t ´ecnicas como las basadas en caracter´ısticas, modelos de aprendizajes, plantillas, esquemas de empata-mientos y m ´etodos de“boosting” (Andreopoulos y Tsotsos, 2013). Sin embargo, hoy en d´ıa, el problema del reconocimiento de objetos en ambientes no controlados sigue siendo un problema abierto. Por ende se dice que en la actualidad a ´un no existe una propuesta que resuelva de manera general el problema del reconocimiento de objetos. El principal problema en los sistemas de reconocimiento de objetos consiste en que cada objeto en el mundo puede lanzar un n ´umero infinito de im ´agenes 2-D capturadas seg ´un como var´ıe la posici ´on del objeto, la pose, la iluminaci ´on, el fondo, posibles oclusiones, tama ˜no, entre otras variaciones.
El cerebro humano puede realizar el reconocimiento de objetos sin mucho esfuerzo; adem ´as, esta tarea se realiza en el orden de milisegundos. De esta manera, en las ´ultimas d ´ecadas algunas investigaciones se han centrado en estudiar al sistema visual humano como un modelo que ofrece los pasos claves para resolver el problema de reconocimiento de objetos. Dichas investigaciones han demostrado alcanzar un buen desempe ˜no, logran-do comparar sus resultalogran-dos con los obtenilogran-dos por otros m ´etologran-dos reportalogran-dos en el estalogran-do del arte; y muchas veces superando el desempe ˜no de estos resultados.
compren-si ´on del funcionamiento del cerebro humano; permitiendo intentar emularlo y dotar a los sistemas artificiales con la capacidad para resolver el problema del reconocimiento de objetos de una manera m ´as eficiente y robusta.
1.1. Descripci ´on del problema
El reconocimiento de objetos puede ser visto como la combinaci ´on de dos procesos relacionados aunque a la vez diferentes: la clasificaci ´on y la identificaci ´on. En este trabajo de tesis se trata el problema de la clasificaci ´on, el cual se puede definir como el recono-cimiento que se basa en la descripci ´on general de un objeto como perteneciente a una clase natural de objetos similares.
La principal dificultad que tiene un sistema de clasificaci ´on es el problema de la repre-sentaci ´on de la clase, ya que pueden existir diversas variaciones entre los objetos de la misma clase. Adem ´as, es una tarea dif´ıcil para los sistemas artificiales, contrast ´andolos con el sistema visual humano que puede aprender, de alguna manera a partir de la expe-riencia, las caracter´ısticas que conforman al objeto sin importar sus posibles variaciones.
Actualmente, en la literatura sobre el reconocimiento de objetos existe una gran va-riedad de bases de datos para evaluar el desempe ˜no de los m ´etodos propuestos para resolver este proceso. De entre toda esta amplia cantidad de bases de datos, en el ´area de visi ´on por computadora se pueden mencionar tres bases de datos de im ´agenes natu-rales que en los ´ultimos diez a ˜nos han surgido como est ´andares principales para probar el rendimiento de un sistema de reconocimiento de objetos: CalTech-5 (Ferguset al., 2003), GRAZ (Opeltet al., 2004, 2006) y VOC (Everinghamet al., 2010).
Continuando la l´ınea de investigaci ´on de los trabajos realizados por Clemente et al. (2013) y Olague et al. (2014a), donde se realizan experimentos sobre la base de datos de CalTech-5 y se logra alcanzar resultados en su mayor´ıa del 100 %, se propone estudiar sus propuestas del m ´etodo de la corteza visual artificial y el paradigma de la programaci ´on cerebral, basados en un enfoque biol ´ogico, a fin de trabajar con una base de datos un poco m ´as compleja y poder aportar cambios que hagan m ´as robustas estas propuestas.
que se debe evaluar para decidir cual es la soluci ´on ´optima para resolverlo, por lo gene-ral pueden surgir distintos criterios a evaluar a partir de algunas consideraciones de alto nivel realizadas al momento de intentar resolver el problema o al aplicar las mejores solu-ciones encontradas considerando solo un criterio. As´ı, una de las propuestas principales realizadas en este trabajo de tesis es el uso de la programaci ´on cerebral con un enfoque multiobjetivo; abordando el problema de una manera general, mediante el estudio de las interacciones entre los distintos criterios de evaluaci ´on del rendimiento de las soluciones generadas con el uso de la corteza visual artificial.
1.2. Objetivos
A continuaci ´on se mencionan el objetivo general y los objetivos espec´ıficos de este trabajo de tesis
1.2.1. Objetivo general
Dar un seguimiento a los trabajos realizados por Clemente et al. (2013) y Olague et al.(2014a), analizando el funcionamiento de la programaci ´on cerebral con el fin de evaluar la robustez de este nuevo paradigma para el problema de clasificaci ´on de objetos en im ´agenes naturales.
1.2.2. Objetivos espec´ıficos
Analizar los procesos del reconocimiento de objetos y la atenci ´on visual basados en el funcionamiento de la corteza visual humana.
Analizar las m ´etricas de evaluaci ´on y las bases de datos consideradas como est ´anda-res para el problema de clasificaci ´on de objetos en im ´agenes naturales.
Dise ˜nar los experimentos en base a los est ´andares propuestos en el estado del arte.
Analizar y evaluar los resultados de los experimentos utilizando el paradigma de la programaci ´on cerebral.
Analizar y evaluar los resultados de los experimentos utilizando el paradigma de la programaci ´on cerebral con un enfoque multiobjetivo.
1.3. Contribuciones
Las contribuciones que se presentan en este trabajo de tesis son:
La descripci ´on de los procesos biol ´ogicos de la atenci ´on visual y el reconocimiento de objetos, as´ı como un resumen de los trabajos m ´as importantes que estudian estos procesos.
La descripci ´on de las m ´etricas de evaluaci ´on y las bases de datos est ´andares para el problema de clasificaci ´on de objetos en im ´agenes naturales.
Se da un seguimiento a los trabajos realizados por Clementeet al.(2013) y Olague et al. (2014a), analizando el funcionamiento de la programaci ´on cerebral con el fin de evaluar la robustez de este nuevo paradigma para el problema de clasificaci ´on de objetos en im ´agenes naturales.
El an ´alisis del rendimiento del paradigma de la programaci ´on cerebral con bases de datos m ´as complejas a las utilizadas previamente en los trabajos de Clementeet al. (2013) y Olagueet al.(2014a).
La implementaci ´on de la programaci ´on cerebral con un enfoque multiobjetivo.
1.4. Organizaci ´on de la tesis
Esta tesis est ´a estructurada de la siguiente manera. En el Cap´ıtulo II se presenta el marco te ´orico del trabajo de esta tesis. Se describen los procesos biol ´ogicos que ocurren en el cerebro y el sistema visual humano para procesar la informaci ´on visual. Tambi ´en se abordan las definiciones y un resumen de los trabajos m ´as importantes que estudian los dos procesos m ´as importantes involucrados en la visi ´on: la atenci ´on visual y el reconoci-miento de objetos.
En el Cap´ıtulo III se describen las m ´etricas m ´as utilizadas para evaluar el rendimiento de los m ´etodos de reconocimiento de objetos como son: la exactitud, las gr ´aficas de precisi ´on y cobertura, la precisi ´on media, y las gr ´aficas y curvas ROC. As´ı como tambi ´en una breve descripci ´on de la medida-F, que es utilizada en nuestro trabajo para evaluar los problemas de visi ´on y atenci ´on visual.
En el Cap´ıtulo IV se presenta la descripci ´on de las tres bases de datos que en los ´ultimos diez a ˜nos han surgido como est ´andares principales para evaluar el rendimiento de los sistemas de reconocimiento de objetos con im ´agenes naturales (CalTech-5, GRAZ y VOC).
En el Cap´ıtulo V se describen los m ´etodos utilizados en este trabajo de tesis, iniciando por explicar el m ´etodo de la corteza visual artificial y el paradigma de la programaci ´on cerebral, y finalizando con la presentaci ´on de las modificaciones e implementaciones propuestas para mejorar su desempe ˜no; como es el caso de la versi ´on 2 de la corteza visual artificial y el uso de la programaci ´on cerebral con un enfoque multiobjetivo.
En el Cap´ıtulo VI se presenta el dise ˜no de los experimentos realizados, as´ı como los resultados y su an ´alisis.
Cap´ıtulo 2.
Marco te ´orico
Los m ´etodos utilizados en este trabajo de tesis se inspiran del funcionamiento del cerebro y en particular del sistema visual humano. Por lo que es preciso iniciar por explicar brevemente algunos t ´erminos biol ´ogicos y sus procesos, los cu ´ales se realizan en la corteza visual.
Posteriormente en este mismo cap´ıtulo, se tratan los temas de la atenci ´on visual y el reconocimiento de objetos, ya que en el estudio biol ´ogico de la visi ´on destacan como los dos procesos principales que ocurren en el procesamiento de la informaci ´on visual. Adem ´as, se abordan las definiciones de estos procesos, as´ı como un resumen de los tra-bajos m ´as importantes donde se explican partiendo de un enfoque biol ´ogico. Para finalizar el cap´ıtulo, se presentan de manera breve los trabajos m ´as importantes que combinan el reconocimiento de objetos y la atenci ´on visual.
2.1. El sistema visual humano
2.1.1. El cerebro humano
El cerebro es el ´organo m ´as complejo que posee el ser humano, donde su tarea pri-mordial es controlar y administrar las actividades que realizan los ´organos sensoriales de nuestro cuerpo, al mismo tiempo que coordina todas las funciones existentes en el organismo.
A trav ´es de los a ˜nos diversas comunidades cient´ıficas, como las neurociencias, las ciencias cognitivas, la filosof´ıa, la psicolog´ıa, la cibern ´etica, las ciencias computacionales, entre otras, han realizado grandes avances al tratar de entender el funcionamiento del cerebro. Sin embargo, al ser un ´organo tan complejo, a ´un quedan muchos conocimientos por estudiar y precisar.
Dentro de los primeros trabajos en el estudio del funcionamiento del cerebro humano, destaca el trabajo del m ´edico espa ˜nol Santiago Ram ´on y Cajal, qui ´en realiz ´o grandes des-cubrimientos fisiol ´ogicos y fue galardonado en 1906 con el m ´aximo premio otorgado por la academia; el premio Nobel. Una de sus principales aportaciones fue el descubrimiento de las neuronas, que son las c ´elulas involucradas para llevar a cabo el procesamiento cere-bral, lo que lo llev ´o m ´as tarde a establecer la teor´ıa neuronal. Los conocimientos actuales sobre el cerebro y el sistema nervioso en general son resultado del trabajo colectivo de un n ´umero extenso de cient´ıficos, pero las investigaciones de Ram ´on y Cajal contribuyeron de manera decisiva a la creaci ´on de las neurociencias modernas. Adem ´as cabe destacar que dentro de sus trabajos se plantea la hip ´otesis de c ´omo se realizan en el cerebro los diversos procesos involucrados en la visi ´on. En su trabajo se menciona que el flujo de la informaci ´on inicia en la parte posterior de nuestro cerebro y se desarrolla a lo largo de la llamada corteza visual; que es precisamente el lugar donde se desarrolla el procesa-miento de la informaci ´on visual en el cerebro. Su trabajo ha sido retomado y respaldado por varios cient´ıficos, dando como resultado nuevos descubrimientos y despertando el inter ´es de nuevas investigaciones en el estudio del ´area (Venkataramani, 2010).
Lóbulo frontal Lóbulo parietal
Lóbulo temporal
Lóbulo occipital
Figura 1: Vista lateral de los l ´obulos del cerebro humano.
la siguiente forma:
1. L ´obulo temporal: est ´a asociado con la percepci ´on auditiva, la percepci ´on de la forma visual y el color, el reconocimiento de objetos, y la regulaci ´on de emociones.
2. L ´obulo frontal: lleva a cabo la actividad asociada a funciones motoras del cuerpo. Tambi ´en est ´a asociado con la creatividad y la planeaci ´on.
3. L ´obulo parietal: aloja a la corteza somatosensorial primaria, la cual est ´a ´ıntimamen-te ligada al tacto. Se asocia tambi ´en a las funciones de lenguaje y de´ıntimamen-tecci ´on de movimiento.
4. L ´obulo occipital: en ´el se llevan a cabo actividades asociadas a la percepci ´on vi-sual, como son la estimaci ´on de direcci ´on, velocidad y trayectorias de los objetos, as´ı como la localizaci ´on de los objetos.
independiente de otra. Es decir, todo proceso se lleva a cabo a trav ´es de diversas ´areas cerebrales.
2.1.2. El sistema visual y la corteza visual
El proceso en el sistema visual inicia en el ojo, donde la luz incide y es focalizada por la c ´ornea y el cristalino, atravesando el cuerpo v´ıtreo y enfocando las im ´agenes visuales sobre la retina y en particular sobre la f ´ovea. Aqu´ı los fotorreceptores absorben la luz y la convierten en energ´ıa el ´ectrica. En la Figura 2 se muestran los componentes principales del ojo humano.
Los fotorreceptores son de dos tipos diferentes: los bastones y los conos. Los bastones son las c ´elulas fotorreceptoras m ´as numerosas en el ojo humano, y son alrededor de 120 millones. Son sensibles a la intensidad de la luz pero no son sensibles al color, esto se debe a que su fisiolog´ıa solo les permite percibir longitudes de onda comprendidas en el rango entre los 350 y 600 nan ´ometros, lo que es equivalente a im ´agenes en blanco y negro. Los conos, al contrario de los bastones, son sensibles al color y de acuerdo a los rangos de las longitudes de ondas que pueden percibir se clasifican en tres tipos de conos; cuyos rangos est ´an comprendidos aproximadamente de 380 a 500, de 500 a 600 y de 600 a 730 nan ´ometros. Sumando los tres tipos de conos que existen, en el ojo humano hay un total de 8 millones aproximadamente, de los cuales los sensibles al rojo son alrededor del 65 %, los sensibles al verde son aproximadamente 33 % y los sensibles al azul son tan solo el 2 %. Mediante la combinaci ´on de estos tres colores el ojo humano puede percibir toda una gama de colores.
Despu ´es de que los fotorreceptores convierten la luz en energ´ıa el ´ectrica esta in-formaci ´on se transporta al cerebro a trav ´es de las fibras que conforman el nervio ´opti-co(Gonzalez y Woods, 2006).
LUZ
LUZ
Iris
Retina
Pupila Cornea
Bastones Conos Cristalino
Ganglionares Nervio
Escler´otica
C´elulas ´
Optico
Cuerpo V´ıtreo
Figura 2: Anatom´ıa del ojo humano (imagen proporcionada por Eddie Clemente).
mayor importancia en el cerebro para la construcci ´on b ´asica de la representaci ´on visual del mundo.
Se debe destacar que a ´un existen interrogantes sobre c ´omo se procesa la informaci ´on visual, pero actualmente una de las descripciones del fen ´omeno de la percepci ´on visual m ´as aceptada es la hip ´otesis de la existencia de dos rutas; la ruta dorsal y la ruta ventral. Estas dos rutas constituyen la trayectoria visual secundaria y parten del l ´obulo occipital, en la regi ´on de la corteza visual primaria, o V1. La primera ruta se dirige hacia el l ´obulo temporal y la segunda se dirige hacia el l ´obulo parietal. La existencia de estas dos rutas est ´a basada en evidencias neuropsicol ´ogicas, neurofisiol ´ogicas y psicol ´ogicas que mues-tran la existencia de dos regiones donde se realiza el procesamiento visual, conocidas como la ruta dorsal y la ruta ventral, y establece que ambos subsistemas reciben la mis-ma informis-maci ´on visual como entrada, pero su diferencia radica en las transformis-maciones que sufre la informaci ´on en cada ruta (Mishkinet al., 1983; Ungerleider y Haxby, 1994).
posterior (PP). En general, se acepta que el proceso de la atenci ´on visual se realiza en la zona dorsal, y el paradigma m ´as popular para este proceso es la teor´ıa de la integraci ´on de caracter´ısticas presentado por Treisman y Gelade (1980). Sin embargo, existen otras teor´ıas que tratan de describir c ´omo se realiza la atenci ´on visual dentro de la ruta dorsal, como el modelo de b ´usqueda guida presentado por Wolfeet al.(1989), y algunos investi-gadores que relacionan el proceso de atenci ´on visual a ambas zonas, como Desimone y Duncan (1995).
La ruta ventral se asocia en gran medida con el reconocimiento de objetos y la repre-sentaci ´on de la forma, por lo que se conoce como la ruta del “qu ´e”. De la misma manera que la ruta dorsal, inicia en la retina para luego recibir la informaci ´on principalmente de la capa parvocelular del n ´ucleo geniculado lateral del t ´alamo, siendo proyectada sobre la zona V1. Esta ruta continua a trav ´es de las regiones visuales V2 y V4, que son parte de la corteza visual extraestriada. Finalmente, la ruta ventral termina en las ´areas TEO (parte posterior de la corteza temporal inferior) y TE (parte anterior de la corteza temporal inferior).
Capa Magnocelular y Retinocortical
V3
Ruta Ventral
Ruta Dorsal
Corteza Temporal Inferior
TEO TE
Capa Parvocelular
V4
V1
V2
MST MT Retina
LGN
Estructura Pulvinar (Pul)
Corteza Parietal Posterior
CS
Pul
V3
V2
V1
V2
V4 V5 (MT)
V3a Col´ıculo Superior (CS)
¿D´onde? / ¿C´omo?
Retina LGN
Ruta Dorsal
Ruta Ventral
¿Qu´e? ¿D´onde? /
¿C´omo?
Corteza Temporal Inferior Corteza Parietal
¿Qu´e?
Figura 3: Diagrama esquem ´atico del flujo de la informaci ´on en el sistema visual y de las ´areas de la corteza visual que participan en su procesamiento (imagen proporcionada por Eddie Clemente).
En la Figura 3 se pueden observar los componentes mencionados anteriormente que participan en el proceso de la informaci ´on visual. A manera de resumen se presenta tam-bi ´en un diagrama esquem ´atico del flujo de la informaci ´on visual descrito anteriormente.
2.2. Atenci ´on visual
El ser humano constantemente recibe una gran cantidad de informaci ´on a trav ´es de sus sentidos. En general, la cantidad de informaci ´on es enorme para ser procesada al mismo tiempo y en detalle, por lo que el cerebro tiene que priorizar sus tareas. El meca-nismo por medio del cual el cerebro determina cual es la informaci ´on de mayor inter ´es en el momento actual, se conoce como atenci ´on selectiva. Este concepto se aplica para ca-da uno de nuestros sentidos, y en el caso del sentido de la vista se conoce como atenci ´on visual (Frintropet al., 2010).
En los sistemas donde se aplican t ´ecnicas de visi ´on por computadora se debe tratar con miles, y algunas veces millones, de pixeles por cada imagen de entrada, por lo que la complejidad computacional de muchos problemas relacionados a la interpretaci ´on de la informaci ´on de una imagen es muy alta (Tsotsos, 1988). Esta tarea es a ´un m ´as dif´ıcil si el sistema debe operar en tiempo real, ya que en este caso el sistema debe reaccionar al instante con su entorno. Debido a lo anterior, y a los recursos limitados de hardware, va-rios grupos de investigadores de diversas ´areas se han dedicado a estudiar c ´omo puede ser implementado en los sistemas computacionales el concepto de la atenci ´on selectiva en el ser humano.
2.2.1. Definici ´on de atenci ´on visual
La atenci ´on visual puede ser entendida como la habilidad que permite a una criatura, viva o artificial, dirigir su mirada r ´apidamente al objeto de inter ´es en un entorno visual (Koch y Ullman, 1987). Formalmente, se puede definir de la siguiente manera:
2.2.2. Atenci ´on visual ascendente y descendente
Actualmente, los estudios cl ´asicos sobre la atenci ´on visual est ´an de acuerdo con la idea de que la funcionalidad de la ruta dorsal puede estar influenciada por dos tipos de procesos: ascendentes y descendentes. Como resultado, la atenci ´on visual es usual-mente estudiada como dos propuestas separadas y la mayor´ıa de los modelos compu-tacionales enfocados en la atenci ´on visual solo se basan en uno de estos dos procesos. Tambi ´en existen investigaciones que los estudian como un ´unico proceso, el cual analiza la atenci ´on visual desde la idea de adaptarla de acuerdo al prop ´osito u objetivo del siste-ma. Dentro de las investigaciones donde se estudia la interacci ´on de estos dos procesos se encuentran los trabajos de James (1950), Desimone y Duncan (1995), y Corbetta y Shulman (2002). A continuaci ´on, se dar ´a una explicaci ´on breve de estos dos procesos involucrados en la atenci ´on visual.
2.2.2.1. Atenci ´on visual ascendente
En la literatura se dice que la atenci ´on visual ascendente, o reactiva, est ´a relacionada con la atenci ´on involuntaria ya que depende enteramente del est´ımulo. ´Esta se compara con la idea del “punto de luz”; la cu ´al consiste en atender selectivamente a lugares con-cretos del entorno visual. Esta met ´afora surgi ´o de los experimentos realizados por Posner
et al.(1980) donde al sujeto de pruebas se le presentaban diversas im ´agenes y a la vez
se presentaba un punto de luz en la imagen, el cu ´al mejoraba la detecci ´on de eventos en su proximidad provocando que la persona atendiera r ´apidamente a la secci ´on donde se localizaba el punto de luz.
Para Wolfe et al. (1989) la activaci ´on ascendente es una medida de que tan inusual es un objeto en su contexto presente. La fuerza de la activaci ´on ascendente en un lugar espec´ıfico de la imagen est ´a basada en las diferencias que existen entre el objeto de inter ´es y los objetos vecinos. En otras palabras, no depende del conocimiento del sujeto o de una tarea de b ´usqueda espec´ıfica. De esta forma la identificaci ´on del objeto se refiere a las diferencias en el espacio de las caracter´ısticas relevantes.
´unmen-te, la tarea de exploraci ´on se estudia de manera experimental usando un conjunto de im ´agenes almacenadas en una base de datos que contienen est´ımulos visuales, es decir, im ´agenes que se presentan a un observador o a un sistema artificial. Por cada imagen se tiene un objeto de inter ´es u objetivo que es diferente del resto. Los modelos compu-tacionales de atenci ´on visual existente son en su mayor´ıa modelos enfocados al proceso ascendente y est ´an basados en la teor´ıa de la integraci ´on de caracter´ısticas, propuesta por Treisman y Gelade (1980).
2.2.2.2. Atenci ´on visual descendente
Existe un acuerdo general de que el proceso de la atenci ´on visual descendente juega un rol fundamental en el procesamiento de la informaci ´on visual. En general, los procesos cognitivos o descendentes son voluntarios por lo que su activaci ´on gu´ıa la atenci ´on a un objeto deseado. En particular, se acepta que durante la atenci ´on visual descendente existen numerosas conexiones que unen las ´areas cerebrales m ´as altas con las m ´as simples, de tal forma que todas ellas se involucran en el procesamiento de la informaci ´on visual. En este sentido, se dice que la atenci ´on visual descendente toma m ´as tiempo y esfuerzo para llevarse a cabo en comparaci ´on con la atenci ´on visual ascendente. Esto se debe a que en la mayor´ıa de los casos el objetivo comparte con los distractores dos o m ´as caracter´ısticas, lo cual fuerza al observador a realizar un escaneo de la escena para lograr encontrar el objetivo.
El proceso de la atenci ´on visual descendente se estudia usualmente en psicof´ısica a trav ´es de los llamados “experimentos con pistas”. Este tipo de experimentos consisten en presentar una pista o se ˜nal que gu´ıe la atenci ´on hacia el objetivo con el prop ´osito de medir la intensidad con que se percibe por parte del observador. De esta manera, se dice que las pistas o se ˜nales pueden indicar en d ´onde est ´a el objetivo, como en el caso de una flecha apuntando hacia el objetivo, o pueden contestar a la pregunta: ¿qu ´e es el objeto?, por medio de la b ´usqueda de las similitudes entre una imagen y el objetivo (Frintrop, 2006).
sobre-salientes que utiliza el conocimiento acerca de la distribuci ´on de caracter´ısticas sobre la imagen. Peters y Itti (2007) proponen un modelo que combina la atenci ´on visual as-cendente y la desas-cendente, en el cual se mide la habilidad del modelo para predecir los movimientos oculares sac ´adicos de la gente mientras se juega un videojuego.
Desde la perspectiva de un modelo computacional, los procesos descendentes no son una tarea trivial, ya que se involucran las emociones, deseos y el prop ´osito del obser-vador. Estos conceptos cognitivos son dif´ıciles de modelar y a ´un son temas abiertos de estudio en las ciencias computacionales para los que existen propuestas un tanto b ´asicas o elementales.
2.2.3. Atenci ´on visual inspirada biol ´ogicamente
A finales del siglo XX, despu ´es de la llegada de las computadoras digitales, una gran cantidad de trabajos intentaron emular la funcionalidad de la corteza visual humana con el objetivo de realizar los procesos de la atenci ´on visual, el reconocimiento de objetos, y la detecci ´on de objetos; esta ´ultima puede ser vista como una combinaci ´on de los dos primeros procesos. Fue as´ı como durante el per´ıodo de los 80s, 90s y primera d ´ecada del siglo XXI surgieron varios sistemas computacionales de atenci ´on visual bas ´andose en es-tructuras jer ´arquicas, adaptadas principalmente de la teor´ıa psicol ´ogica de la integraci ´on de caracter´ısticas propuesta por Treisman y Gelade (1980), que indica que la atenci ´on se procesa en dos etapas sucesivas. La primera se llama etapa de preatenci ´on, la cual se procesa en paralelo a lo largo de las dimensiones de caracter´ısticas de una escena dada: forma, color, orientaci ´on, frecuencia espacial, brillo y direcci ´on de movimiento. La segunda etapa se llama atenci ´on focal y proporciona la integraci ´on de las caracter´ısticas que se hab´ıan procesado de forma separada. Uno de los m ´etodos m ´as utilizados para realizar la integraci ´on de las caracter´ısticas es el propuesto por Koch y Ullman (1987), el cual consiste en la construcci ´on de un mapa de prominencia usando un proceso de redes neuronales llamado “el ganador toma todo” (WTA)1 para combinar la informaci ´on de los
mapas de caracter´ısticas y proporcionar como salida la ubicaci ´on m ´as prominente de la escena.
Una mejora a los sistemas de atenci ´on visual fue realizada por Milanese (1993) quien propone un sistema visual basado en los trabajos de Koch y Ullman (1987) y la teor´ıa de la b ´usqueda guiada de Wolfeet al.(1989). El sistema visual propuesto por Milanese utiliza filtros como operaciones para calcular dos oponentes de color: rojo-verde y azul-amarillo; con 16 diferentes orientaciones e informaci ´on local de curvatura. Dichas operaciones de-finen los mapas de caracter´ısticas que luego se transforman mediante la aplicaci ´on de un operador de prominencia, el cual esta basado en las c ´elulas de encendido y apagado de la corteza visual. Este proceso se define normalmente como el mecanismo de centro-periferia que se aplica con el objeto para generar el llamado mapa conspicuo por cada dimensi ´on. Finalmente, se crea un mapa de prominencia a trav ´es de un proceso de rela-jaci ´on de los mapas conspicuos que identifica un peque ˜no n ´umero de regiones convexas de la imagen.
Siguiendo esta l´ınea de investigaci ´on, Tsotsos et al.(1995) modelaron el proceso de atenci ´on visual mediante el concepto de la afinidad selectiva lograda con los procesos jer ´arquicos del WTA integrados dentro de la pir ´amide del procesamiento visual.
Recientemente, en Marat et al. (2013) se sugiere un nuevo modelo que combina el proceso de extracci ´on de caracter´ısticas de bajo nivel con la aplicaci ´on de caracter´ısticas de alto nivel; el cual resalta la informaci ´on de orientaci ´on, frecuencia espacial y amplitud de movimiento, para realizar el reconocimiento de rostros y la medici ´on de los movimien-tos del ojo en videos.
Finalmente, en el trabajo de Olague et al. (2014b) y Dozal et al. (2014), se propone el modelo de la ruta dorsal artificial, basado en la teor´ıa de integraci ´on de caracter´ısti-cas de Treisman y Gelade (1980) y el modelo implementado por Ittiet al.(1998) con una mejora significativa. En este nuevo modelo se consideran a la atenci ´on visual como una sola estructura computacional que realiza ambos procesos en los que otros enfoques di-viden la atenci ´on visual, los procesos de la atenci ´on visual ascendente y descendente, mencionados anteriormente. Esto se logra planteando el problema como un proceso de aprendizaje donde los programas se desarrollan en relaci ´on a la tarea visual propuesta. De esta forma su propuesta se basa en la programaci ´on gen ´etica y desarrollada junto con las metodolog´ıas del estado del arte en neurociencias, proponiendo el paradigma de la programaci ´on cerebral. Dicha metodolog´ıa permite dise ˜nar programas, los cuales per-miten atender a un objeto especifico, mediante el modelo de la ruta dorsal artificial. As´ı, la idea es realizar la optimizaci ´on de un programa computacional que identifique las ca-racter´ısticas y la forma correcta de combinarlas, con el objetivo de resaltar la informaci ´on visual necesaria para el objeto espec´ıfico.
2.3. Reconocimiento de objetos
2.3.1. Definici ´on de reconocimiento de objetos
El reconocimiento de objetos b ´asicamente consiste en la tarea de determinar si los datos de una imagen contienen un objeto espec´ıfico. Formalmente, el problema del reco-nocimiento de objetos puede definirse en los siguientes t ´erminos:
Dada una imagenI, una base de datos dek objetos, y una representaci ´on Rj
por cada objeto j en las im ´agenes de la base de datos; la tarea de reconoci-miento de objetos puede expresarse como la b ´usqueda del argumento m´ınimo en la expresi ´on:
Q=arg min c(Rj, I) jε1, ..., k ,
dondec(Rj, I)es una funci ´on que provee la compatibilidad o consistencia para representar al objetoj en una imagenI (Olague, to appear).
Otra definici ´on para el reconocimiento de objetos, propuesta por Russell y Norvig (2009), se puede expresar de la siguiente forma:
Dado un conjunto de im ´agenes que contienen uno o m ´as objetos selec-cionados de una colecci ´on de objetos O1, O2, . . . , On conocidos a priori,
y
Dada la imagen de una escena tomada desde una posici ´on y orientaci ´on desconocidas;
Se debe responder la siguiente pregunta:
1. ¿Cu ´ales de los objetosO1, O2, . . . , Onest ´an presentes en la escena?
2.3.2. Clasificaci ´on e identificaci ´on
Algunos estudios realizados por investigadores en el ´area de las neurociencias, bus-can ampliar la comprensi ´on que se tiene sobre como el cerebro humano lleva a cabo los procesos para la interpretaci ´on de una escena (Rosch et al., 1976; Logothetis y Shein-berg, 1996). De estos estudios se puede definir que el proceso general del reconocimiento de objetos puede dividirse en dos procesos que se consideran relacionados aunque a la vez diferentes: la clasificaci ´on y la identificaci ´on.
Las definiciones de clasificaci ´on e identificaci ´on pueden llegar a ser un poco ambi-guas, y dependen del ´area y el contexto en el que se est ´an manejando. En el trabajo de Ullmanet al.(2001) los procesos de clasificaci ´on e identificaci ´on se consideran como procesos distintos. Se define a la clasificaci ´on como el reconocimiento que se basa en la descripci ´on general de un objeto como perteneciente a una clase natural de objetos similares; i.e., la clasificaci ´on de rostros considerando una base de datos con im ´agenes donde se encuentren presentes personas. Mientras que la identificaci ´on se define como un nivel m ´as espec´ıfico de reconocimiento, es decir, el reconocimiento de un objeto es-pec´ıfico de una clase; i.e. la identificaci ´on de un rostro en particular. Sin embargo, cuando se abordan los procesos de clasificaci ´on e identificaci ´on con un enfoque biol ´ogico, ambos se definen como procesos relacionados donde la clasificaci ´on es vista como un proceso m ´as general donde a la vez se involucra al proceso de identificaci ´on.
Cuando nos referimos a la visi ´on humana se dice que la clasificaci ´on es un proceso natural, sin mucho esfuerzo podemos clasificar un nuevo objeto en alguna clase ya co-nocida; i.e. la clase persona, carro, perro, casa, entre otras. La clasificaci ´on de un objeto como miembro de una clase suele ser m ´as f ´acil que la identificaci ´on de un objeto es-pec´ıfico debido a que la identificaci ´on requiere de un mayor conocimiento del objeto. En contraste, los sistemas de visi ´on por computadora actuales pueden realizar de manera m ´as f ´acil el proceso de identificaci ´on de un objeto espec´ıfico en comparaci ´on al proceso de la clasificaci ´on.
de la misma clase; i.e. tama ˜no, forma, color, apariencia, iluminaci ´on, vistas, entre otras. Adem ´as, el sistema visual humano aprende, de alguna manera a partir de la experiencia, las caracter´ısticas que conforman al objeto sin importar sus posibles variaciones. Esto hace que la clasificaci ´on sea una tarea m ´as dif´ıcil para los sistemas artificiales que el proceso de la identificaci ´on de un objeto espec´ıfico a partir de extracci ´on de rasgos lo-cales, donde se utilizan combinaciones de im ´agenes o la interpolaci ´on de patrones para predecir la apariencia de un objeto conocido bajo varias perspectivas.
As´ı, para realizar el proceso de la identificaci ´on de un objeto espec´ıfico se puede sim-plificar el problema y proporcionar al sistema un modelo completo y exacto del objeto, donde las variaciones esperadas puedan ser descritas con precisi ´on. En cambio, para realizar el proceso de clasificaci ´on es dif´ıcil prever una definici ´on precisa para todas las variaciones posibles de los objetos de una misma clase, por lo que se realiza la cons-trucci ´on de un descriptor, compuesto por un conjunto de propiedades invariantes que generalizan y representan a los objetos pertenecientes a una misma clase.
2.3.3. Reconocimiento de objetos inspirado biol ´ogicamente
En general, el sistema visual humano es capaz de reconocer y clasificar un objeto de acuerdo a una categor´ıa con facilidad. Adem ´as, estas tareas son realizadas en el orden de milisegundos (Grill-Spector y Kanwisher, 2005). De esta manera algunas investigacio-nes se centran en estudiar al sistema visual humano (SVH) como un modelo que ofrece los pasos claves para resolver el problema de reconocimiento de objetos. Dichas investi-gaciones se describen a continuaci ´on.
Como se mencion ´o anteriormente, a finales del siglo XX una gran cantidad de trabajos intentaron emular la funcionalidad de la corteza visual humana con el objetivo de realizar los procesos de la atenci ´on visual, el reconocimiento de objetos y la detecci ´on de objetos.
Desde un punto de vista computacional el primer trabajo que abord ´o el problema del reconocimiento de objetos fue desarrollado por Fukushima (1980), quien propuso un mo-delo neuronal llamado Neocognitron para resolver esta tarea. En su trabajo, la estructura computacional estaba inspirada en el sistema nervioso visual y el modelo jer ´arquico de Hubel y Wiesel (1959). Esta estructura se representa por una red formada por una ca-pa de entrada, seguida por una serie de estructuras modulares tambi ´en conocidas como c ´elulas simples y complejas (c ´elulas-S y c ´elulas-C). Su idea intenta imitar las caracter´ısti-cas de las c ´elulas simples, o hipercomplejas de bajo orden, as´ı como tambi ´en las c ´elulas complejas, o hipercomplejas de alto orden. En la pr ´actica este modelo es capaz de reco-nocer letras y n ´umeros considerando un cambio en la posici ´on.
M ´as tarde Biederman (1987), propuso la teor´ıa del reconocimiento por componentes (RBC)2; donde un objeto puede ser reconocido mediante la combinaci ´on de los elemen-tos llamados geones (bloques, cilindros y embudos o conos truncados), los cuales son similares a los fonemas en el lenguaje humano. Este enfoque fue extendido por Perrett y Oram (1998) a trav ´es de un modelo basado en patrones formados por conjunciones sim-ples de elementos 2-D, que incrementan su complejidad a lo largo de una serie de etapas e imitan las propiedades de las c ´elulas de la ruta cortical ventral. Este modelo jer ´arquico es invariante a la rotaci ´on y transformaciones de tama ˜no de un objeto.
Despu ´es, Ullman y Soloviev (1999) propusieron la uni ´on de m ´ultiples fragmentos, o patrones visuales, de im ´agenes sobrepuestas para lograr la invarianza de cambio en formas complejas. Este enfoque fue mejorado posteriormente por Ullmanet al.(2002).
En el mismo a ˜no, Riesenhuber y Poggio (1999) introdujeron una arquitectura jer ´arqui-ca con alimentaci ´on hacia adelante similar a la de Neocognitron utilizando la t ´ecni´arqui-ca de coincidencia de plantillas, pero con la incorporaci ´on de la operaci ´on del m ´aximo como un mejor modelo de las c ´elulas complejas en contraste con la sumatoria lineal que se rea-lizaba en los modelos previos. Este modelo da una respuesta robusta con invarianza en posici ´on, y se argumenta que su funcionalidad es biol ´ogicamente pausible. M ´as tarde, el modelo fue probado por Serreet al. (2005) para reconocer im ´agenes artificiales de clips y fue mejorado algoritmicamente por Mutch y Lowe (2008) logrando un mejor desempe ˜no
en el reconocimiento de objetos mediante el uso del diccionario universal de caracter´ısti-cas propuesto anteriormente por Riesenhuber y Poggio (1999). A lo largo de esta l´ınea de investigaci ´on, se han propuesto varios trabajos para optimizar el n ´umero de parches o caracter´ısticas, as´ı como para mejorar la descripci ´on del objeto siguiendo un modelo jer ´arquico, como es el caso de los trabajos de Wersing y K ¨orner (2003), Ghodrati et al. (2012), Clemente et al.(2012), entre otros.
Existen otros trabajos que abordan el problema de reconocimiento de objetos, pero que a la vez utilizan la atenci ´on visual combinando estos dos procesos del sistema visual. Estos trabajos se describen en la siguiente secci ´on.
2.4. Reconocimiento de objetos y atenci ´on visual
En las secciones anteriores, se describieron los trabajos basados en un enfoque biol ´ogico de los dos procesos b ´asicos de la visi ´on: el reconocimiento de objetos realizado en la ruta ventral y la atenci ´on visual realizada en la ruta dorsal. Sin embargo, existen algunos trabajos que integran ambos enfoques.
El primer trabajo es el de Fukushima (1987) donde se implemento una red neuronal jer ´arquica que sirve como modelo para la atenci ´on selectiva y el reconocimiento de ob-jetos. En este caso, cuando varios patrones se presentan simult ´aneamente, el modelo realiza una atenci ´on selectiva para cada uno, segment ´andolo del resto y reconoci ´endolo de forma separada.
M ´as tarde Olshausen et al.(1993) definieron un modelo biol ´ogicamente pausible que combina un mecanismo de atenci ´on con un proceso de reconocimiento de objetos para formar representaciones invariantes a escala y a la posici ´on en el mundo visual.