Clasificación de objetos en imágenes naturales utilizando el paradigma de la programación cerebral con un enfoque multiobjetivoObject classi?cation in natural images using the brain programming paradigm with a multi-objective approach.

(1)

SUPERIOR DE ENSENADA, BAJA CALIFORNIA

MR

PROGRAMA DE POSGRADO EN CIENCIAS

EN CIENCIAS DE LA COMPUTACI ´

ON

Clasificaci ´on de objetos en im ´agenes naturales

utilizando el paradigma de la programaci ´on

cerebral con un enfoque multiobjetivo.

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de Maestro en Ciencias

Presenta:

Jos ´e Carlos Mercado Chan

(2)

(3)

Jos ´e Carlos Mercado Chan

y aprobada por el siguiente comit ´e

Dr. Gustavo Olague Caballero

Codirector del Comit ´e

M.C. Jos ´e Luis Brise ˜no Cervantes

Codirector del Comit ´e

Dra. M ´onica Elizabeth Tentori Espinosa

Miembro del Comit ´e

Dr. Jos ´e Luis Medina Monroy

Miembro del Comit ´e

Dra. Ana Isabel Mart´ınez Garc´ıa

Coordinador del Programa de Posgrado en Ciencias de la Computaci ´on

Dr. Jes ´us Favela Vara

Director de Estudios de Posgrado

(4)

(5)

Resumen de la tesis que presenta Jos é Carlos Mercado Chan como requisito parcial para la obtenci ón del grado de Maestro en Ciencias en Ciencias de la Computaci ón.

Clasificaci ón de objetos en im ágenes naturales utilizando el paradigma de la programaci ón cerebral con un enfoque multiobjetivo.

Resumen elaborado por:

Jos ´e Carlos Mercado Chan

Por varias d écadas, el reconocimiento de objetos ha sido uno de los principales proble-mas estudiados por la comunidad cient´ıfica de visi ón por computadora, con el prop ósito de poder dotar a los sistemas artificiales y agentes cognitivos con la capacidad de llevar a cabo este proceso y permitirles una mejor interacci ón con el medio que los rodea. Sin embargo, hoy en d´ıa, sigue siendo un problema abierto.

El reconocimiento de objetos puede verse como la combinaci ón de dos procesos re-lacionados aunque a la vez diferentes: la clasificaci ón y la identificaci ón. En este trabajo de tesis se trata el problema de la clasificaci ón, el cual se puede definir como el reco-nocimiento que se basa en la descripci ón general de un objeto como perteneciente a una clase natural de objetos similares. En las últimas d écadas algunas investigaciones se han centrado en estudiar al sistema visual humano como un modelo que ofrece los pasos claves para resolver dicho problema, el cual exhibe resultados prometedores com-parados con los reportados en el estado del arte, alcanzando algunas veces resultados superiores.

Este trabajo de tesis se encarga de estudiar el problema de la clasificaci ón de objetos en im ágenes naturales tomando como base el m étodo de la corteza visual artificial, defini-do en trabajos anteriores, defini-donde se propone como un modelo computacional que realiza una analog´ıa con el funcionamiento de la corteza visual humana. A la vez, se hace uso de la programaci ón cerebral que consiste en un paradigma evolutivo basado en la progra-maci ón gen ética. Se realiza un an álisis del desempe ño de estas propuestas trabajando con im ágenes naturales y se proponen algunas mejoras para la corteza visual artificial, as´ı como tambi én el uso de la programaci ón cerebral con un enfoque multiobjetivo con el fin de involucrar a la atenci ón visual mediante el proceso de la detecci ón de objetos.

Los resultados obtenidos en este trabajo de tesis logran superar la mayor´ıa de los resultados reportados en el estado del arte para el problema que hemos abordado, au-mentando as´ı las aplicaciones y la robustez del m ´etodo de la corteza visual artificial y el paradigma de la programaci ´on cerebral.

(6)

(7)

Abstract of the thesis presented by Jos ´e Carlos Mercado Chan as a partial requirement to obtain the Master of Science degree in Master in Sciences in Computer Science.

Object classification in natural images using the brain programming paradigm with a multi-objective approach.

Abstract by:

Jos ´e Carlos Mercado Chan

During several decades object recognition has been one of the main problems studied by the computer vision community, with the purpose of providing artificial systems and cognitive agents with the capability of carrying out this process in order to achieve better interactions with the environment around them. However, it still remains an open problem.

Object recognition can be seen as the combination of two related but different proces-ses: classification and identification. On this thesis we focus on the classification problem, which can be defined as the recognition based on the general description of an object as an element to a natural set of similar objects. In recent decades, some research has focus on the human visual system as a model of study that may provide the key to sol-ve the problem, which has shown promising results compared with those reported in the state-of-the-art, and sometimes outperforming them.

This thesis studies the problem of objects classification in natural images based on the artificial visual cortex model defined in previous work, which is proposed as a compu-tational model analogous to the functionality of the human visual cortex. At the same time, applying the paradigm known as brain programming which is an evolutionary model based on genetic programming. The performance analysis of these proposed systems is perfor-med working over natural images. Some improvements for the artificial visual cortex are proposed, as well as the use of the brain programming paradigm with a multi-objective approach in order to integrate the visual attention process for object detection.

The results obtained in this thesis surpass most of the results reported in the state-of-the-art for the problem addressed in this work. Therefore, increasing the robustness of the artificial visual cortex method and brain the programming paradigm, hence increasing the possible applications for both these models.

(8)

(9)

Dedicatoria

A mis padres

Margarita Chan L ´opez y

(10)

(11)

Agradecimientos

A mis padres, por todas sus ense ˜nanzas y la formaci ´on que me han brindado. A mis

hermanos, por siempre estar ah´ı, brind ´andome su motivaci ´on y apoyo. A toda mi familia.

A Nayely Casas, quien ha llegado a formar parte importante de mi vida, d ´andole un

sentido y direcci ón, por su cari ño, motivaci ón, apoyo y paciencia durante todo mi tiempo

de estudio en la maestr´ıa.

A mis codirectores de tesis, el Dr.Gustavo Olague y el M.C. Jos ´e Luis Brise ˜no, y a los

miembros del comit é de tesis, la Dra.M ónica Tentori y el Dr.Jos é Luis Medina, por sus

ense ˜nanzas y apoyo, as´ı como por su tiempo, inter ´es, consejos y aportaciones brindadas

para la realizaci ´on de este trabajo de tesis.

A los compa ñeros del laboratorio de Evovisi ón: Miguel, Le ón, Pa úl, Andersen y Luis,

por su amistad y sus consejos. Y en especial a Eddie y Daniel, por su tiempo, sus valiosas

aportaciones y su amistad.

A Cynthia, Jacob y la familia Duarte Dominguez, por su amistad y apoyo durante mi

estancia en la ciudad de Ensenada.

A todos los investigadores, estudiantes y personal del departamento de ciencias de la

computaci ón por su ense ñanza acad émica.

Al Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada

(CICE-SE) por haberme abierto las puertas y brindarme la infraestructura necesaria para mi

formaci ´on acad ´emica.

Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACyT) por brindarme el apoyo

(12)

(13)

Tabla de contenido

P ´agina

Resumen en espa ˜nol v

Resumen en ingl ´es vii

Dedicatoria ix

Agradecimientos xi

Lista de figuras xvii

Lista de tablas xxiii

1. Introducci ´on 1

1.1. Descripci ´on del problema . . . 2

1.2. Objetivos . . . 3

1.2.1. Objetivo general . . . 3

1.2.2. Objetivos espec´ıficos . . . 3

1.3. Contribuciones . . . 4

1.4. Organizaci ´on de la tesis . . . 5

2. Marco te ´orico 7 2.1. El sistema visual humano . . . 7

2.1.1. El cerebro humano . . . 8

2.1.2. El sistema visual y la corteza visual . . . 10

2.2. Atenci ´on visual . . . 14

2.2.1. Definici ´on de atenci ´on visual . . . 14

2.2.2. Atenci ´on visual ascendente y descendente . . . 15

2.2.2.1. Atenci ´on visual ascendente . . . 15

2.2.2.2. Atenci ´on visual descendente . . . 16

2.2.3. Atenci ´on visual inspirada biol ´ogicamente . . . 17

2.3. Reconocimiento de objetos . . . 19

2.3.1. Definici ´on de reconocimiento de objetos . . . 20

2.3.2. Clasificaci ´on e identificaci ´on . . . 21

2.3.3. Reconocimiento de objetos inspirado biol ´ogicamente . . . 22

2.4. Reconocimiento de objetos y atenci ´on visual . . . 24

3. M étricas de evaluaci ón del rendimiento de los m étodos de reconocimiento de objetos 27 3.1. Exactitud . . . 29

3.2. Precisi ´on y cobertura . . . 29

3.3. Precisi ´on media . . . 32

3.4. Gr ´aficas y curvas ROC . . . 33

3.4.1. Espacio ROC . . . 34

3.4.2. Las curvas ROC . . . 36

3.4.3. Puntuaciones relativas contra absolutas . . . 38

3.4.4. Generando curvas ROC . . . 40

(14)

Tabla de contenido (continuaci ´on)

3.4.6. Tasa de error equivalente (EER) . . . 42

3.5. Medida-F . . . 44

4. Bases de datos para la clasificaci ´on de objetos 47 4.1. CalTech-5 . . . 48

4.2. GRAZ . . . 50

4.2.1. GRAZ-01 . . . 50

4.2.2. GRAZ-02 . . . 51

4.3. VOC . . . 53

4.3.1. Competencias de clasificaci ´on y detecci ´on . . . 54

4.3.2. Conjunto de datos y evaluaci ´on . . . 55

5. M ´etodos 59 5.1. Corteza visual artificial . . . 59

5.1.1. Etapa de adquisici ´on y transformaci ´on de caracter´ısticas . . . 59

5.1.1.1. Dimensiones de caracter´ısticas . . . 62

5.1.1.2. El proceso centro-periferia . . . 65

5.1.2. Etapa de descripci ´on y clasificaci ´on . . . 65

5.1.2.1. Mapas mentales y descripci ´on . . . 66

5.1.2.2. Clasificaci ´on . . . 67

5.2. Programaci ´on cerebral . . . 67

5.2.1. Proceso evolutivo de la programaci ´on cerebral . . . 69

5.2.2. Representaci ´on gen ´etica de la corteza visual artificial . . . 70

5.2.3. Funci ´on objetivo . . . 76

5.2.4. Operadores gen ´eticos . . . 76

5.2.4.1. Operadores de cruce . . . 77

5.2.4.2. Operadores de mutaci ´on . . . 79

5.3. Corteza visual artificial version 2 . . . 80

5.3.1. Modificaci ´on de la etapa de descripci ´on de la CVA . . . 82

5.4. Programaci ´on cerebral con enfoque multiobjetivo . . . 85

5.4.1. Antecedentes de la optimizaci ´on multiobjetivo . . . 87

5.4.2. Definiciones en la optimizaci ´on multiobjetivo . . . 88

5.4.3. Algoritmos evolutivos multiobjetivo . . . 91

5.4.4. Programaci ´on cerebral con enfoque multiobjetivo . . . 93

6. Experimentos y resultados 95 6.1. Especificaciones t ´ecnicas . . . 95

6.2. Metodolog´ıa general . . . 95

6.3. Dise ˜no de los experimentos . . . 97

6.3.1. GRAZ-01 . . . 97

6.3.2. GRAZ-02 . . . 99

6.3.3. VOC . . . 101

6.4. Configuraciones iniciales de la programaci ´on cerebral . . . 102

(15)

Tabla de contenido (continuaci ´on)

6.5.1. CVA . . . 104

6.5.1.1. An ´alisis del proceso evolutivo . . . 104

6.5.1.2. An ´alisis del rendimiento de los mejores individuos . . . 112

6.5.1.3. An ´alisis estructural de los mejores individuos . . . 118

6.5.1.4. Funcionamiento de los mejores individuos . . . 119

6.5.2. CVA2 . . . 130

6.5.3. CVA-MO . . . 154

6.5.4. VOC . . . 180

7. Conclusiones 195 7.1. Conclusiones . . . 195

7.2. Aportaciones . . . 196

7.3. Trabajo futuro . . . 197

(16)

(17)

Lista de figuras

Figura P ´agina

1. Vista lateral de los l ´obulos del cerebro humano. . . 9

2. Anatom´ıa del ojo humano. . . 11

3. Diagrama esquem ático del flujo de la informaci ón en el sistema visual y de las áreas de la corteza visual que participan en su procesamiento. . . 13

4. Matriz de confusi ´on de las predicciones de un clasificador. . . 28

5. Curva de precisi ´on y cobertura. . . 31

6. Relaci ´on entre precisi ´on y cobertura. . . 31

7. Gr áfica de la precisi ón media interpolada comparada con una gr áfica de precisi ón y cobertura. . . 33

8. Gr ´afica ROC donde se muestran cinco clasificadores discretos y algunas caracter´ısticas sobre el an ´alisis del espacio ROC. . . 35

9. Curva ROC generada variando el umbral en el conjunto de prueba de 20 instancias. . . 37

10. Curvas ROC y gr áficas de precisi ón y cobertura para clases con distribu-ci ón no uniforme. (a)Curvas ROC, 1:1; (b)Curvas de predistribu-cisi ón y cobertura, 1:1;(c)Curvas ROC, 1:10; (d)Curvas de precisi ón y cobertura, 1:10 . . . 39

11. Dos gr áficas ROC. (a) Muestra el área baja dos curvas ROC. (b) Muestra el área bajo la curva de un clasificador discreto A y un clasificador proba-bil´ıstico B . . . 41

12. C ´alculo del EER usando el punto de intersecci ´on de fpr y fnr. . . 43

13. C ´alculo del EER de una curva ROC. . . 43

14. Diagrama que muestra las áreas que se utilizan para calcular la cobertura y la precisi ón para el c álculo de la medida-F, en base a un proto-objeto y la segmentaci ón manual del objeto. . . 45

15. Ejemplos de las im ´agenes de la base de datos de CalTech-5 . . . 49

16. Ejemplos de las im ´agenes de la clase de fondo de la base de datos de CalTech-5 . . . 49

17. Ejemplos de las im ´agenes en GRAZ-01. . . 51

18. Ejemplos de las im ´agenes en GRAZ-02. . . 52

19. Ejemplos de las im ´agenes de la base de datos de VOC2007. . . 57

20. Clases de objetos presentes en VOC2007. . . 58

21. Analog´ıa del modelo biol ´ogico y el modelo computacional CVA. . . 60

(18)

Lista de figuras (continuaci ´on)

Figura P ´agina

23. Ciclo inspirado en la evoluci ón natural y aplicado en el computo evolutivo. . 68 24. Representaci ón de una soluci ón o individuo y su analog´ıa con el sistema

natural . . . 71 25. Representaci ón de una soluci ón o individuo a trav és de su genotipo . . . . 72 26. Esquemas que ilustran las operaciones de cruzamiento a nivel cromosoma

(a) y a nivel gen (b). . . 78 27. Esquemas que ilustran las operaciones de mutaci ´on a nivel cromosoma (a)

y a nivel gen (b). . . 79 28. Ejemplos de los resultados utilizando la CVA donde los puntos del

descrip-tor se encuentran dispersos en la imagen. . . 81 29. Flujo de la informaci ´on visual para la CVA2. . . 84 30. Nueva matriz de confusi ´on donde se combinan los procesos de

clasifica-ci ón y detecclasifica-ci ón. . . 86 31. Relaci ón entre el espacio de variables de decisi ón y el espacio de funciones

objetivo . . . 89 32. Nueva mutaci ´on a nivel cromosoma implementado para la programaci ´on

cerebral con enfoque multiobjetivo. . . 94 33. Generaci ´on de los conjuntos utilizados en la prueba de validaci ´on cruzada

para los experimentos sobre el conjunto de datos de GRAZ-01 . . . 98 34. Generaci ´on de los conjuntos utilizados en la prueba de validaci ´on cruzada

para los experimentos sobre el conjunto de datos de GRAZ-02 . . . 99 35. Ejemplos de im ágenes segmentadas del conjunto de GRAZ-02. . . 100 36. Ejemplos de im ágenes segmentadas del reto VOC2007 de la clase Personas.101 37. An álisis del proceso evolutivo utilizando la CVA mediante la programaci ón

cerebral sobre la clase Bicicletas de GRAZ-01. . . 107 38. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on

cerebral sobre la clase Personas de GRAZ-01. . . 108 39. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on

cerebral sobre la clase Bicicletas de GRAZ-02. . . 109 40. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on

(19)

Lista de figuras (continuaci ´on)

Figura P ´agina

41. An álisis del proceso evolutivo utilizando la CVA mediante la programaci ón cerebral sobre la clase Carros de GRAZ-02. . . 111 42. Comparaci ón del desempe ño de la CVA mediante las curvas ROC con los

m étodos del estado del arte sobre GRAZ-01. . . 116 43. Comparaci ón del desempe ño de la CVA mediante las curvas ROC con los

m ´etodos del estado del arte sobre GRAZ-02. . . 117 44. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-01. . . 120 45. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-01. . . 121 46. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-02. . . 122 47. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

in-dividuos generados mediante la CVA y considerando el conjunto de im ´age-nes de GRAZ-02. . . 123 48. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-01 generado mediante la CVA. . . 125 49. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de GRAZ-01 generado mediante la CVA. . . 126 50. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-02 generado mediante la CVA. . . 127 51. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de GRAZ-02 generado mediante la CVA. . . 128 52. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros

de GRAZ-02 generado mediante la CVA. . . 129 53. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on

cerebral sobre la clase Bicicletas de GRAZ-01. . . 132 54. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on

cerebral sobre la clase Personas de GRAZ-01. . . 133 55. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on

(20)

Lista de figuras (continuaci ´on)

Figura P ´agina

56. An álisis del proceso evolutivo utilizando la CVA2 mediante la programaci ón cerebral sobre la clase Personas de GRAZ-02. . . 135 57. An álisis del proceso evolutivo utilizando la CVA2 mediante la programaci ón

cerebral sobre la clase Carros de GRAZ-02. . . 136 58. Comparaci ´on del desempe ˜no de la CVA2 mediante las curvas ROC con los

m étodos del estado del arte sobre GRAZ-01. . . 140 59. Comparaci ón del desempe ño de la CVA2 mediante las curvas ROC con los

m ´etodos del estado del arte sobre GRAZ-02. . . 141 60. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

indi-viduos generados mediante la CVA2 y considerando el conjunto de im ´age-nes de GRAZ-01. . . 144 61. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

individuos generados mediante la CVA2 y considerando el conjunto de im ´agenes de GRAZ-01. . . 145 62. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

indi-viduos generados mediante la CVA2 y considerando el conjunto de im ´age-nes de GRAZ-02. . . 146 63. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

individuos generados mediante la CVA2 y considerando el conjunto de im ´agenes de GRAZ-02. . . 147 64. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-01 generado mediante la CVA2. . . 149 65. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de GRAZ-01 generado mediante la CVA2. . . 150 66. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-02 generado mediante la CVA2. . . 151 67. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de GRAZ-02 generado mediante la CVA2. . . 152 68. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros

de GRAZ-02 generado mediante la CVA2. . . 153 69. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la

progra-maci ´on cerebral sobre la clase Bicicletas de GRAZ-01. . . 156 70. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la

(21)

Lista de figuras (continuaci ´on)

Figura P ´agina

71. An álisis del proceso evolutivo utilizando la CVA2-MO mediante la progra-maci ón cerebral sobre la clase Bicicletas de GRAZ-02. . . 158 72. An álisis del proceso evolutivo utilizando la CVA2-MO mediante la

progra-maci ´on cerebral sobre la clase Personas de GRAZ-02. . . 159 73. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la

progra-maci ´on cerebral sobre la clase Carros de GRAZ-02. . . 160 74. Frentes de Pareto encontrados mediante la CVA-MO para las clases de

GRAZ-01. . . 161 75. Frentes de Pareto encontrados mediante la CVA-MO para las clases de

GRAZ-02. . . 161 76. Comparaci ´on del desempe ˜no de la CVA2-MO mediante las curvas ROC

con los m étodos del estado del arte sobre GRAZ-01. . . 166 77. Comparaci ón del desempe ño de la CVA2-MO mediante las curvas ROC

con los m ´etodos del estado del arte sobre GRAZ-02. . . 167 78. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-01. . . 170 79. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-01. . . 171 80. Frecuencia de uso de las funciones por cada dimensi ´on de los mejores

individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-02. . . 172 81. Frecuencia de uso de las terminales por cada dimensi ´on de los mejores

individuos generados mediante la CVA2-MO y considerando el conjunto de im ´agenes de GRAZ-02. . . 173 82. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-01 generado mediante la CVA2-MO. . . 175 83. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de GRAZ-01 generado mediante la CVA2-MO. . . 176 84. Ejemplo visual del funcionamiento del mejor individuo para la clase

Bicicle-tas de GRAZ-02 generado mediante la CVA2-MO. . . 177 85. Ejemplo visual del funcionamiento del mejor individuo para la clase

(22)

Lista de figuras (continuaci ´on)

Figura P ´agina

86. Ejemplo visual del funcionamiento del mejor individuo para la clase Carros de GRAZ-02 generado mediante la CVA2-MO. . . 179 87. An ´alisis del proceso evolutivo utilizando la CVA mediante la programaci ´on

cerebral sobre la clase Personas de VOC2007. . . 182 88. An ´alisis del proceso evolutivo utilizando la CVA2 mediante la programaci ´on

cerebral sobre la clase Personas de VOC2007. . . 183 89. An ´alisis del proceso evolutivo utilizando la CVA2-MO mediante la

progra-maci ´on cerebral sobre la clase Personas de VOC2007. . . 184 90. Frecuencia de uso de las funciones por cada dimensi ´on de los individuos de

la última generaci ón generados mediante la CVA, la CVA2 y la CVA2-MO, considerando el conjunto de im ágenes de la clase Personas de VOC2007. 187 91. Frecuencia de uso de las terminales por cada dimensi ón de los

indivi-duos de la última generaci ón generados mediante la CVA, la CVA2 y la CVA2-MO, considerando el conjunto de im ágenes de la clase Personas de VOC2007. . . 188 92. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de VOC2007 generado mediante la CVA. . . 191 93. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de VOC2007 generado mediante la CVA2. . . 192 94. Ejemplo visual del funcionamiento del mejor individuo para la clase

Perso-nas de VOC2007 generado mediante la CVA2-MO. . . 193 A.1. Ejecuci ón de c ódigo en forma paralela utilizando la instrucci ón“parfor”. Se

(23)

Lista de tablas

Tabla P ´agina

1. Comparaci ´on entre el rendimiento de HMAX y AVC para la base de datos de CalTech-5. . . 49 2. Funciones y terminales para el operador visual de orientaci ´on (OVO) 73

3. Funciones y terminales para el operador visual de color (OVC) . . . . 74

4. Funciones y terminales para el operador visual de forma (OVF) . . . 74

5. Funciones y terminales para el operador visual de los mapas menta-les (OVM M) . . . 75

6. Configuraciones de la programaci ´on cerebral sobre los conjuntos de datos de GRAZ . . . 102 7. Configuraciones de la programaci ´on cerebral sobre la clase Personas

de VOC2007 . . . 103 8. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA sobre la clase Bicicletas de GRAZ-01. . . 113 9. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA sobre la clase Personas de GRAZ-01. . . 114 10. Estad´ısticas del desempe ˜no de los mejores individuos en los

experi-mentos utilizando la CVA sobre GRAZ-01. . . 114 11. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA sobre la clase Bicicletas de GRAZ-02. . . 114 12. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA sobre la clase Personas de GRAZ-02. . . 115 13. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA sobre la clase Carros de GRAZ-02. . . 115 14. Estad´ısticas del desempe ˜no de los mejores individuos en los

experi-mentos utilizando la CVA sobre GRAZ-02. . . 115 15. Comparaci ón del desempe ño de la CVA con los m étodos del estado

del arte sobre GRAZ-01. . . 116 16. Comparaci ón del desempe ño de la CVA con los m étodos del estado

del arte sobre GRAZ-02. . . 117 17. Estructura del mejor individuo por cada clase de los conjuntos de

datos de GRAZ generados mediante la CVA. . . 124 18. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2 sobre la clase Bicicletas de GRAZ-01. . . 138 19. Desempe ˜no del mejor individuo de cada corrida en los experimentos

(24)

Lista de tablas (continuaci ´on)

Tabla P ´agina

20. Estad´ısticas del desempe ˜no de los mejores individuos en los experi-mentos utilizando la CVA2 sobre GRAZ-01. . . 138 21. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2 sobre la clase Bicicletas de GRAZ-02. . . 139 22. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2 sobre la clase Personas de GRAZ-02. . . 139 23. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2 sobre la clase Carros de GRAZ-02. . . 139 24. Estad´ısticas del desempe ˜no de los mejores individuos en los

experi-mentos utilizando la CVA2 sobre GRAZ-02. . . 140 25. Comparaci ón del desempe ño de la CVA2 con los m étodos del estado

del arte sobre GRAZ-01. . . 140 26. Comparaci ón del desempe ño de la CVA2 con los m étodos del estado

del arte sobre GRAZ-02. . . 141 27. Estructura del mejor individuo por cada clase de los conjuntos de

datos de GRAZ generados mediante la CVA2. . . 148 28. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2-MO sobre la clase Bicicletas de GRAZ-01. . . 163 29. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2-MO sobre la clase Personas de GRAZ-01. . . 163 30. Estad´ısticas del desempe ˜no de los mejores individuos en los

experi-mentos utilizando la CVA2-MO sobre GRAZ-01. . . 163 31. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2-MO sobre la clase Bicicletas de GRAZ-02. . . 164 32. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2-MO sobre la clase Personas de GRAZ-02. . . 164 33. Desempe ˜no del mejor individuo de cada corrida en los experimentos

utilizando la CVA2-MO sobre la clase Carros de GRAZ-02. . . 165 34. Estad´ısticas del desempe ˜no de los mejores individuos en los

experi-mentos utilizando la CVA2-MO sobre GRAZ-02. . . 165 35. Comparaci ón del desempe ño de la CVA2-MO con los m étodos del

(25)

Lista de tablas (continuaci ´on)

Tabla P ´agina

36. Comparaci ón del desempe ño de la CVA2-MO con los m étodos del estado del arte sobre GRAZ-02. . . 167 37. Estructura del mejor individuo por cada clase de los conjuntos de

datos de GRAZ generados mediante la CVA2-MO. . . 174 38. Comparaci ´on del desempe ˜no de la CVA, la CVA2 y la CVA-MO con

los resultados reportados para la clase Personas de VOC2007 . . . . 185 39. Estructura del mejor individuo para la clase Personas de VOC2007

mediante la CVA, la CVA2 y la CVA2-MO. . . 189 A.0.1. Instrucciones“for” y“parfor” . . . 208 A.0.2. Instrucciones“for” y“parfor” con variables dependientes . . . 209 A.1.1. C ´odigo“for” y“parfor” utilizados en la programaci ´on cerebral con un

solo objetivo . . . 212 A.1.2. C ´odigo “for” y “parfor” utilizados en la programaci ´on cerebral con

(26)

(27)

Cap´ıtulo 1.

Introducci ´on

El reconocimiento de objetos es una tarea fundamental en los seres humanos y en todos los seres vivos dotados del sentido de la vista. Dicha capacidad permite reconocer un objeto dado y por consiguiente permite la interacci ´on del organismo con su medio ambiente.

Por varias d écadas, el reconocimiento de objetos ha sido uno de los principales proble-mas estudiados por la comunidad cient´ıfica de visi ón por computadora, con el prop ósito de poder dotar a los sistemas artificiales y agentes cognitivos con la capacidad de llevar a cabo este proceso y permitirles una mejor interacci ón con el medio que los rodea.

A trav és de a ños de investigaci ón se han obtenido grandes avances principalmente al resolver el reconocimiento de objetos en ambientes controlados, con t écnicas como las basadas en caracter´ısticas, modelos de aprendizajes, plantillas, esquemas de empata-mientos y m étodos de“boosting” (Andreopoulos y Tsotsos, 2013). Sin embargo, hoy en d´ıa, el problema del reconocimiento de objetos en ambientes no controlados sigue siendo un problema abierto. Por ende se dice que en la actualidad a ún no existe una propuesta que resuelva de manera general el problema del reconocimiento de objetos. El principal problema en los sistemas de reconocimiento de objetos consiste en que cada objeto en el mundo puede lanzar un n úmero infinito de im ágenes 2-D capturadas seg ún como var´ıe la posici ón del objeto, la pose, la iluminaci ón, el fondo, posibles oclusiones, tama ño, entre otras variaciones.

El cerebro humano puede realizar el reconocimiento de objetos sin mucho esfuerzo; adem ás, esta tarea se realiza en el orden de milisegundos. De esta manera, en las últimas d écadas algunas investigaciones se han centrado en estudiar al sistema visual humano como un modelo que ofrece los pasos claves para resolver el problema de reconocimiento de objetos. Dichas investigaciones han demostrado alcanzar un buen desempe ño, logran-do comparar sus resultalogran-dos con los obtenilogran-dos por otros m étologran-dos reportalogran-dos en el estalogran-do del arte; y muchas veces superando el desempe ño de estos resultados.

(28)

compren-si ´on del funcionamiento del cerebro humano; permitiendo intentar emularlo y dotar a los sistemas artificiales con la capacidad para resolver el problema del reconocimiento de objetos de una manera m ´as eficiente y robusta.

1.1. Descripci ´on del problema

El reconocimiento de objetos puede ser visto como la combinaci ón de dos procesos relacionados aunque a la vez diferentes: la clasificaci ón y la identificaci ón. En este trabajo de tesis se trata el problema de la clasificaci ón, el cual se puede definir como el recono-cimiento que se basa en la descripci ón general de un objeto como perteneciente a una clase natural de objetos similares.

La principal dificultad que tiene un sistema de clasificaci ón es el problema de la repre-sentaci ón de la clase, ya que pueden existir diversas variaciones entre los objetos de la misma clase. Adem ás, es una tarea dif´ıcil para los sistemas artificiales, contrast ándolos con el sistema visual humano que puede aprender, de alguna manera a partir de la expe-riencia, las caracter´ısticas que conforman al objeto sin importar sus posibles variaciones.

Actualmente, en la literatura sobre el reconocimiento de objetos existe una gran va-riedad de bases de datos para evaluar el desempe ño de los m étodos propuestos para resolver este proceso. De entre toda esta amplia cantidad de bases de datos, en el área de visi ón por computadora se pueden mencionar tres bases de datos de im ágenes natu-rales que en los últimos diez a ños han surgido como est ándares principales para probar el rendimiento de un sistema de reconocimiento de objetos: CalTech-5 (Ferguset al., 2003), GRAZ (Opeltet al., 2004, 2006) y VOC (Everinghamet al., 2010).

Continuando la l´ınea de investigaci ón de los trabajos realizados por Clemente et al. (2013) y Olague et al. (2014a), donde se realizan experimentos sobre la base de datos de CalTech-5 y se logra alcanzar resultados en su mayor´ıa del 100 %, se propone estudiar sus propuestas del m étodo de la corteza visual artificial y el paradigma de la programaci ón cerebral, basados en un enfoque biol ógico, a fin de trabajar con una base de datos un poco m ás compleja y poder aportar cambios que hagan m ás robustas estas propuestas.

(29)

que se debe evaluar para decidir cual es la soluci ón óptima para resolverlo, por lo gene-ral pueden surgir distintos criterios a evaluar a partir de algunas consideraciones de alto nivel realizadas al momento de intentar resolver el problema o al aplicar las mejores solu-ciones encontradas considerando solo un criterio. As´ı, una de las propuestas principales realizadas en este trabajo de tesis es el uso de la programaci ón cerebral con un enfoque multiobjetivo; abordando el problema de una manera general, mediante el estudio de las interacciones entre los distintos criterios de evaluaci ón del rendimiento de las soluciones generadas con el uso de la corteza visual artificial.

1.2. Objetivos

A continuaci ´on se mencionan el objetivo general y los objetivos espec´ıficos de este trabajo de tesis

1.2.1. Objetivo general

Dar un seguimiento a los trabajos realizados por Clemente et al. (2013) y Olague et al.(2014a), analizando el funcionamiento de la programaci ón cerebral con el fin de evaluar la robustez de este nuevo paradigma para el problema de clasificaci ón de objetos en im ágenes naturales.

1.2.2. Objetivos espec´ıficos

Analizar los procesos del reconocimiento de objetos y la atenci ´on visual basados en el funcionamiento de la corteza visual humana.

Analizar las m étricas de evaluaci ón y las bases de datos consideradas como est ánda-res para el problema de clasificaci ón de objetos en im ágenes naturales.

Dise ˜nar los experimentos en base a los est ´andares propuestos en el estado del arte.

Analizar y evaluar los resultados de los experimentos utilizando el paradigma de la programaci ´on cerebral.

(30)

Analizar y evaluar los resultados de los experimentos utilizando el paradigma de la programaci ´on cerebral con un enfoque multiobjetivo.

1.3. Contribuciones

Las contribuciones que se presentan en este trabajo de tesis son:

La descripci ón de los procesos biol ógicos de la atenci ón visual y el reconocimiento de objetos, as´ı como un resumen de los trabajos m ás importantes que estudian estos procesos.

La descripci ón de las m étricas de evaluaci ón y las bases de datos est ándares para el problema de clasificaci ón de objetos en im ágenes naturales.

Se da un seguimiento a los trabajos realizados por Clementeet al.(2013) y Olague et al. (2014a), analizando el funcionamiento de la programaci ón cerebral con el fin de evaluar la robustez de este nuevo paradigma para el problema de clasificaci ón de objetos en im ágenes naturales.

El an álisis del rendimiento del paradigma de la programaci ón cerebral con bases de datos m ás complejas a las utilizadas previamente en los trabajos de Clementeet al. (2013) y Olagueet al.(2014a).

La implementaci ´on de la programaci ´on cerebral con un enfoque multiobjetivo.

(31)

1.4. Organizaci ´on de la tesis

Esta tesis est á estructurada de la siguiente manera. En el Cap´ıtulo II se presenta el marco te órico del trabajo de esta tesis. Se describen los procesos biol ógicos que ocurren en el cerebro y el sistema visual humano para procesar la informaci ón visual. Tambi én se abordan las definiciones y un resumen de los trabajos m ás importantes que estudian los dos procesos m ás importantes involucrados en la visi ón: la atenci ón visual y el reconoci-miento de objetos.

En el Cap´ıtulo III se describen las m étricas m ás utilizadas para evaluar el rendimiento de los m étodos de reconocimiento de objetos como son: la exactitud, las gr áficas de precisi ón y cobertura, la precisi ón media, y las gr áficas y curvas ROC. As´ı como tambi én una breve descripci ón de la medida-F, que es utilizada en nuestro trabajo para evaluar los problemas de visi ón y atenci ón visual.

En el Cap´ıtulo IV se presenta la descripci ón de las tres bases de datos que en los últimos diez a ños han surgido como est ándares principales para evaluar el rendimiento de los sistemas de reconocimiento de objetos con im ágenes naturales (CalTech-5, GRAZ y VOC).

En el Cap´ıtulo V se describen los m étodos utilizados en este trabajo de tesis, iniciando por explicar el m étodo de la corteza visual artificial y el paradigma de la programaci ón cerebral, y finalizando con la presentaci ón de las modificaciones e implementaciones propuestas para mejorar su desempe ño; como es el caso de la versi ón 2 de la corteza visual artificial y el uso de la programaci ón cerebral con un enfoque multiobjetivo.

En el Cap´ıtulo VI se presenta el dise ˜no de los experimentos realizados, as´ı como los resultados y su an ´alisis.

(32)

(33)

Cap´ıtulo 2.

Marco te ´orico

Los m étodos utilizados en este trabajo de tesis se inspiran del funcionamiento del cerebro y en particular del sistema visual humano. Por lo que es preciso iniciar por explicar brevemente algunos t érminos biol ógicos y sus procesos, los cu áles se realizan en la corteza visual.

Posteriormente en este mismo cap´ıtulo, se tratan los temas de la atenci ón visual y el reconocimiento de objetos, ya que en el estudio biol ógico de la visi ón destacan como los dos procesos principales que ocurren en el procesamiento de la informaci ón visual. Adem ás, se abordan las definiciones de estos procesos, as´ı como un resumen de los tra-bajos m ás importantes donde se explican partiendo de un enfoque biol ógico. Para finalizar el cap´ıtulo, se presentan de manera breve los trabajos m ás importantes que combinan el reconocimiento de objetos y la atenci ón visual.

2.1. El sistema visual humano

(34)

2.1.1. El cerebro humano

El cerebro es el órgano m ás complejo que posee el ser humano, donde su tarea pri-mordial es controlar y administrar las actividades que realizan los órganos sensoriales de nuestro cuerpo, al mismo tiempo que coordina todas las funciones existentes en el organismo.

A trav és de los a ños diversas comunidades cient´ıficas, como las neurociencias, las ciencias cognitivas, la filosof´ıa, la psicolog´ıa, la cibern ética, las ciencias computacionales, entre otras, han realizado grandes avances al tratar de entender el funcionamiento del cerebro. Sin embargo, al ser un órgano tan complejo, a ún quedan muchos conocimientos por estudiar y precisar.

Dentro de los primeros trabajos en el estudio del funcionamiento del cerebro humano, destaca el trabajo del m édico espa ñol Santiago Ram ón y Cajal, qui én realiz ó grandes des-cubrimientos fisiol ógicos y fue galardonado en 1906 con el m áximo premio otorgado por la academia; el premio Nobel. Una de sus principales aportaciones fue el descubrimiento de las neuronas, que son las c élulas involucradas para llevar a cabo el procesamiento cere-bral, lo que lo llev ó m ás tarde a establecer la teor´ıa neuronal. Los conocimientos actuales sobre el cerebro y el sistema nervioso en general son resultado del trabajo colectivo de un n úmero extenso de cient´ıficos, pero las investigaciones de Ram ón y Cajal contribuyeron de manera decisiva a la creaci ón de las neurociencias modernas. Adem ás cabe destacar que dentro de sus trabajos se plantea la hip ótesis de c ómo se realizan en el cerebro los diversos procesos involucrados en la visi ón. En su trabajo se menciona que el flujo de la informaci ón inicia en la parte posterior de nuestro cerebro y se desarrolla a lo largo de la llamada corteza visual; que es precisamente el lugar donde se desarrolla el procesa-miento de la informaci ón visual en el cerebro. Su trabajo ha sido retomado y respaldado por varios cient´ıficos, dando como resultado nuevos descubrimientos y despertando el inter és de nuevas investigaciones en el estudio del área (Venkataramani, 2010).

(35)

Lóbulo frontal Lóbulo parietal

Lóbulo temporal

Lóbulo occipital

Figura 1: Vista lateral de los l ´obulos del cerebro humano.

la siguiente forma:

1. L óbulo temporal: est á asociado con la percepci ón auditiva, la percepci ón de la forma visual y el color, el reconocimiento de objetos, y la regulaci ón de emociones.

2. L óbulo frontal: lleva a cabo la actividad asociada a funciones motoras del cuerpo. Tambi én est á asociado con la creatividad y la planeaci ón.

3. L óbulo parietal: aloja a la corteza somatosensorial primaria, la cual est á ´ıntimamen-te ligada al tacto. Se asocia tambi én a las funciones de lenguaje y de´ıntimamen-tecci ón de movimiento.

4. L óbulo occipital: en él se llevan a cabo actividades asociadas a la percepci ón vi-sual, como son la estimaci ón de direcci ón, velocidad y trayectorias de los objetos, as´ı como la localizaci ón de los objetos.

(36)

independiente de otra. Es decir, todo proceso se lleva a cabo a trav ´es de diversas ´areas cerebrales.

2.1.2. El sistema visual y la corteza visual

El proceso en el sistema visual inicia en el ojo, donde la luz incide y es focalizada por la c órnea y el cristalino, atravesando el cuerpo v´ıtreo y enfocando las im ágenes visuales sobre la retina y en particular sobre la f óvea. Aqu´ı los fotorreceptores absorben la luz y la convierten en energ´ıa el éctrica. En la Figura 2 se muestran los componentes principales del ojo humano.

Los fotorreceptores son de dos tipos diferentes: los bastones y los conos. Los bastones son las c élulas fotorreceptoras m ás numerosas en el ojo humano, y son alrededor de 120 millones. Son sensibles a la intensidad de la luz pero no son sensibles al color, esto se debe a que su fisiolog´ıa solo les permite percibir longitudes de onda comprendidas en el rango entre los 350 y 600 nan ómetros, lo que es equivalente a im ágenes en blanco y negro. Los conos, al contrario de los bastones, son sensibles al color y de acuerdo a los rangos de las longitudes de ondas que pueden percibir se clasifican en tres tipos de conos; cuyos rangos est án comprendidos aproximadamente de 380 a 500, de 500 a 600 y de 600 a 730 nan ómetros. Sumando los tres tipos de conos que existen, en el ojo humano hay un total de 8 millones aproximadamente, de los cuales los sensibles al rojo son alrededor del 65 %, los sensibles al verde son aproximadamente 33 % y los sensibles al azul son tan solo el 2 %. Mediante la combinaci ón de estos tres colores el ojo humano puede percibir toda una gama de colores.

Despu és de que los fotorreceptores convierten la luz en energ´ıa el éctrica esta in-formaci ón se transporta al cerebro a trav és de las fibras que conforman el nervio ópti-co(Gonzalez y Woods, 2006).

(37)

LUZ

Iris

Retina

Pupila Cornea

Bastones Conos Cristalino

Ganglionares Nervio

Escler´otica

C´elulas ´

Optico

Cuerpo V´ıtreo

Figura 2: Anatom´ıa del ojo humano (imagen proporcionada por Eddie Clemente).

mayor importancia en el cerebro para la construcci ón b ásica de la representaci ón visual del mundo.

Se debe destacar que a ún existen interrogantes sobre c ómo se procesa la informaci ón visual, pero actualmente una de las descripciones del fen ómeno de la percepci ón visual m ás aceptada es la hip ótesis de la existencia de dos rutas; la ruta dorsal y la ruta ventral. Estas dos rutas constituyen la trayectoria visual secundaria y parten del l óbulo occipital, en la regi ón de la corteza visual primaria, o V1. La primera ruta se dirige hacia el l óbulo temporal y la segunda se dirige hacia el l óbulo parietal. La existencia de estas dos rutas est á basada en evidencias neuropsicol ógicas, neurofisiol ógicas y psicol ógicas que mues-tran la existencia de dos regiones donde se realiza el procesamiento visual, conocidas como la ruta dorsal y la ruta ventral, y establece que ambos subsistemas reciben la mis-ma informis-maci ón visual como entrada, pero su diferencia radica en las transformis-maciones que sufre la informaci ón en cada ruta (Mishkinet al., 1983; Ungerleider y Haxby, 1994).

(38)

posterior (PP). En general, se acepta que el proceso de la atenci ón visual se realiza en la zona dorsal, y el paradigma m ás popular para este proceso es la teor´ıa de la integraci ón de caracter´ısticas presentado por Treisman y Gelade (1980). Sin embargo, existen otras teor´ıas que tratan de describir c ómo se realiza la atenci ón visual dentro de la ruta dorsal, como el modelo de b úsqueda guida presentado por Wolfeet al.(1989), y algunos investi-gadores que relacionan el proceso de atenci ón visual a ambas zonas, como Desimone y Duncan (1995).

La ruta ventral se asocia en gran medida con el reconocimiento de objetos y la repre-sentaci ón de la forma, por lo que se conoce como la ruta del “qu é”. De la misma manera que la ruta dorsal, inicia en la retina para luego recibir la informaci ón principalmente de la capa parvocelular del n úcleo geniculado lateral del t álamo, siendo proyectada sobre la zona V1. Esta ruta continua a trav és de las regiones visuales V2 y V4, que son parte de la corteza visual extraestriada. Finalmente, la ruta ventral termina en las áreas TEO (parte posterior de la corteza temporal inferior) y TE (parte anterior de la corteza temporal inferior).

(39)

Capa Magnocelular y Retinocortical

V3

Ruta Ventral

Ruta Dorsal

Corteza Temporal Inferior

TEO TE

Capa Parvocelular

V4

V1

V2

MST MT Retina

LGN

Estructura Pulvinar (Pul)

Corteza Parietal Posterior

CS

Pul

V3

V2

V1

V2

V4 V5 (MT)

V3a Col´ıculo Superior (CS)

¿D´onde? / ¿C´omo?

Retina LGN

Ruta Dorsal

Ruta Ventral

¿Qu´e? ¿D´onde? /

¿C´omo?

Corteza Temporal Inferior Corteza Parietal

¿Qu´e?

Figura 3: Diagrama esquem ático del flujo de la informaci ón en el sistema visual y de las áreas de la corteza visual que participan en su procesamiento (imagen proporcionada por Eddie Clemente).

En la Figura 3 se pueden observar los componentes mencionados anteriormente que participan en el proceso de la informaci ón visual. A manera de resumen se presenta tam-bi én un diagrama esquem ático del flujo de la informaci ón visual descrito anteriormente.

(40)

2.2. Atenci ´on visual

El ser humano constantemente recibe una gran cantidad de informaci ón a trav és de sus sentidos. En general, la cantidad de informaci ón es enorme para ser procesada al mismo tiempo y en detalle, por lo que el cerebro tiene que priorizar sus tareas. El meca-nismo por medio del cual el cerebro determina cual es la informaci ón de mayor inter és en el momento actual, se conoce como atenci ón selectiva. Este concepto se aplica para ca-da uno de nuestros sentidos, y en el caso del sentido de la vista se conoce como atenci ón visual (Frintropet al., 2010).

En los sistemas donde se aplican t écnicas de visi ón por computadora se debe tratar con miles, y algunas veces millones, de pixeles por cada imagen de entrada, por lo que la complejidad computacional de muchos problemas relacionados a la interpretaci ón de la informaci ón de una imagen es muy alta (Tsotsos, 1988). Esta tarea es a ún m ás dif´ıcil si el sistema debe operar en tiempo real, ya que en este caso el sistema debe reaccionar al instante con su entorno. Debido a lo anterior, y a los recursos limitados de hardware, va-rios grupos de investigadores de diversas áreas se han dedicado a estudiar c ómo puede ser implementado en los sistemas computacionales el concepto de la atenci ón selectiva en el ser humano.

2.2.1. Definici ´on de atenci ´on visual

La atenci ón visual puede ser entendida como la habilidad que permite a una criatura, viva o artificial, dirigir su mirada r ápidamente al objeto de inter és en un entorno visual (Koch y Ullman, 1987). Formalmente, se puede definir de la siguiente manera:

(41)

2.2.2. Atenci ´on visual ascendente y descendente

Actualmente, los estudios cl ásicos sobre la atenci ón visual est án de acuerdo con la idea de que la funcionalidad de la ruta dorsal puede estar influenciada por dos tipos de procesos: ascendentes y descendentes. Como resultado, la atenci ón visual es usual-mente estudiada como dos propuestas separadas y la mayor´ıa de los modelos compu-tacionales enfocados en la atenci ón visual solo se basan en uno de estos dos procesos. Tambi én existen investigaciones que los estudian como un único proceso, el cual analiza la atenci ón visual desde la idea de adaptarla de acuerdo al prop ósito u objetivo del siste-ma. Dentro de las investigaciones donde se estudia la interacci ón de estos dos procesos se encuentran los trabajos de James (1950), Desimone y Duncan (1995), y Corbetta y Shulman (2002). A continuaci ón, se dar á una explicaci ón breve de estos dos procesos involucrados en la atenci ón visual.

2.2.2.1. Atenci ´on visual ascendente

En la literatura se dice que la atenci ón visual ascendente, o reactiva, est á relacionada con la atenci ón involuntaria ya que depende enteramente del est´ımulo. Ésta se compara con la idea del “punto de luz”; la cu ál consiste en atender selectivamente a lugares con-cretos del entorno visual. Esta met áfora surgi ó de los experimentos realizados por Posner

et al.(1980) donde al sujeto de pruebas se le presentaban diversas im ´agenes y a la vez

se presentaba un punto de luz en la imagen, el cu ál mejoraba la detecci ón de eventos en su proximidad provocando que la persona atendiera r ápidamente a la secci ón donde se localizaba el punto de luz.

Para Wolfe et al. (1989) la activaci ón ascendente es una medida de que tan inusual es un objeto en su contexto presente. La fuerza de la activaci ón ascendente en un lugar espec´ıfico de la imagen est á basada en las diferencias que existen entre el objeto de inter és y los objetos vecinos. En otras palabras, no depende del conocimiento del sujeto o de una tarea de b úsqueda espec´ıfica. De esta forma la identificaci ón del objeto se refiere a las diferencias en el espacio de las caracter´ısticas relevantes.

(42)

únmen-te, la tarea de exploraci ón se estudia de manera experimental usando un conjunto de im ágenes almacenadas en una base de datos que contienen est´ımulos visuales, es decir, im ágenes que se presentan a un observador o a un sistema artificial. Por cada imagen se tiene un objeto de inter és u objetivo que es diferente del resto. Los modelos compu-tacionales de atenci ón visual existente son en su mayor´ıa modelos enfocados al proceso ascendente y est án basados en la teor´ıa de la integraci ón de caracter´ısticas, propuesta por Treisman y Gelade (1980).

2.2.2.2. Atenci ´on visual descendente

Existe un acuerdo general de que el proceso de la atenci ón visual descendente juega un rol fundamental en el procesamiento de la informaci ón visual. En general, los procesos cognitivos o descendentes son voluntarios por lo que su activaci ón gu´ıa la atenci ón a un objeto deseado. En particular, se acepta que durante la atenci ón visual descendente existen numerosas conexiones que unen las áreas cerebrales m ás altas con las m ás simples, de tal forma que todas ellas se involucran en el procesamiento de la informaci ón visual. En este sentido, se dice que la atenci ón visual descendente toma m ás tiempo y esfuerzo para llevarse a cabo en comparaci ón con la atenci ón visual ascendente. Esto se debe a que en la mayor´ıa de los casos el objetivo comparte con los distractores dos o m ás caracter´ısticas, lo cual fuerza al observador a realizar un escaneo de la escena para lograr encontrar el objetivo.

El proceso de la atenci ón visual descendente se estudia usualmente en psicof´ısica a trav és de los llamados “experimentos con pistas”. Este tipo de experimentos consisten en presentar una pista o se ñal que gu´ıe la atenci ón hacia el objetivo con el prop ósito de medir la intensidad con que se percibe por parte del observador. De esta manera, se dice que las pistas o se ñales pueden indicar en d ónde est á el objetivo, como en el caso de una flecha apuntando hacia el objetivo, o pueden contestar a la pregunta: ¿qu é es el objeto?, por medio de la b úsqueda de las similitudes entre una imagen y el objetivo (Frintrop, 2006).

(43)

sobre-salientes que utiliza el conocimiento acerca de la distribuci ón de caracter´ısticas sobre la imagen. Peters y Itti (2007) proponen un modelo que combina la atenci ón visual as-cendente y la desas-cendente, en el cual se mide la habilidad del modelo para predecir los movimientos oculares sac ádicos de la gente mientras se juega un videojuego.

Desde la perspectiva de un modelo computacional, los procesos descendentes no son una tarea trivial, ya que se involucran las emociones, deseos y el prop ósito del obser-vador. Estos conceptos cognitivos son dif´ıciles de modelar y a ún son temas abiertos de estudio en las ciencias computacionales para los que existen propuestas un tanto b ásicas o elementales.

2.2.3. Atenci ´on visual inspirada biol ´ogicamente

A finales del siglo XX, despu és de la llegada de las computadoras digitales, una gran cantidad de trabajos intentaron emular la funcionalidad de la corteza visual humana con el objetivo de realizar los procesos de la atenci ón visual, el reconocimiento de objetos, y la detecci ón de objetos; esta última puede ser vista como una combinaci ón de los dos primeros procesos. Fue as´ı como durante el per´ıodo de los 80s, 90s y primera d écada del siglo XXI surgieron varios sistemas computacionales de atenci ón visual bas ándose en es-tructuras jer árquicas, adaptadas principalmente de la teor´ıa psicol ógica de la integraci ón de caracter´ısticas propuesta por Treisman y Gelade (1980), que indica que la atenci ón se procesa en dos etapas sucesivas. La primera se llama etapa de preatenci ón, la cual se procesa en paralelo a lo largo de las dimensiones de caracter´ısticas de una escena dada: forma, color, orientaci ón, frecuencia espacial, brillo y direcci ón de movimiento. La segunda etapa se llama atenci ón focal y proporciona la integraci ón de las caracter´ısticas que se hab´ıan procesado de forma separada. Uno de los m étodos m ás utilizados para realizar la integraci ón de las caracter´ısticas es el propuesto por Koch y Ullman (1987), el cual consiste en la construcci ón de un mapa de prominencia usando un proceso de redes neuronales llamado “el ganador toma todo” (WTA)1 _{para combinar la informaci ón de los}

mapas de caracter´ısticas y proporcionar como salida la ubicaci ´on m ´as prominente de la escena.

(44)

Una mejora a los sistemas de atenci ón visual fue realizada por Milanese (1993) quien propone un sistema visual basado en los trabajos de Koch y Ullman (1987) y la teor´ıa de la b úsqueda guiada de Wolfeet al.(1989). El sistema visual propuesto por Milanese utiliza filtros como operaciones para calcular dos oponentes de color: rojo-verde y azul-amarillo; con 16 diferentes orientaciones e informaci ón local de curvatura. Dichas operaciones de-finen los mapas de caracter´ısticas que luego se transforman mediante la aplicaci ón de un operador de prominencia, el cual esta basado en las c élulas de encendido y apagado de la corteza visual. Este proceso se define normalmente como el mecanismo de centro-periferia que se aplica con el objeto para generar el llamado mapa conspicuo por cada dimensi ón. Finalmente, se crea un mapa de prominencia a trav és de un proceso de rela-jaci ón de los mapas conspicuos que identifica un peque ño n úmero de regiones convexas de la imagen.

Siguiendo esta l´ınea de investigaci ón, Tsotsos et al.(1995) modelaron el proceso de atenci ón visual mediante el concepto de la afinidad selectiva lograda con los procesos jer árquicos del WTA integrados dentro de la pir ámide del procesamiento visual.

(45)

Recientemente, en Marat et al. (2013) se sugiere un nuevo modelo que combina el proceso de extracci ón de caracter´ısticas de bajo nivel con la aplicaci ón de caracter´ısticas de alto nivel; el cual resalta la informaci ón de orientaci ón, frecuencia espacial y amplitud de movimiento, para realizar el reconocimiento de rostros y la medici ón de los movimien-tos del ojo en videos.

Finalmente, en el trabajo de Olague et al. (2014b) y Dozal et al. (2014), se propone el modelo de la ruta dorsal artificial, basado en la teor´ıa de integraci ón de caracter´ısti-cas de Treisman y Gelade (1980) y el modelo implementado por Ittiet al.(1998) con una mejora significativa. En este nuevo modelo se consideran a la atenci ón visual como una sola estructura computacional que realiza ambos procesos en los que otros enfoques di-viden la atenci ón visual, los procesos de la atenci ón visual ascendente y descendente, mencionados anteriormente. Esto se logra planteando el problema como un proceso de aprendizaje donde los programas se desarrollan en relaci ón a la tarea visual propuesta. De esta forma su propuesta se basa en la programaci ón gen ética y desarrollada junto con las metodolog´ıas del estado del arte en neurociencias, proponiendo el paradigma de la programaci ón cerebral. Dicha metodolog´ıa permite dise ñar programas, los cuales per-miten atender a un objeto especifico, mediante el modelo de la ruta dorsal artificial. As´ı, la idea es realizar la optimizaci ón de un programa computacional que identifique las ca-racter´ısticas y la forma correcta de combinarlas, con el objetivo de resaltar la informaci ón visual necesaria para el objeto espec´ıfico.

2.3. Reconocimiento de objetos

(46)

2.3.1. Definici ´on de reconocimiento de objetos

El reconocimiento de objetos b ´asicamente consiste en la tarea de determinar si los datos de una imagen contienen un objeto espec´ıfico. Formalmente, el problema del reco-nocimiento de objetos puede definirse en los siguientes t ´erminos:

Dada una imagenI, una base de datos dek objetos, y una representaci ´on Rj

por cada objeto j en las im ágenes de la base de datos; la tarea de reconoci-miento de objetos puede expresarse como la b úsqueda del argumento m´ınimo en la expresi ón:

Q=arg min c(Rj, I) jε1, ..., k ,

dondec(Rj, I)es una funci ´on que provee la compatibilidad o consistencia para representar al objetoj en una imagenI (Olague, to appear).

Otra definici ´on para el reconocimiento de objetos, propuesta por Russell y Norvig (2009), se puede expresar de la siguiente forma:

Dado un conjunto de im ágenes que contienen uno o m ás objetos selec-cionados de una colecci ón de objetos O1, O2, . . . , On conocidos a priori,

y

Dada la imagen de una escena tomada desde una posici ´on y orientaci ´on desconocidas;

Se debe responder la siguiente pregunta:

1. ¿Cu ´ales de los objetosO1, O2, . . . , Onest ´an presentes en la escena?

(47)

2.3.2. Clasificaci ´on e identificaci ´on

Algunos estudios realizados por investigadores en el área de las neurociencias, bus-can ampliar la comprensi ón que se tiene sobre como el cerebro humano lleva a cabo los procesos para la interpretaci ón de una escena (Rosch et al., 1976; Logothetis y Shein-berg, 1996). De estos estudios se puede definir que el proceso general del reconocimiento de objetos puede dividirse en dos procesos que se consideran relacionados aunque a la vez diferentes: la clasificaci ón y la identificaci ón.

Las definiciones de clasificaci ón e identificaci ón pueden llegar a ser un poco ambi-guas, y dependen del área y el contexto en el que se est án manejando. En el trabajo de Ullmanet al.(2001) los procesos de clasificaci ón e identificaci ón se consideran como procesos distintos. Se define a la clasificaci ón como el reconocimiento que se basa en la descripci ón general de un objeto como perteneciente a una clase natural de objetos similares; i.e., la clasificaci ón de rostros considerando una base de datos con im ágenes donde se encuentren presentes personas. Mientras que la identificaci ón se define como un nivel m ás espec´ıfico de reconocimiento, es decir, el reconocimiento de un objeto es-pec´ıfico de una clase; i.e. la identificaci ón de un rostro en particular. Sin embargo, cuando se abordan los procesos de clasificaci ón e identificaci ón con un enfoque biol ógico, ambos se definen como procesos relacionados donde la clasificaci ón es vista como un proceso m ás general donde a la vez se involucra al proceso de identificaci ón.

Cuando nos referimos a la visi ón humana se dice que la clasificaci ón es un proceso natural, sin mucho esfuerzo podemos clasificar un nuevo objeto en alguna clase ya co-nocida; i.e. la clase persona, carro, perro, casa, entre otras. La clasificaci ón de un objeto como miembro de una clase suele ser m ás f ácil que la identificaci ón de un objeto es-pec´ıfico debido a que la identificaci ón requiere de un mayor conocimiento del objeto. En contraste, los sistemas de visi ón por computadora actuales pueden realizar de manera m ás f ácil el proceso de identificaci ón de un objeto espec´ıfico en comparaci ón al proceso de la clasificaci ón.

(48)

de la misma clase; i.e. tama ño, forma, color, apariencia, iluminaci ón, vistas, entre otras. Adem ás, el sistema visual humano aprende, de alguna manera a partir de la experiencia, las caracter´ısticas que conforman al objeto sin importar sus posibles variaciones. Esto hace que la clasificaci ón sea una tarea m ás dif´ıcil para los sistemas artificiales que el proceso de la identificaci ón de un objeto espec´ıfico a partir de extracci ón de rasgos lo-cales, donde se utilizan combinaciones de im ágenes o la interpolaci ón de patrones para predecir la apariencia de un objeto conocido bajo varias perspectivas.

As´ı, para realizar el proceso de la identificaci ón de un objeto espec´ıfico se puede sim-plificar el problema y proporcionar al sistema un modelo completo y exacto del objeto, donde las variaciones esperadas puedan ser descritas con precisi ón. En cambio, para realizar el proceso de clasificaci ón es dif´ıcil prever una definici ón precisa para todas las variaciones posibles de los objetos de una misma clase, por lo que se realiza la cons-trucci ón de un descriptor, compuesto por un conjunto de propiedades invariantes que generalizan y representan a los objetos pertenecientes a una misma clase.

2.3.3. Reconocimiento de objetos inspirado biol ´ogicamente

En general, el sistema visual humano es capaz de reconocer y clasificar un objeto de acuerdo a una categor´ıa con facilidad. Adem ´as, estas tareas son realizadas en el orden de milisegundos (Grill-Spector y Kanwisher, 2005). De esta manera algunas investigacio-nes se centran en estudiar al sistema visual humano (SVH) como un modelo que ofrece los pasos claves para resolver el problema de reconocimiento de objetos. Dichas investi-gaciones se describen a continuaci ´on.

Como se mencion ó anteriormente, a finales del siglo XX una gran cantidad de trabajos intentaron emular la funcionalidad de la corteza visual humana con el objetivo de realizar los procesos de la atenci ón visual, el reconocimiento de objetos y la detecci ón de objetos.

(49)

Desde un punto de vista computacional el primer trabajo que abord ó el problema del reconocimiento de objetos fue desarrollado por Fukushima (1980), quien propuso un mo-delo neuronal llamado Neocognitron para resolver esta tarea. En su trabajo, la estructura computacional estaba inspirada en el sistema nervioso visual y el modelo jer árquico de Hubel y Wiesel (1959). Esta estructura se representa por una red formada por una ca-pa de entrada, seguida por una serie de estructuras modulares tambi én conocidas como c élulas simples y complejas (c élulas-S y c élulas-C). Su idea intenta imitar las caracter´ısti-cas de las c élulas simples, o hipercomplejas de bajo orden, as´ı como tambi én las c élulas complejas, o hipercomplejas de alto orden. En la pr áctica este modelo es capaz de reco-nocer letras y n úmeros considerando un cambio en la posici ón.

M ás tarde Biederman (1987), propuso la teor´ıa del reconocimiento por componentes (RBC)2; donde un objeto puede ser reconocido mediante la combinaci ón de los elemen-tos llamados geones (bloques, cilindros y embudos o conos truncados), los cuales son similares a los fonemas en el lenguaje humano. Este enfoque fue extendido por Perrett y Oram (1998) a trav és de un modelo basado en patrones formados por conjunciones sim-ples de elementos 2-D, que incrementan su complejidad a lo largo de una serie de etapas e imitan las propiedades de las c élulas de la ruta cortical ventral. Este modelo jer árquico es invariante a la rotaci ón y transformaciones de tama ño de un objeto.

Despu és, Ullman y Soloviev (1999) propusieron la uni ón de m últiples fragmentos, o patrones visuales, de im ágenes sobrepuestas para lograr la invarianza de cambio en formas complejas. Este enfoque fue mejorado posteriormente por Ullmanet al.(2002).

En el mismo a ño, Riesenhuber y Poggio (1999) introdujeron una arquitectura jer árqui-ca con alimentaci ón hacia adelante similar a la de Neocognitron utilizando la t écniárqui-ca de coincidencia de plantillas, pero con la incorporaci ón de la operaci ón del m áximo como un mejor modelo de las c élulas complejas en contraste con la sumatoria lineal que se rea-lizaba en los modelos previos. Este modelo da una respuesta robusta con invarianza en posici ón, y se argumenta que su funcionalidad es biol ógicamente pausible. M ás tarde, el modelo fue probado por Serreet al. (2005) para reconocer im ágenes artificiales de clips y fue mejorado algoritmicamente por Mutch y Lowe (2008) logrando un mejor desempe ño

(50)

en el reconocimiento de objetos mediante el uso del diccionario universal de caracter´ısti-cas propuesto anteriormente por Riesenhuber y Poggio (1999). A lo largo de esta l´ınea de investigaci ón, se han propuesto varios trabajos para optimizar el n úmero de parches o caracter´ısticas, as´ı como para mejorar la descripci ón del objeto siguiendo un modelo jer árquico, como es el caso de los trabajos de Wersing y K örner (2003), Ghodrati et al. (2012), Clemente et al.(2012), entre otros.

Existen otros trabajos que abordan el problema de reconocimiento de objetos, pero que a la vez utilizan la atenci ´on visual combinando estos dos procesos del sistema visual. Estos trabajos se describen en la siguiente secci ´on.

2.4. Reconocimiento de objetos y atenci ´on visual

En las secciones anteriores, se describieron los trabajos basados en un enfoque biol ógico de los dos procesos b ásicos de la visi ón: el reconocimiento de objetos realizado en la ruta ventral y la atenci ón visual realizada en la ruta dorsal. Sin embargo, existen algunos trabajos que integran ambos enfoques.

El primer trabajo es el de Fukushima (1987) donde se implemento una red neuronal jer árquica que sirve como modelo para la atenci ón selectiva y el reconocimiento de ob-jetos. En este caso, cuando varios patrones se presentan simult áneamente, el modelo realiza una atenci ón selectiva para cada uno, segment ándolo del resto y reconoci éndolo de forma separada.

M ás tarde Olshausen et al.(1993) definieron un modelo biol ógicamente pausible que combina un mecanismo de atenci ón con un proceso de reconocimiento de objetos para formar representaciones invariantes a escala y a la posici ón en el mundo visual.