• No se han encontrado resultados

Reconocimiento de objetos en una escena bajo el paradigma del cómputo evolutivo y la corteza visualObject recognition under the paradigm of evolutionary computation and visual cortex

N/A
N/A
Protected

Academic year: 2020

Share "Reconocimiento de objetos en una escena bajo el paradigma del cómputo evolutivo y la corteza visualObject recognition under the paradigm of evolutionary computation and visual cortex"

Copied!
214
0
0

Texto completo

(1)

SUPERIOR DE ENSENADA, BAJA CALIFORNIA

MR

PROGRAMA DE POSGRADO EN CIENCIAS

EN CIENCIAS DE LA COMPUTACI ´

ON

Reconocimiento de objetos en una escena bajo el paradigma

del c ´

omputo evolutivo y la corteza visual

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de Doctor en Ciencias

Presenta:

Eddie Helbert Clemente Torres

(2)

Eddie Helbert Clemente Torres

y aprobada por el siguiente comit ´e

Dr. Gustavo Olague Caballero Director del Comit ´e

Dr. Jes ´us Favela Vara Miembro del Comit ´e

Dr. Hugo Hidalgo Silva Miembro del Comit ´e

Dr. Benjam´ın Hern ´andez Valencia Miembro del Comit ´e

Dr. Eugenio Rafael M ´endez M ´endez

Miembro del Comit ´e

Dra. Ana Isabel Mart´ınez Garc´ıa Coordinador del Programa de

Posgrado en Ciencias de la Computaci ´on

Dr. Jes ´us Favela Vara Director de Estudios de Posgrado

(3)

Resumen de la tesis que presenta Eddie Helbert Clemente Torres como requisito parcial para la obtenci ´on del grado de Doctor en Ciencias en Ciencias de la Computaci ´on.

Reconocimiento de objetos en una escena bajo el paradigma del c ´omputo evolutivo y la corteza visual

Resumen elaborado por:

Eddie Helbert Clemente Torres

Uno de los retos de la visi ´on por computadora es el reconocimiento de objetos que se encuentran presentes en una escena, mediante el uso de im ´agenes digitales. Sin em-bargo el ser humano resuelve esta tarea con aparente sencillez, ya que no importando la escala, rotaci ´on, traslaci ´on, iluminaci ´on y oclusi ´on del objeto en la escena, el sistema visual es capaz de identificarlo. Bajo esta motivaci ´on, en las ´ultimas d ´ecadas varias l´ıneas de investigaci ´on se han centrado en estudiar el sistema visual natural como un modelo que puede ofrecer los pasos clave para proponer una soluci ´on a la problem ´atica del reco-nocimiento de objetos. As´ı en el presente trabajo de tesis se propone un nuevo sistema de reconocimiento de objetos inspirado en la corteza visual humana. Este sistema trata de imitar las distintas funcionalidades y propiedades de las ´areas corticales, siguiendo su estructura jer ´arquica. Donde cada funcionalidad es representada por un proceso compu-tacional que implica el uso de expresiones matem ´aticas bien definidas; las cuales son propuestas y especializadas por un proceso evolutivo artificial. El desempe ˜no del sistema es medido a partir de la clasificaci ´on de bases de datos como CalTech101, GRAZ y VOC; propuestas por la comunidad de visi ´on por computadora. De esta forma, se obtienen re-sultados que igualan y superan a los reportados en el estado del arte.

(4)

Abstract of the thesis presented by Eddie Helbert Clemente Torres as a partial requirement to obtain the Doctor of Science degree in Computer Science.

Object recognition under the paradigm of evolutionary computation and visual cortex

Abstract by:

Eddie Helbert Clemente Torres

Today object recognition is considered a challenging task for the development of com-puter vision systems. Natural systems like that of humans are able to recognize an object even when it is inmersed in a clutter environment, at unusual orientations, under different illumination conditions, or partially occluded by other objects. Historically, many works ha-ve used the natural visual system as an inspiration to approach the object recognition task. Thus, in this thesis a novel object recognition system is proposed, inspired also in the hu-man visual cortex. This system tries to emulate the functionalities and properties of the cortical areas following its hierarchical structure. Each functionality is represented by mat-hematical and computational methods, which are discovered by an artificial evolutionary process. The system performance is measured through its classification efficiency of ima-ge databases as CalTech-101, GRAZ and VOC. As a result, the experimentation shows that the system performs better or comparable to those proposed in the state-of-the-art.

(5)

Dedicatoria

A la memoria de mi padre.

A Irma.

(6)

Agradecimientos

Agradezco sinceramente:

A mi esposa Irma por su apoyo incondicional, por darme los ´animos para desarrollar

y culminar este proyecto y sobre todo por su cari ˜no y amor que se expresa en forma de

comprensi ´on y paciencia, lo cual ha sido un tesoro invaluable y un motor en mi vida.

A mi madre y mi hermano por estar siempre a mi lado, respald ´andome en los sue ˜nos

que he emprendido, ya que sin su ayuda no habr´ıa podido estar aqu´ı.

A mi asesor, por brindarme su amistad y cari ˜no, por los valiosos consejos y

discusio-nes que han permitido no solo el desarrollo cient´ıfico, sino tambi ´en una formaci ´on humana

necesaria para un pensamiento cr´ıtico y reflexivo.

A mis sinodales por sus invaluables observaciones y consejos que han enriquecido

este trabajo.

A mis compa ˜neros y amigos de CICESE y EvoVisi ´on, en especial a Daniel Hern ´andez

y Le ´on Dozal, que con su apoyo y amistad hemos formado un grupo cient´ıfico y fraterno.

Al Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada.

Al pueblo de M ´exico que con sus aportaciones han permitido mis estudios doctorales

(7)

Tabla de contenido

P ´agina

Resumen en espa ˜nol ii

Resumen en ingl ´es iii

Dedicatoria iv

Agradecimientos v

Lista de figuras ix

Lista de tablas xiii

1. Introducci ´on 1

1.1. Planteamiento del problema . . . 2

1.2. Objetivo general . . . 6

1.3. Objetivos espec´ıficos . . . 6

1.4. Alcances de la tesis . . . 6

1.5. Organizaci ´on de la tesis . . . 7

2. Fundamentos 9 2.1. Estructura del sistema visual humano . . . 9

2.1.1. Modelos biol ´ogicos de la corteza visual humana . . . 11

2.1.1.1. El modelo de Hubel y Wiesel . . . 11

2.1.1.2. Dos rutas de informaci ´on . . . 13

2.1.1.3. Ruta ventral . . . 14

2.1.1.4. Ruta dorsal . . . 14

2.2. Modelos neuropsicol ´ogicos . . . 15

2.2.1. Integraci ´on de caracter´ısticas . . . 15

2.2.2. Reconocimiento por componentes . . . 17

2.3. Modelos computacionales . . . 20

3. Modelo de la ruta ventral artificial 25 3.1. Modelo HMAX . . . 25

3.2. Modelo dirigido por funciones vs modelo dirigido por datos . . . 27

3.3. Ruta ventral artificial . . . 29

3.3.1. Detecci ´on de regiones de inter ´es . . . 30

3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on . . . 32

3.3.3. Experimentos y resultados . . . 33

4. Corteza visual artificial 36 4.1. Integraci ´on de la ruta dorsal y la ruta ventral . . . 36

4.2. Modelo computacional . . . 38

4.2.1. Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de una imagen . . . 38

4.2.1.1. Caracter´ısticas de la im ´agen como flujos de informaci ´on independientes . . . 39

4.2.1.2. Mapas visuales . . . 40

(8)

Tabla de contenido (continuaci ´

on)

4.2.2. Descripci ´on y clasificaci ´on de una imagen . . . 43

4.2.2.1. Descripci ´on . . . 44

4.2.2.2. Clasificaci ´on . . . 45

4.2.2.3. Conclusi ´on . . . 46

5. Programaci ´on de cerebros artificiales 47 5.1. La corteza visual artificial como un sistema teleol ´ogico . . . 47

5.2. Evoluci ´on de cerebros artificiales . . . 48

5.2.1. Representaci ´on multi- ´arbol . . . 49

5.2.1.1. Funciones y terminales . . . 52

5.2.2. Funci ´on objetivo . . . 62

5.2.3. Operadores gen ´eticos . . . 65

5.2.3.1. Operadores de cruzamiento . . . 67

5.2.3.2. Operadores de mutaci ´on . . . 68

5.2.4. Implementaci ´on . . . 70

5.3. B ´usqueda aleatoria . . . 72

6. Resultados 75 6.1. Base de datos . . . 75

6.1.1. CalTech-5 . . . 75

6.1.2. CalTech-101 . . . 77

6.1.3. GRAZ-01 y GRAZ-02 . . . 77

6.1.4. Reto VOC2007 . . . 78

6.2. Tama ˜no del espacio de b ´usqueda de la CVA . . . 80

6.3. Evoluci ´on de cerebros artificiales . . . 82

6.3.1. Prueba de validaci ´on cruzada . . . 84

6.3.2. An ´alisis de las soluciones . . . 87

6.4. B ´usqueda aleatoria . . . 119

6.4.1. Desempe ˜no de la b ´usqueda aleatoria variando el n ´umero de im ´agenes de entrenamiento . . . 120

6.4.1.1. El mejor tama ˜no para un conjunto de entrenamiento . . . . 122

6.4.1.2. An ´alisis de las soluciones desde un punto estructural . . . 125

6.4.1.3. Algunos ejemplos de soluciones de la CVA . . . 129

6.4.2. Comparasi ´on entre los modelos de la CVA y el HMAX . . . 136

6.4.3. Resultados sobre las bases de datos Graz 01 y Graz 02 . . . . 136

6.4.4. Reto VOC . . . 138

7. Aplicaci ´on 142 7.1. Auto-ajuste de la atenci ´on visual para la mejora de un sistema de de-tecci ´on de un punto l ´aser . . . 142

7.2. Trabajos previos . . . 144

7.3. T ´ecnicas cl ´asicas . . . 147

7.3.1. Umbralizaci ´on din ´amica . . . 147

(9)

Tabla de contenido (continuaci ´

on)

7.4. Descripci ´on del sistema . . . 148

7.4.1. M ´odulo de puesta a punto . . . 150

7.4.2. M ´odulo de an ´alisis de im ´agenes . . . 150

7.4.3. M ´odulo de interacci ´on dom ´otica . . . 152

7.5. La atenci ´on focalizada y su aplicaci ´on en un sistema de detecci ´on l ´aser 152 7.5.1. Extracci ´on de caracter´ısticas . . . 153

7.5.2. Integraci ´on de caracter´ısticas . . . 153

7.5.3. Proceso de auto-ajuste del FOA . . . 155

7.5.4. FOA + Correlaci ´on de Patrones + Umbralizaci ´on din ´amica . . . 158

7.5.5. FOA + Correlaci ´on de patrones +F RBSexpert . . . 159

7.5.6. FOA + Correlaci ´on de patrones +F RBStuned−GA . . . 160

7.5.7. Codificaci ´on e inicializaci ´on del GA . . . 162

7.5.8. Cruza aritm ´etica max-min . . . 163

7.5.9. Mutaci ´on uniforme . . . 164

7.5.10. FOA + Correlaci ´on de patrones +F RBSlearning−GA . . . 164

7.6. Dise ˜no de experimentos . . . 165

7.7. FOA + TM + DT . . . 168

7.8. FOA + TM +F RBStuned−GA . . . 171

7.9. FOA + TM +F RBSlearning−GA . . . 174

7.10. Resumen de resultados . . . 175

8. Conclusiones y trabajo futuro 180 8.1. Limitaciones . . . 181

8.2. Trabajo futuro . . . 182

(10)

Lista de figuras

Figura P ´agina

1. Reconocimiento de objetos . . . 4

2. Retina . . . 10

3. C ´eluas simples y complejas . . . 12

4. Sistema visual humano . . . 13

5. Teor´ıa de esquemas . . . 19

6. Modelo 3-D . . . 19

7. Modelo de la atenci ´on visual . . . 22

8. Modelo funcional . . . 28

9. La imagen como el gr ´afico de una funci ´on . . . 30

10. Ruta ventral artificial . . . 31

11. Detecci ´on de regiones de inter ´es . . . 32

12. Descripci ´on de caracter´ısticas . . . 33

13. Corteza visual artificial . . . 37

14. Adquisici ´on y transformaci ´on de caracter´ısticas . . . 41

15. Descripci ´on de la imagen . . . 44

16. Ciclo evolutivo . . . 49

17. Programaci ´on de cerebros artificiales, analog´ıa . . . 50

18. Representaci ´on de una posible soluci ´on . . . 51

19. Elementos estructurales . . . 57

20. Curva ROC . . . 66

21. Cruce cromos ´omico . . . 68

22. Cruce gen ´etico . . . 69

23. Mutaci ´on cromos ´omica . . . 69

24. Mutaci ´on gen ´etica . . . 70

25. Diagrama a bloques de la programaci ´on de cerebros artificiales . . . 73

26. Diagrama de flujo de la programaci ´on de cerebros artificiales . . . 74

27. Base de datos CalTech-5 . . . 76

28. Base de datos CalTech-101 . . . 77

29. Base de datos GRAZ-01 . . . 79

(11)

Lista de figuras (continuaci ´

on)

Figura P ´agina

31. Base de datos VOC2007. . . 81

32. Validaci ´on cruzada . . . 84

33. Soluci ´onA1−3 . . . 90

34. Soluci ´onA2−3 . . . 91

35. Soluci ´onA3−2 . . . 92

36. Soluci ´onA4−2 . . . 93

37. Soluci ´onA5−1 . . . 94

38. Soluci ´onC1−2 . . . 96

39. Soluci ´onC2−1 . . . 97

40. Soluci ´onC3−6 . . . 98

41. Soluci ´onC4−1 . . . 99

42. Soluci ´onC5−6 . . . 100

43. Soluci ´onR1−2 . . . 103

44. Soluci ´onR2−5 . . . 104

45. Soluci ´onA2−6 . . . 105

46. Soluci ´onR3−2 . . . 106

47. Soluci ´onR3−4 . . . 107

48. Soluci ´onH1−1 . . . 108

49. Soluci ´onH1−4 . . . 109

50. Soluci ´onH3−1 . . . 110

51. Soluci ´onH3−3 . . . 111

52. Soluci ´onH4−3 . . . 112

53. Soluci ´onM1−4 . . . 114

54. Soluci ´onM2−5 . . . 115

55. Soluci ´onM3−1 . . . 116

56. Soluci ´onM3−5 . . . 117

(12)

Lista de figuras (continuaci ´

on)

Figura P ´agina

58. Desempe ˜no de la CVA en una b ´usqueda aleatoria . . . 123

59. Intentos aleatorios necesarios para descubrir una soluci ´on . . . 126

60. Frecuencia de uso de las funciones de los OV . . . 128

61. Complejidad y diversidad . . . 130

62. Soluci ´onCV AF1 . . . 133

63. Soluci ´onCV AM1 . . . 134

64. Soluci ´onCV AF2 . . . 135

65. Desempe ˜no en la base de im ´agenes de GRAZ-02 . . . 140

66. Desempe ˜no en la base de im ´agenes de VOC2007 . . . 141

67. Im ´agenes con un punto l ´aser . . . 147

68. Patrones l ´aser . . . 148

69. Sistema de control del entorno . . . 149

70. Esquema de la atenci ´on focalizada . . . 155

71. Genotipo del FOA . . . 156

72. Esquema de la evoluci ´on de la programaci ´on de cerebros artificiales . . . . 157

73. Funci ´on objetivo . . . 158

74. Algoritmo FOA + TM + DT . . . 159

75. Algoritmo FOA + TM + FRBS . . . 160

76. Ajuste del FRBS . . . 161

77. Evoluci ´on de un FRBS . . . 161

78. Rango de los intervalos de la funci ´on de membres´ıa. . . 163

79. Desplazamiento lateral de las etiquetas ling ¨u´ısticas M . . . 165

80. Proceso de aprendizaje de la base de conocimiento, KB . . . 165

81. Desempe ˜no del FOA a lo largo de la evoluci ´on . . . 167

82. Diversidad . . . 168

83. Complejidad . . . 169

(13)

Lista de figuras (continuaci ´

on)

Figura P ´agina

85. Imagen con un punto l ´aser . . . 170

86. Im ´agenes sin un punto l ´aser . . . 170

87. TM+DT vs. FOA+TM+DT . . . 178

88. TM+F RBStuned−GA vs. FOA+TM+F RBStuned−GA . . . 178

(14)

Lista de tablas

Tabla P ´agina

1. Matriz de confusi ´on HMAX . . . 34

2. Matriz de confusi ´on RVA . . . 35

3. Comparaci ´on entre tiempos de c ´omputo . . . 35

4. N ´umero de convoluciones . . . 35

5. Funciones y terminales,V OO . . . 53

6. Funciones y terminales,OVC . . . 55

7. Funciones y terminales,OVF . . . 61

8. Funciones y terminales,OVM M . . . 62

9. Matriz de confusi ´on . . . 63

10. Ejemplo de la respuesta entregada por un clasificador . . . 64

11. Base de datos CalTech-05 . . . 76

12. Subconjuntos de GRAZ-01 . . . 78

13. Par ´ametros utilizados para la evoluci ´on de cerebros artificiales . . . . 83

14. Tama ˜no del conjunto de im ´agenes de entrenamiento y prueba . . . . 85

15. Validaci ´on cruzada, aeroplanos vs fondo . . . 85

16. Validaci ´on cruzada, carros vs fondo . . . 86

17. Validaci ´on cruzada, rostros vs fondo . . . 86

18. Validaci ´on cruzada, hojas vs fondo . . . 86

19. Validaci ´on cruzada, motocicletas vs fondo . . . 86

20. Resumen de la validaci ´on cruzada . . . 87

21. Mejores soluciones, aeroplanos vs fondo . . . 89

22. Mejores soluciones, carros vs fondo . . . 95

23. Mejores soluciones, rostros vs fondo . . . 101

24. Mejores soluciones, hojas vs fondo . . . 102

25. Mejores soluciones, motocicletas vs fondo . . . 113

26. Intentos aleatorios para obtener 100 soluciones . . . 121

27. Resultados en la clasificaci ´on con soluciones al azar . . . 124

28. Promedio del n ´umero de MM sobre las 100 soluciones de cada clase 129 29. Mejores soluciones descubiertas por un proceso aleatorio . . . 131

(15)

Lista de tablas (continuaci ´

on)

Tabla P ´agina

31. Exactitud de clasificaci ´on . . . 137

32. Comparaci ´on de desempe ˜no la CVA y el modelo HMAX . . . 138

33. Desempe ˜no promedio de la CVA en la base de datos de GRAZ-01 . 139 34. Desempe ˜no promedio de la CVA en la base de datos de GRAZ-02 . 139 35. Desempe ˜no de las mejores soluciones en GRAZ-02 . . . 139

36. Estado del arte . . . 146

37. Funciones y terminales . . . 154

38. Validaci ´on cruzada de la atenci ´on focalizada . . . 166

39. ResultadosT M+DT vsF OA+T M +DT . . . 171

40. Resultados TM+DT, FOA+TM+DT y TM+F RBStuned−GA . . . 171

41. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 50000 evaluaciones . . . 173

42. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 100000 evaluaciones . . . 173

43. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 300000 evaluaciones . . . 174

44. ResultadosF OA+T M +F RBSlearning−GA . . . 175

45. Resumen de resultados . . . 176

(16)

Cap´ıtulo 1.

Introducci ´

on

La visi ´on por computadora es un ´area de investigaci ´on que tiene por objetivo trans-formar la informaci ´on contenida en im ´agenes digitales, a datos simb ´olicos o num ´ericos, de forma tal que el mundo real pueda ser analizado e interpretado por una computadora, (Klette, 2014; Shapiro y Stockman, 2001). Lo anterior implica, realizar una descripci ´on del mundo que se percibe en una o m ´as im ´agenes y reconstruir sus propiedades como: formas, iluminaci ´on, colores, texturas, y distribuci ´on de los elementos que la componen, en informaci ´on que la computadora pueda interpretar, (Szeliski, 2010). Llevar a cabo esta tarea representa todo un reto y en este sentido muchos esfuerzos toman como inspiraci ´on la misma visi ´on humana, a fin de alcanzar la meta de poder duplicar la habilidad de perci-bir el mundo que lo rodea. En particular, uno de los problemas m ´as importantes a resolver de la visi ´on por computadora es el reconocimiento de objetos, el cual sigue siendo uno de los menos entendidos dentro de la percepci ´on visual, (Ullman, 1996). En este sentido la presente tesis propone un nuevo modelo de reconocimiento de objetos inspirado en el proceso de la visi ´on humana y la evoluci ´on artificial.

(17)

prin-cipales: la primera se refiere a la identificaci ´on de un objeto como una entidad singular; mientras que la segunda se refiere a la pertenencia del objeto dentro de un conjunto de objetos con caracter´ısticas similares, sin importar su tama ˜no, ubicaci ´on, rotaci ´on, punto de vista, condici ´on de iluminaci ´on y oclusiones. Computacionalmente, ambos procesos son similares debido a que la entrada del modelo de aprendizaje es una imagen y su salida es una etiqueta, donde esta puede implicar la identificaci ´on del objeto, o bien la membres´ıa del objeto a una categor´ıa. Sin embargo, la categorizaci ´on implica un rango mayor de posibles variaciones que la identificaci ´on, debido a que el sistema de reco-nocimiento debe generalizar a trav ´es de las diferentes condiciones del objeto y de una variedad de ejemplos de la clase. As´ı, el problema de la clasificaci ´on de un objeto es un reto computacional, debido a que un sistema de visi ´on artificial debe ser capaz de cons-truir un descriptor a partir de un conjunto de propiedades invariantes del objeto (Pinto

et al., 2008).

De esta manera, la capacidad del cerebro de analizar la informaci ´on visual, sin una aparente necesidad de reglas expl´ıcitas y laboriosas instrucciones, ha motivado en el pre-sente trabajo proponer un modelo computacional, dedicado al reconocimiento de objetos inspirado en el flujo de informaci ´on de la corteza visual.

1.1. Planteamiento del problema

En la actualidad no existe una definici ´on simple, precisa o completa de la problem ´atica de reconocimiento de objetos. Sin embargo, existen algunas definiciones generales como las expresadas en Russell y Norvig (2009) donde el reconocimiento de objetos se define como sigue:

Dado un conjunto de im ´agenes que contienen uno m ´as objetos seleccionados de una colecci ´onO1, O2, ..., Oj, ..., Ok de objetos, la cual se conocea priori, y

(18)

Responder las siguientes preguntas:

¿Cu ´ales objetosO1, O2, ..., Oj, ..., Ok est ´an presentes en la escena?

En base a lo anterior, ¿Es posible determinar la posici ´on y orientaci ´on del observa-dor?

El contestar este cuestionamiento no es trivial. Por ejemplo, sup ´ongase que se quiere determinar la presencia o ausencia de los k posibles objetos contenidos en una ima-gen de 8 bits y tama ˜noN ×N. Una forma de solucionar esta problem ´atica es proponer un vector binario, cuyo j- ´esimo bit codifique la presencia/ausencia de un objeto; con lo cual existir´ıa una correspondencia entre la imagen de entrada y este vector. En teor´ıa se tendr´ıa que considerar como entrada al sistema cada combinaci ´on de pixeles que forman a la imagen, esto es 8N2

posibles configuraciones; as´ı como cada combinaci ´on de los posibles objetos, es decir,2kcombinaciones; con lo cual existir´ıa un total de8N2

·2k

posi-bles correspondencias para resolver este problema. En este caso, si se toma una imagen de 128 ×128 pixeles y se definen 10 objetos, existir´ıan alrededor de ≈ 1014800 posibles relaciones que se deber´ıan de considerar para resolver esta instancia. De esta manera, dependiendo del tama ˜no de la imagen y el n ´umero de objetos en esta, el problema crece exponencialmente.

Una reducci ´on a la complejidad del problema anterior es plantear una transformaci ´on sobre la informaci ´on contenida en la imagen, hacia una representaci ´on generalizada del o los objetos en la misma. Es decir, dada una imagenI buscar una funci ´on que relacione la representaci ´on Rj del j- ´esimo objeto, donde esta funci ´on sea capaz de sintetizar los

(19)

1 0 1 1 0 0 0 1 1 0 Imagen (I)

Objeto j

Rj

Representaci´on

f(I)

Figura 1: El reconocimiento puede plantearse como un problema de b ´usqueda de la funci ´on f(I),

que relacione el objetojcon alguna representaci ´onRj, sin importar la traslaci ´on, rotaci ´on, oclusi ´on

o escala del objeto.

Dada una imagen I que pertenece a una base de im ´agenes de un conjunto Ω de objetos, y una representaci ´onRj para cada objetoj ∈ Ω. La tarea de reconocimiento de

objetos se define como la b ´usqueda del m´ınimo argumento en la expresi ´on siguiente:

Q=arg min c(f(I)) ;

dondef(I), es una funci ´on que devuelve una representaci ´on consistente,Rj, delj- ´esimo

objeto en la imagenI; es decir,f(I) :I 7→Rj; mientrasc(·)provee una m ´etrica del

rendi-miento de este mapeo. N ´otese que esto implica una b ´usqueda de la funci ´onf que mejor caracterize a ´o las im ´agenes de los objetos contenidos en la base de datos.

(20)

bio-inspirado. De igual forma, al realizar esta analog´ıa, se brinda informaci ´on sobre el tipo de caracter´ısticas que son relevantes en el reconocimiento de objetos.

En la pr ´actica, este tipo de modelos bioinspirados est ´an limitados debido a la falta de una descripci ´on detallada del sistema visual humano, adem ´as de estar restringidos por la capacidad de c ´omputo. Un ser humano puede reconocer hasta 100,000 objetos en un rango de 100-200ms, haciendo uso de alrededor de1011neuronas altamente conectadas y distribuidas en ´areas del cerebro que son especializadas en el an ´alisis de diferentes aspectos de la imagen. De esta forma, la comparaci ´on en desempe ˜no entre un siste-ma artificial y un sistesiste-ma natural, dedicado al reconocimiento y clasificaci ´on de objetos a ´un no es justa. No obstante, se puede delimitar y enmarcar dicha problem ´atica bajo al-gunas restricciones, haciendo posible utilizar modelos bioinspirados como una soluci ´on al problema de reconocimiento de objetos. Por ejemplo, en visi ´on por computadora, se han propuesto bases de datos e ´ındices de desempe ˜no en la identificaci ´on o clasifica-ci ´on de las im ´agenes, donde ambos se han tomado como est ´andares en la evaluaclasifica-ci ´on y comparaci ´on entre diferentes sistemas artificiales, Pintoet al.(2008); Ponceet al.(2006), algunas de estas bases de datos son Caltech, GRAZ y VOC, propuestas por autores co-mo: Fei-Feiet al.(2007); Griffinet al.(2007); Opeltet al.(2006); Everinghamet al.(2010) y sus m ´etricas: raz ´on de error equivalente, ´area bajo la curva ROC y precisi ´on promedio respectivamente. En general estas bases de datos son construidas por un largo n ´umero de imagenes divididas en categorias, que dependen del o los objetos que contienen cada imagen;i. e., im ´agenes que contienen aeroplanos, carros, rostros, barcos, por mencionar algunos, como tambi ´en se suele incluir alguna clase adicional que no tiene alg ´un objeto en espec´ıfico y es llamada fondo. De esta forma, en esta tesis la propuesta de un mo-delo bioinspirado para la clasificaci ´on de objetos, se ha planteado como un problema de optimizaci ´on dentro del marco de reconocimiento de objetos, y se limita a las bases de datos antes mencionadas para una comparaci ´on con trabajos en el estado del arte como Serreet al.(2005); Mutch y Lowe (2008); Wang y Feng (2013); Jiet al.(2013); Chenet al.

(21)

1.2. Objetivo general

El objetivo del presente trabajo de investigaci ´on es proponer un sistema de reconoci-mieto de objetos en im ´agenes digitales; donde dicho sistema sea un modelo bioinspirado del sistema visual humano y del mecanismo de evoluci ´on de las estructuras dentro de este.

1.3. Objetivos espec´ıficos

Proponer una estructura para el sistema de reconocimiento de objetos, basado en los modelos psicol ´ogicos, fisiol ´ogicos y computacionales.

Proponer un proceso de descripci ´on de la imagen inspirado de los procesos que se llevan a cabo en el sistema de visi ´on natural.

Dise ˜nar e implementar una metodolog´ıa basada en la programaci ´on gen ´etica para entrenar el modelo de clasificaci ´on de im ´agenes.

Establecer criterios de evaluaci ´on bien establecidos y utilizados por la comunidad de visi ´on artificial.

Este nuevo modelo debe ser aplicable a la clasificaci ´on de bases de im ´agenes en el estado del arte.

Realizar una comparaci ´on en el rendimiento de clasificaci ´on del modelo propuesto con modelos en estado del arte.

1.4. Alcances de la tesis

(22)

Se propone e implementa el paradigma de un modelo funcional para el tratamien-to y an ´alisis de im ´agenes, lo que permite considerar las propiedades de la imagen como una funci ´on de la escena, a diferencia de un modelo tradicional donde las pro-piedades son dependientes de los datos de la propia imagen. En consecuencia, se sustituye la utilizaci ´on de peque ˜nas secciones de la imagen para describir a la ima-gen (Serreet al., 2007); por un modelo funcional, donde un conjunto de operadores sobre la imagen permitan obtener caracter´ısticas espec´ıficas de cada objeto.

Para el modelo propuesto se sigue una estructura jer ´arquica inspirada en el sistema visual humano, como los sugeridos por Riesenhuber y Poggio (1999); Serre et al.

(2007); Mutch y Lowe (2008); Itti y Koch (2001), por mencionar algunos.

El modelo es entrenado para el problema de clasificaci ´on binaria, donde se detecta la presencia/ausencia del objeto en una imagen.

Se realiza la evaluaci ´on de este trabajo sobre cada una de las clases que componen a 3 bases de datos, CalTech, Fei-Feiet al.(2007); GRAZ, Opeltet al.(2006) y VOC, Everingham et al.(2010). Para esto, se utilizan m ´etricas de clasificaci ´on empleadas por trabajos en el estado del arte.

Se propone y utiliza un nuevo m ´etodo basado en la programaci ´on gen ´etica, acorde a la estructura jer ´arquica del modelo propuesto, el cual es capaz de generar un grupo de operadores sobre la imagen. Donde cada operador es construido a partir de su particular conjunto de funciones y terminales. Para lograr lo anterior, se implementa una nueva codificaci ´on junto con operadores de cruza y mutaci ´on para realizar el ciclo evolutivo.

1.5. Organizaci ´on de la tesis

(23)
(24)

Cap´ıtulo 2.

Fundamentos

El sistema visual humano es capaz de reconocer e identificar una gran variedad de objetos en una escena. Sin embargo, la forma exacta en la cual nuestro cerebro organiza y controla estas acciones es a ´un un campo desconocido. De este modo, existen pregun-tas abierpregun-tas tales como: ¿Qu ´e tipo de informaci ´on se procesa desde que la imagen es generada en la retina, hasta la construcci ´on de una representaci ´on del objeto? ¿Cu ´ales son las caracter´ısticas que nuestro cerebro toma en cuenta para reconocer un objeto? ¿C ´omo son almacenadas las representaciones del objeto, y c ´omo son activadas cuando es visto el objeto? ¿Las representaciones del objeto en nuestro cerebro son generales, o son espec´ıficas a una acci ´on o a un proceso cognitivo, como el aprendizaje, planeamien-to, o razonamiento?

Las preguntas anteriores han sido hist ´oricamente estudiadas por una variedad de cient´ıficos en diversas disciplinas, incluyendo psicolog´ıa cognitiva, neurobiolog´ıa, neuro-psicolog´ıa y ciencias de la computaci ´on. En este cap´ıtulo se realizar ´a una breve revisi ´on de trabajos en las diferentes disciplinas antes mencionadas con el objetivo de poner en contexto la propuesta del presente trabajo de tesis.

La primera secci ´on describe brevemente la estructura del sistema visual humano y algunos modelos bi ´ologicos propuestos por la comunidad neurocient´ıfica. De igual forma, la siguiente secci ´on describe algunas de las teor´ıas neuropsicol ´ogicas de como el ser humano es capaz de reconocer objetos y finalmente la ´ultima secci ´on explica algunos de los modelos computacionales que son bioinspirados en el sistema visual humano para resolver la tarea del reconocimiento y clasificaci ´on de objetos en una imagen.

2.1. Estructura del sistema visual humano

(25)

fototransducci ´on. Estas c ´elulas son conocidas como conos, bastones y c ´elulas ganglio-nares, ver figura 2. Los conos se excitan con longitudes de onda corta (colores en tonos azules), mediana (colores en tonos verdes) y larga (colores en tonos rojos); mientras los bastones son sensibles a los cambios de intensidad luminosa, lo que permite percibir propiedades del color como el tono y el brillo (MacLeod y Boynton, 1979). Finalmente esta informaci ´on se transfiere a las c ´elulas ganglionares de la retina, en donde se llevan a cabo dos procesos en v´ıas paralelas, llamados respectivamente v´ıa centro-activo y v´ıa centro-inactivo, este proceso tambi ´en se conoce como centro-entorno ´o centro periferia. El primer proceso se refiere a las c ´elulas que se activan cuando la luz estimula el centro de sus campos receptivos y se inhiben cuando se estimula la periferia; mientras que el proceso v´ıa centro-inactivo, se refiere al comportamiento contrario. Esto permite perci-bir peque ˜nas diferencias y r ´apidas variaciones de luminosidad. Adem ´as, existen c ´elulas ganglionares especializadas en transmitir informaci ´on relativa al movimiento, resaltar los detalles y el color de los objetos presentes en la escena visual.

LUZ

LUZ

Iris

Retina

Pupila Cornea

Bastones Conos Cristalino

Ganglionares Nervio

Escler´otica

C´elulas ´

Optico

Figura 2: Esquema de la retina.

(26)

proveniente del campo visual contralateral de cada una de las dos retinas, el cual llega al n ´ucleo geniculado lateral (NGL), en el cual se llevan a cabo procesos relacionados con la atenci ´on selectiva, creaci ´on de im ´agenes mentales, respuesta a colores, movimiento y distinguir objetos en un primer plano (Chen et al., 1998; O’Connor et al., 2002). Casi la totalidad de las fibras provenientes de las neuronas del cuerpo geniculado lateral, por medio del tracto ´optico, terminan en la corteza estriada o V1, ver figura 4. Esta regi ´on del cerebro, y las ´areas que componen la corteza visual han sido estudiadas ampliamen-te por las neurociencias, y han surgido varias hip ´oampliamen-tesis y ampliamen-teor´ıas tratando de explicar el c ´omo la informaci ´on visual es interpretada en cada regi ´on; que para prop ´ositos de esta tesis se explicar ´an solo dos de ellas.

2.1.1. Modelos biol ´ogicos de la corteza visual humana

Si bien Francesco Gennari (1782) hace la primera descripci ´on f´ısica de la corteza vi-sual primariara (V1) del cerebro, ´area que tambi ´en es llamada corteza estriada gracias a sus estudios. Es a finales del siglo XIX cuando Hermann Munk relaciona esta ´area del cerebro con el sentido de la vista; y es a principios del siglo XX cuando Ramon y Cajal hacen la primera descripci ´on a nivel celular de esta ´area (Glickstein y Rizzolatti, 1984; Gross, 1999).

2.1.1.1. El modelo de Hubel y Wiesel

(27)

Hubel, 1982). Actualmente se tiene la hip ´otesis que existen c ´elulas neuronales llamadas c ´elulas abuelas que pueden ser excitadas por el est´ımulo visual de objetos espec´ıficos como por ejemplo los rostros (Gross, 2002).

Inhibido Excitado Inhibido Inhibido Inhibido Excitado Inhibido Excitado Inhibido Inhibido Excitado Inhibido t

0 1 2 3

t

0 1 2 3

t

0 1 2 3

t

0 1 2 3

C´elulas Simples 2 3 1 t t t

1 2 3

0

0

1 2 3

0 1 2 3

3 2 1 0 Est´ımulo 3 Est´ımulo 2 Est´ımulo 1 Est´ımulo visual

1- sin cambio

2 - excitaci´on

3 - inhibido

0 1 2 3

1 2 3 4 1 2 3 4 1 2 3 4 luz luz luz Est´ımulo 1 Est´ımulo 2 luz luz luz luz Est´ımulo 4 Est´ımulo 3 C´elulas simples C´elulas Complejas Respuesta 1- excitaci´on

4 - inhibido 3 - excitaci´on 2 - excitaci´on

Est´ımulo visual C´elula simple

Respuesta

C´elula compleja

Tiempo (t) Tiempo (t)

Figura 3: En el lado izquierdo de la figura se muestra el comportamiento de una c ´elula simple frente

a una serie de est´ımulos visuales, la cu ´al reacciona solo a una posici ´on y orientaci ´on espec´ıfica;

mientras el lado derecho muestra como reacciona una c ´elula compleja ante est´ımulos similares.

(28)

(2001); Farivar (2009) descubren que existe un gran intercambio de informaci ´on entre di-chas rutas. De esta forma, el reconocimiento de objetos involucra procesos que son ´utiles para la ubicaci ´on de los objetos y viceversa.

Capa Magnocelular y Retinocortical

V3

Inferior Temporal TEO TE Ruta Ventral

Ruta Dorsal Capa Parvocelular

V4

V1 V2

MST MT Retina LGN

Estructura Pulvinar (Pul)

Corteza Parietal Posterior

CS

Pul

V3

V2

V1

V2

V4 V5 (MT)

V3a

¿Qu´e?

Col´ıculo Superior (CS)

¿D´onde? / ¿C´omo?

Retina LGN

Infero Temporal

Ruta Dorsal

Ruta Ventral

¿Qu´e? ¿D´onde? /

¿C´omo? Corteza Parietal

Figura 4: Esquema del sistema visual humano.

2.1.1.2. Dos rutas de informaci ´on

(29)

experiencia visual inmediata sino tambi ´en para almacenarlas y utilizarlas como futuras referencias. Es decir, la ruta ventral habilita al cerebro a crear conceptos mentales que nos permiten pensar, reconocer e interpretar subsecuentes est´ımulos visuales y planear nuestras acciones en el mundo. En contraste plantean a la ruta dorsal como el actuador en tiempo real, guiando la programaci ´on y respuesta de nuestras acciones visuales en el instante en que se llevan a cabo. Esto es, habilitan las reacciones y movimientos que son activados por est´ımulos visuales, guiando la mirada hacia dicho objeto o induciendo alg ´un movimiento para alcanzarlo; permitiendo a nuestros ancestros sobrevivir en un ambiente hostil e impredecible. En resumen, existe una distinci ´on entre la visi ´on para la percepci ´on y la visi ´on para la acci ´on (Goodale y Milner, 2006).

2.1.1.3. Ruta ventral

La funci ´on de la ruta ventral o del “¿Qu ´e?” es asociada con la identificaci ´on de objetos y reconocimiento de formas (Oram y Perrett, 1994). La informaci ´on visual es obtenida en la retina pasando por el nucleo lateral geniculado hasta llegar al ´area V1 del cerebro, la cual se conecta con el ´area V2 que tiene la funcionalidad de reconstruir bordes ocul-tos, procesar informaci ´on relativa al color y a la forma. Una vez que se ha procesado la informaci ´on esta sigue al ´area V4 en donde las c ´elulas que la componen se activan a est´ımulos crom ´aticos, formas complejas, profundidad y movimiento. Finalmente V4 se in-terconecta con ´areas temporales inferiores del cerebro (IT) llamadas TEO (parte posterior de la corteza inferotemporal) y TE (parte anterior de la corteza inferotemporal), donde se cree que el objeto se identifica y se encuentra la memoria visual. De esta forma, a medida que la informaci ´on avanza de V1 a TE, se verifica un cambio progresivo en la extracci ´on de caracter´ısticas estables e invariables de los objetos y las conexiones se vuelven siem-pre menos topogr ´aficas, hasta perder por completo cada organizaci ´on retinot ´opica entre V4 y TE o TEO.

2.1.1.4. Ruta dorsal

(30)

tambi ´en V5 y temporal medial superior o MST, ver figura 4, las cuales se activan al recibir est´ımulos visuales de movimiento. Esta ruta finaliza en el ´area parietal de la corteza en donde se interconecta con ´areas que controlan el movimiento de los ojos. En general, la ruta dorsal est ´a asociada en la localizaci ´on de los objetos en una escena, as´ı como en guiar las acciones de movimiento en el espacio, por ejemplo, el alcanzar un objeto o el de dirigir la mirada a un objeto espec´ıfico. De igual forma, se tiene la hip ´otesis que es en esta ruta donde mayormente se lleva a cabo la tarea de la atenci ´on visual (McMains y Kastner, 2009).

2.2. Modelos neuropsicol ´ogicos

Los modelos neuropsicol ´ogicos de la visi ´on tienen el objetivo de explicar el modo en que determinadas estructuras, funciones cerebrales y modelos anat ´omicos se relacionan con procesos psicol ´ogicos concretos de la visi ´on como el reconocimiento de objetos o la atenci ´on visual. En este sentido, se explican dos teor´ıas que fundamentan la analog´ıa del modelo computacional propuesta en esta tesis.

2.2.1. Integraci ´on de caracter´ısticas

Treisman y Gelade (1980) proponen una nueva hip ´otesis de la atenci ´on visual, lla-mada teor´ıa de integraci ´on de caracter´ısticas. En esta se sugiere que la atenci ´on debe ser dirigida serialmente a cada est´ımulo de la escena, siempre y cuando se presente al menos la conjunci ´on de dos o m ´as caracter´ısticas separables, las cuales son necesarias para caracterizar o distinguir a un posible objeto presente en la escena.

(31)

psicolog´ıa de Gestalt afirma que el todo precede a sus partes, esto es, que inicialmente solo se perciben los objetos y sus relaciones, y s ´olo despu ´es, si es necesario, se realiza un an ´alisis de sus componentes o propiedades.

No obstante, una impresi ´on inmediata y directa del medio que nos rodea, no garantiza que esta impresi ´on se lleve a cabo en una de las primeras etapas del procesamiento de informaci ´on en el sistema nervioso. Es l ´ogicamente posible, que s ´olo se tome conciencia del resultado final, sin tomar en cuenta que es el producto de una complicada secuencia de operaciones anteriores. As´ı, el procesamiento dearriba-abajo(“top-down”) puede des-cribir lo que experimentamos concientemente; como una teor´ıa de codificaci ´on perceptual que necesita de un objetivo espec´ıfico.

En la teor´ıa de integraci ´on de caracter´ısticas de la atenci ´on, se propone la hip ´otesis que los rasgos que caracterizan a un objeto, son registrados en forma temprana, aut ´oma-tica y en paralelo a trav ´es del campo visual, con lo cual los objetos son identificados por separado; mientras en una etapa posterior se realiza la atenci ´on focalizada a cada obje-to. En este sentido, se asume que la escena es inicialmente codificada a lo largo de un n ´umero de dimensiones separables, tales como color, orientaci ´on, frecuencia espacial, brillo y direcci ´on de movimiento. A fin de recombinar estas representaciones separadas y lograr una s´ıntesis de las caracter´ısticas para cada objeto en la escena, la ubicaci ´on de los est´ımulos son procesados serialmente a trav ´es de una atenci ´on focalizada. De esta manera, las caracter´ısticas que est ´an presentes en la ubicaci ´on del centro de aten-ci ´on son combinadas para conformar un ´unico objeto. Esta atenaten-ci ´on focalizada provee la

adhesi ´on, la cual integra las caracter´ısticas inicialmente separables en objetos unitarios. Una vez que se han registrado correctamente, se percibe la composici ´on de objetos y se almacenan como tal.

(32)

esto se lleve a cabo por distintos canales f´ısicos. En este caso se usa el t ´ermino “dimen-si ´on” para referirse al rango completo de variaci ´on el cual es analizado separadamente por la funcionalidad de alg ´un subsistema perceptual independiente, y “caracter´ıstica” pa-ra referirse a un valor particular sobre una dimensi ´on. Esto es, color y orientaci ´on son dimensiones; mientras rojo y vertical son caracter´ısticas sobre estas dimensiones. Las dimensiones perceptuales no necesariamente corresponden ´unicamente a las dimensio-nes f´ısicas de los objetos. As´ı, algunos aspectos en relaci ´on a los atributos f´ısicos pueden ser registrados como caracter´ısticas b ´asicas; por ejemplo la percepci ´on del contraste de la intensidad en lugar de una intensidad absoluta, o percibir propiedades de orden su-perior tales como la simetr´ıa o la homogeneidad. La idea de que estas dimensiones son autom ´aticamente percibidas por separado, parece ser contraintuitivo; sin embargo, este proceso ocurre en una etapa temprana de la percepci ´on y no es hasta cuando ocurre la atenci ´on visual, donde estas caracter´ısticas se unen y se construye una imagen del objeto.

2.2.2. Reconocimiento por componentes

(33)

estos modelos para reconocer objetos en tres dimensiones (Biederman y Gerhardstein, 1993). De esta forma, la teor´ıa gira alrededor de identificar los geones de un objeto visual y sus relaciones, esta informaci ´on es entonces correlacionada con alguna representaci ´on del objeto ya almacenada o bien con un modelo estructural, el cual contenga informa-ci ´on sobre los atributos de los objetos como: textura, color, tama ˜no u orientainforma-ci ´on. As´ı, un objeto es identificado por el mejor ajuste entre alguna representaci ´on en memoria y la informaci ´on dada por la composici ´on de los geones.

N ´otese que este planteamiento sigue la l´ınea de investigaci ´on propuesta por Marr (1982), en la teor´ıa de esquemas; donde se explica la visi ´on como un proceso de infor-maci ´on. En este sentido se definen tres diferentes tipos de an ´alisis:

Computacional. Desde este punto de vista se analiza la tarea de un sistema cogni-tivo, con el objetivo de identificar el proceso de informaci ´on espec´ıfico que resuelve dicha tarea junto con sus restricciones. Es decir, se trata de contestar las preguntas ¿Cu ´al es el objetivo de este procesamiento?, ¿Porqu ´e ´este es adecuado? y ¿Cu ´al es l ´ogica de la estrategia por el cual este puede ser resuelto?

Algor´ıtmico. Este tipo de an ´alisis trata de explicar el como el sistema cognitivo puede desarrollar el proceso de informaci ´on para resolver una tarea. Para lo cual se identifica la informaci ´on de entrada y salida, se identifica el algoritmo para transfor-mar la entrada en la salida deseada y finalmente se especifica el como la informa-ci ´on es codificada.

Implementaci ´on. En este enfoque un an ´alisis de implementaci ´on responde la pre-gunta del ¿C ´omo puede realizarse f´ısicamente tanto la representaci ´on como el al-goritmo que resuelva dicha tarea?

(34)

Imagen de Entrada

Percepción de intensidades

Cruce por ceros, manchas, puntos, bordes, barras, terminaciones, líneas virtuales, curvas y contornos.

Esquema Primario

Orientación de superficies locales y discontinuidades en profundidad.

Esquema 2 1/2−D

Modelo 3−D

Modelos 3−D organizados jerárquicamente en términos de primitivas volumétricas y de superficie. Centrado en el objeto Referencia centrado en el observador

Figura 5: Marr propone la visi ´on como un flujo de informaci ´on, que consta de tres etapas principales,

donde las primeras dos son enmarcadas desde un punto de referencia centrada en el observador y

la ´ultima centrada en el objeto.

es decir, caracter´ısticas producto de cambios de intensidad, estructuras geom ´etricas loca-les y efectos en cambios de iluminaci ´on. En una segunda representaci ´on, el esquema 2 12, intenta caracterizar la orientaci ´on de las regiones en la imagen como superficies locales, as´ı como su profundidad y sus discontinuidades. La ´ultima representaci ´on es un modelo 3-D, en el cual se intenta describir un objeto a partir de sus formas y su organizaci ´on, utilizando un sistema modular y jer ´arquico de primitivas volum ´etricas y de superficie. De esta forma, el proceso de reconocimiento usa un cat ´alogo de descripciones de modelos 3-D y sus asociaciones para describir un nuevo objeto.

Humano

Brazo

Antebrazo

Mano

(35)

2.3. Modelos computacionales

En el siglo XX, con el arrivo de las computadoras digitales varios trabajos han inten-tado emular la funcionalidad de la corteza visual humana, con el prop ´osito de desarrollar tareas como el reconocimiento de objetos, atenci ´on visual y la detecci ´on de objetos. En esta secci ´on se da una lista de los trabajos m ´as relevantes en el estado del arte los cuales son biol ´ogicamente inspirados en estas ideas.

Desde un punto de vista computacional, el primer trabajo que desarrolla un algorit-mo bioinspirado en la corteza visual con el objetivo del reconocimiento de objetos fue Fukushima (1980), quien propuso un modelo por medio de redes neuronales llamado Neocognitron. Su trabajo est ´a inspirado en el modelo jer ´arquico descrito por Hubel y Wie-sel (1959, 1962). Esta estructura est ´a representada por una red neuronal que consiste de una capa de entrada, seguida de una serie de estructuras modulares llamdas c ´elulas S y c ´elulas C, haciendo referencia a las c ´elulas simples y complejas. Esta idea imita las caracter´ısticas de las c ´elulas hipercomplejas de orden inferior y superior. En la pr ´actica este modelo es capaz de reconocer letras y n ´umeros considerando cambios de posici ´on.

(36)

sujetapapeles, obteniendo buenos resultados a ´un bajo la variaci ´on de posici ´on. En tra-bajos como los propuestos por Serreet al.(2005); Mutch y Lowe (2008), este modelo es mejorado para clasificar im ´agenes complejas, alcanzando un alto desempe ˜no sobre las mismas; en estos trabajos se propone la creaci ´on de un diccionario universal de carac-ter´ısticas, el cual es una colecci ´on de parches utilizados para construir la descripci ´on de la imagen. As´ı, varios trabajos como Kimet al.(2013); Wersing y K ¨orner (2003); Ghodrati

et al.(2012), han sugerido el como optimizar el n ´umero de parches en el diccionario uni-versal y el como proponer metodolog´ıas para mejorar la descripci ´on del objeto siguiendo este modelo jer ´arquico.

Durante el mismo periodo de tiempo, surgen varios sistemas computacionales imitan-do la atenci ´on visual, los cuales est ´an basaimitan-dos en la estructura jer ´arquica de la teor´ıa de la integraci ´on de caracter´ısticas propuesta por Treisman y Gelade (1980). El primer modelo es sugerido por Koch y Ullman (1985), donde dadas las localidades en el espacio visual que difieren de su entorno con respecto a alguna caracter´ıstica elemental como la orientaci ´on, color o movimiento son dirigidos a su correspondiente “mapa de caracter´ısti-cas”. Estos mapas son combinados en un “mapa de sobresaliencia”, el cual codifica a las regiones conspicuas de la escena visual. Despu ´es una red neuronal llamada “el ganador lo toma todo” (Winner-Take-All), selecciona la regi ´on mas conspicua a una representa-ci ´on central, ver figura 7.

(37)

WTA

Mapas de sobresaliencia

Mapa de

características central

Representación

Figura 7: Modelo computacional de la atenci ´on visual propuesto por Koch y Ullman (1985).

conspicuos son integrados en un mapa de sobresaliencia por medio de un proceso de re-lajaci ´on que identifica un peque ˜no n ´umero de regiones convexas. A lo largo de esta l´ınea de investigaci ´on, Tsotsoset al. (1995), modela la atenci ´on visual a trav ´es de un proceso jer ´arquico de el ganador toma todo.

Ittiet al. (1998), proponen un modelo de atenci ´on visual, que en la actualidad es am-pliamente utilizado, dado que este modelo recopila las ideas de propuestas por Koch y Ullman (1985) y Milanese (1993). La principal contribuci ´on es la implementaci ´on de con-ceptos te ´oricos para aplicaciones en escenas del mundo real, Itti y Koch (2001). En este sentido, ellos implementan el c ´alculo de una pir ´amide de im ´agenes por cada dimensi ´on y de esta forma obtener mapas de caracter´ısticas de intensidad, orientaci ´on y color. Esta t ´ecnica permite la detecci ´on de caracter´ısticas en diferentes escalas y entonces aplican el mecanismo de centro periferia, donde se realiza una substracci ´on entre los diferen-tes niveles de la pir ´amide. Esta metodolog´ıa ha sido empleada y mejorada por varios autores como Cutsuridis (2009), quien propuso un modelo cognitivo para explicar como varias ´areas del cerebro trabajan en conjunto en el an ´alisis de una escena. Kootstraet al.

(38)

espa-cial y amplitud de movimiento) y caracter´ısticas de alto nivel con el objetivo de reconocer rostros y medir el movimiento de los ojos en un video.

N ´otese que los trabajos anteriormente expuestos se han dividido en dos rubros, los primeros dedicados al reconocimiento de objetos en inspirados en el proceso de informa-ci ´on llevado en la ruta ventral y los segundos imitando la ateninforma-ci ´on visual inspirada en los procesos de la ruta dorsal. Sin embargo, existen algunos trabajos que tratan de integrar ambos enfoques. Por ejemplo, Fukushima (1987) implementa una red neuronal jer ´arqui-ca que desarolla una atenci ´on selectiva para el reconocimiento de objetos. En este ´arqui-caso, cuando varios patrones se presentan simult ´aneamente, el modelo realiza una atenci ´on selectiva en cada uno de ellos, segmentando a cada uno del resto y realizando el reco-nocimiento de objetos de manera separada. Olshausen et al. (1993) define un modelo computacional biol ´ogicamente plausible que combina el mecanismo de la atenci ´on y el proceso del reconocimiento para objetos en escalas y posiciones diversas. Waltheret al.

(39)
(40)

Cap´ıtulo 3.

Modelo de la ruta ventral artificial

Como se ha expuesto en el cap´ıtulo anterior la ruta ventral o del “¿Qu ´e?”, es un mo-delo del procesamiento visual del sistema humano, el cual describe la tarea del recono-cimiento de objetos. En este cap´ıtulo se propone un primer modelo bioinspirado en este flujo de informaci ´on. De esta manera en un primera secci ´on se expone a detalle el mode-lo computacional HMAX, a partir del cual se realiza un cambio de paradigma. A partir de este nuevo enfoque; en la ´ultima secci ´on se formula el modelo propuesto y se discuten algunos resultados obtenidos.

3.1. Modelo HMAX

El modelo HMAX (Riesenhuber y Poggio, 1999; Serreet al., 2005, 2007; Mutch y Lo-we, 2008); est ´a inspirado en el flujo de informaci ´on de la ruta ventral bajo las siguientes caracter´ısticas:

El proceso visual es jer ´arquico, y est ´a enfocado en construir una representaci ´on del objeto que es invariante a la posici ´on y escala en una primera etapa y despu ´es a el punto de vista y otras transformaciones.

A lo largo de esta jerarqu´ıa los campos receptivos de las neuronas, as´ı como su complejidad y est´ımulos son incrementales.

El procesamiento de la informaci ´on se realiza sin retroalimentaci ´on.

El aprendizaje ocurre en las ´ultimas etapas de la jerarqu´ıa.

(41)

Unidades S1. La entrada del sistema es una imagen en tonos de grises, la cual es procesada a trav ´es de la funci ´on de Gabor:

F(x, y) = e

−x20+γ2y02 2σ2

cos

2π λ x0

donde x0 =xcos(θ) +ysin(θ)yy0 =ycos(θ)−xsin(θ); la raz ´on de aspectoλ= 0.3 y se consideran cuatro direcciones θ, (0◦, 45, 90y 135). Finalmente para cada

orientaci ´on se construye una pir ´amide de 16 escalas; las cuales varian en un rango de7×7a37×37pixeles, en pasos de 2 pixeles.

Unidades C1. La etapa C1 representa a las c ´elulas complejas, en este caso, se realiza la selecci ´on del m ´aximo valor dentro de un vecindario de 8 pixeles entre escalas adyacentes de cada pir ´amide:

r= m´axxj,

lo cual reduce la pir ´amide a 8 escalas, esto implica incrementar la tolerancia a trans-formaciones 2D.

UnidadesS2. En esta capa, se calcula la respuesta de la funci ´on de base radial:

r=e(−β||X−Pi||),

entre las diferentes unidades de C1 y segmentos de la imagen, lo que implica que las unidades de S2 son una medida entre la entradaX y un patr ´on almacenadoPi, en este caso el autor propone alrededor de 1000 patrones, donde β es un valor de ajuste.

(42)

Si bien, el modelo est ´andar HMAX permite alcanzar una precisi ´on de alrededor del 95 % al clasificar objetos entre dos clases en bases de datos como CalTech, el procesa-miento de las im ´agenes se limita a una escala de grises, adem ´as que la construcci ´on del descriptor de una imagen es computacionalmente cosotoso, ya que al menos se realizan alrededor de 32000 convoluciones por imagen (tomando en cuenta un conjunto de 1000 patrones) para su reconocimiento. En este sentido, se plantean los siguientes cuestiona-mientos:

¿Es posible simplificar esta estructura para tener un mejor rendimiento computacio-nal, sin perder la justificaci ´on biol ´ogica?

¿C ´omo se puede reemplazar el uso de los patrones o parches que constituyen el diccionario universal?

¿C ´omo extender este modelo a im ´agenes a color?

El poder contestar estas preguntas nos lleva a considerar un cambio de paradigma en el tratamiento de la imagen; lo cual se explica a detalle en la secci ´on siguiente.

3.2. Modelo dirigido por funciones vs modelo dirigido por datos

En trabajos previos como los planteados por Fukushima (1980); Mel (1997); Ullman

(43)

...

... ...

... ...

...

... ... ...

fI(fp1, fp2, ..., fpn)

Color

fpn

fp1 fp2

EvoVis i´on

Profundidad Continuidad EvoVis

i´on

Figura 8: Se consideran las propiedades de la imagen como una funci ´on de la escena, a diferencia

de un modelo tradicional donde las propiedades son dependientes de los datos de la propia imagen.

informaci ´on visual sigue una serie de transformaciones, producto del est´ımulo ´optico en la retina, el cual culmina con la obtenci ´on de las caracter´ısticas necesarias para describir un objeto. Es en este sentido, que en el presente trabajo se plantea la hip ´otesis que la informaci ´on visual puede expresarse como una funcional de la escena y que todas las ca-racter´ısticas que la describen son intr´ınsicas a esta funcional, ver figura 8. Y por lo tanto, el descriptor de una imagen puede realizarse a partir de la respuesta de estas funciones y no por la correlaci ´on con patrones preestablecidos.

Dentro de esta conjetura, una imagen entonces puede definirse como una represen-taci ´on de esta funcional, es decir como el gr ´afico de una funci ´on. Formalmente:

Definici ´on: Imagen como la gr ´afica de una funci ´on. Sea f una funci ´on f : U

R2 → R. La gr ´afica o imagen I def es el subconjunto de R3 que consiste de los puntos

(44)

De esta manera, el flujo de informaci ´on puede definirse utilizando el concepto de com-posici ´on de funciones, como una serie de transformaciones u operadores sobre la super-fice que genera la imagen. Con lo cual, se define lo siguiente:

Definici ´on: Operador Visual. Un operador visual (OV) es una funci ´on sobre una ima-gen Iq, con el objetivo de extraer caracter´ısticas espec´ıficas de la misma, como lo son:

contornos, bordes, formas, intensidad, entre otras. Donde su salida es otra imagen que se denominar ´a mapa visual (MV).

OV(Iq) :Iq 7→M V

Dadas las definiciones anteriores, el proceso jer ´arquico del modelo est ´andar HMAX, puede reformularse algor´ıtmicamente como una composici ´on de operadores visuales so-bre la imagen y m ´as a ´un, el conjunto de patrones utilizados para construir el descriptor de la imagen puede sustituirse por uno o m ´as operadores visuales. Con lo cual, este nuevo modelo tiene una analog´ıa no con las c ´elulas simples y complejas como lo plantea Serre

et al. (2007), sino con las funcionalidades que existen a lo largo de la ruta ventral de la corteza visual. De esta manera se construye el modelo que llamaremos la ruta ventral artificial.

3.3. Ruta ventral artificial

(45)

159

227 207 207 135 131 131 159

227 207 207 135 131

131 183

183

211

215 215

223 227 231 231 219 219

227 231 231 219 219 207 207

219 219 155

223 227 227 159 135 135

171 167

127

227 215 215 135 127

Figura 9: La imagen vista como una superficie, la cual es definida como el gr ´afico de una funci ´on.

Este modelo se divide en dos etapas, la detecci ´on de regiones de inter ´es y la des-cripci ´on y clasificaci ´on de la imagen a partir de las regiones de inter ´es. Este proceso se describe a continuaci ´on.

3.3.1. Detecci ´on de regiones de inter ´es

La detecci ´on de las regiones de inter ´es es descrita gr ´aficamente en la la figura 11. La entrada del sistema es una imagen a color, I(R, G, B, x, y), que se descompone en una pir ´amide de 12 escalas (Iσ1, ..., Iσ12), cada una m ´as peque ˜na que la anterior por un

fac-tor de214; manteniendo su relaci ´on de aspecto y la informaci ´on en las diferentes bandas

(46)

S1i=Fs(x, y)

S2i=fi(C1i)

SVM C1i(x, y) =maxs(S1s) V1

V2

V4

IT Orientaci´on

Direcci´on de Forma

Color S1

C1

S2

C2

IT

C2 =max(PS2i) movimiento

binocular Disparidad

inferotemporal Corteza

Figura 10: Analog´ıa entre la ruta ventral y el modelo computacional propuesto.

En este sentido, este operador visual est ´a dedicado a la detecci ´on de regiones de inter ´es (IRO), el cual es especializado para extraer bordes, l´ıneas en diferentes orienta-ciones y esquinas. En este caso el operador IRO mapea a cada escala de la pir ´amide a una nueva pir ´amide,Iσ1, ..., Iσ12 7→ If1,1, ..., If1,12, en cuyas escalas se han ponderado las

regiones de inter ´es antes mencionadas.

Una vez que se ha aplicado el operador IRO, la informaci ´on resultante se sintetiza mediante un operadorm´axde forma local entre dos escalas subsecuentes de la pir ´amide de escalas,max(I(f1,2n−1), I(f1,2n))conn = 1, ..,6. Entonces un segundo operadorm´axes

aplicado con el objetivo de substituir cada muestra de las 6 bandas (Imax1,1, ..., Imax1,6) con

el valor m ´aximo de una regi ´on de tama ˜no i×j alrededor de la posici ´on de la posici ´on

(k, l):

Imax2,n = m´ax[Imax1,n(k+i, l+j)] (1)

(47)

ban-12 escalas Imagen de

entrada

12 escalas

Evolucionado IRO

If1,12

If1,11

If1,1

If1,2

If1,3

max(If1,2, If1,3)

Imax2,6

Imax2,2

Imax2,1

Iσ12

Iσ1

Iσ2

Iσ3

Iσ11

max(Imax1,n(k+i, l+j))

6 bandas 6 bandas

Imax1,6

Imax1,2

Imax1,1

max(If1,1, If1,2)

max(If1,11, If1,12)

Detecci´on de caracter´ısticas invariantes a posici´on (C1)

I(R, G, B, x, y) If1,n=f1(Iσn)

n= 1, ...,12

M´aximo local

n= 1, ...,6 Detecci´on de caracter´ısticas invariantes a escala (S1)

Figura 11: Diagrama a bloques de la etapa de detecci ´on de regiones de inter ´es

da. El prop ´osito de aplicar estas operaciones es lograr invariancia en diferentes esca-las y posiciones, adem ´as de sintetizar la informaci ´on en un n ´umero menor de bandas, (I(max2,1), ..., I(max2,6)).

3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on

Una vez que se han detectado las regiones con mayor informaci ´on, se procede a ca-racterizar dichas regiones. T´ıpicamente esta etapa de descripci ´on se realiza a partir de la correlaci ´on de patrones. Es en esta parte donde se propone la utilizaci ´on de una serie de funciones (las cuales sustituyen el uso de estos patrones predeterminados), donde se busca que su salida sea caracter´ıstica a la informaci ´on contenida en la imagen y por ende propia al objeto que se busca describir. Esto implica, que el costo computacional se vea reducido, ya que s ´olo es necesario aplicar un reducido conjunto de funciones para obtener un vector caracter´ıstico, en lugar de correlacionar cientos o miles de patrones preestablecidos. De acuerdo a la figura 12, la informaci ´on dada por la etapa C1 es la entrada ak1operadores, los cuales emulan el conjunto de c ´elulas hipercomplejas de bajo orden. En otras palabras, para cada imagen de entradaImax2,n con n = 1, ...,6, un

conjunto de funciones fi(Imax2,n) con i = 2, ..., k, es aplicado con el objetivo de obtener

(48)

Pk

i=2fi(Imax2,1)

Pk

i=2fi(Imax2,2)

Pk

i=2fi(Imax2,6) IΣ,6 Imax2,6

IΣ,2 IΣ,1

max(IΣ,1, ..., IΣ,6)

200 m´aximos globales

6 bandas

Descriptor de la imagen (C2)

Imax2,2 Imax2,1

6×(k−1) f3(Imax2,2)

fk(Imax2,2)

f3(Imax2,6)

fk(Imax2,6) f2(Imax2,6)

k−1 funciones f3(Imax2,1)

fk(Imax2,1) f2(Imax2,1)

f2(Imax2,2)

Descripci´on de caracter´ısticas(S2)

Entrada 6 bandas

bandas

Figura 12: Diagrama a bloques de la etapa de descripci ´on de caracter´ısticas

Como siguiente paso, la metodolog´ıa contempla una etapa llamada C2, para la cual las salidas de los k − 1, operadores visuales son combinados aplicando una adici ´on,

IΣ,n = Pki=2fi(Imax2,n) con n = 1, ...,6, resultando en una nueva pir ´amide de 6 bandas.

Entonces, el vector descriptor es construido a partir de los 200 valores m ´as altos de la pir ´amide obtenida anteriormente, ver figura 12. Finalmente, este vector es la entrada de una m ´aquina de soporte vectorial, la cual es utilizada como un sistema clasificador.

3.3.3. Experimentos y resultados

(49)

Tabla 1: Esta tabla muestra la matriz de confusi ´on, obtenida por el m ´etodo HMAX sobre el conjunto

de im ´agenes de prueba para las 10 diferentes clases. En este caso, la precisi ´on de clasificaci ´on fue

del= 71.33 %(107/150 images).

Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto

Aeroplanos 11 1 0 1 0 0 0 2 0 0

Bonsai 0 10 3 1 0 1 0 0 0 0

Cerebros 0 1 10 0 1 0 1 1 0 1

Carro 1 1 0 11 0 1 0 0 1 0

Sillas 0 0 1 1 11 0 0 1 1 0

Rostros 0 2 1 0 0 10 1 0 0 1

Hojas 0 0 1 0 0 1 12 0 0 0

Motocicletas 2 0 0 2 0 0 0 11 1 0

Veleros 0 0 1 0 0 2 0 2 10 0

Se ˜nales de Alto 0 0 1 0 0 2 1 0 0 11

Los resultados de evolucionar la RVA se obtuvieron mediante un equipo Dell Precision T7500 Workstation, Intel Xeon 8 Core, NVIDIA Quadro FX 3800 sobre un sistema ope-rativo Linux OpenSUSE 11.1. La implementaci ´on del algoritmo de la m ´aquina de soporte vectorial fue tomada de la libreria libSVM, Chang y Lin (2011). En este caso, el experi-mento fue una clasificaci ´on multiclase de 10 categor´ıas, provistas por la base de datos de CalTech-101 (Fei-Feiet al., 2007). El mejor resultado obtenido fue con una precisi ´on del

(50)

Tabla 2: Esta tabla muestra la matriz de confusi ´on obtenida por la RVA. La precis ´on sobre la

clasifi-caci ´on es del= 80 %(120/150 images) en el conjunto de im ´agenes de prueba.

Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto

Aeroplanos 3 1 0 6 0 1 0 3 1 0

Bonsai 0 13 0 0 0 0 0 0 2 0

Cerebros 1 0 13 0 0 0 0 1 0 0

Carros 0 0 0 14 0 0 0 1 0 0

Sillas 0 2 0 0 10 3 0 0 0 0

Rostros 0 0 0 0 0 15 0 0 0 0

Hojas 0 0 0 0 0 0 15 0 0 0

Motocicletas 0 0 0 3 0 0 0 12 0 0

Veleros 0 1 0 0 0 1 0 1 12 0

Se ˜nales de Alto 0 0 0 0 0 1 0 0 1 13

Tabla 3: Comparaci ´on entre los tiempos de c ´omputo en los diferentes sistemas

Tama ˜no de HMAX HMAX RVA la imagen MATLAB CUDA MATLAB

896×592 34s 3.5s 2.6s

601×401 24s 2.7s 1.25s

180×113 9s 1s 0.23s

Uno de las principales ventajas de este modelo ha sido la sustituci ´on de patrones predeterminados por el uso de funciones, lo cual ha resultado en un mejor rendimiento tanto de clasificaci ´on como en tiempo de c ´omputo, esto sin perder la inspiraci ´on biol ´ogica en la corteza visual humana. Sin embargo, la mejora en la precisi ´on de clasificaci ´on ha sido marginal; lo cual ha motivado el an ´alisis de este modelo, detectando una gran p ´erdida de informaci ´on en la etapa de detecci ´on de regiones de inter ´es. Esto ha resultado en un replanteamiento de la RVA en nuevo modelo llamado la corteza visual artificial; donde este nuevo modelo se discute a detalle en el cap´ıtulo IV.

Tabla 4: N ´umero de convoluciones (NC) para cada funci ´on de la mejor soluci ´on obtenida despu ´es

de la evoluci ´on de la RVA.

f1= 0.05Dx( f2= log(Dxlog((DxxDx(C(C1)1))C1)) f3= (|Dxx(C1)−Dx( f4=log(Dxx(C1)) f5=Dyy(C1)

Dy(I)) Dyy(C1))|)(|Dy(C1)|) +Dx(Dy(C1))

N C= 24 N C= 24 N C= 36 N C= 12 N C= 24

f6=Dyyy(C1) f7= (log(Dx(Dy(C1)))) f8=|Dy(C1) f9=Dy(Dx(Dy( f10= 0.05(Dyy(C1)

(C1·Gaussσ=2(C1)) −Dy(C1)| C1)))−log(Dy(C1)) −Dx(Dy(C1)))

(51)

Cap´ıtulo 4.

Corteza visual artificial

Si bien el sistema de la ruta ventral artificial permiti ´o implementar un modelo jer ´arquico y dirigido por funciones, sus resultados en t ´erminos de clasificaci ´on no fueron los espe-rados. Es en este sentido que se ha planteado una nueva forma de adquirir y sintetizar la informaci ´on visual, donde se ha tomado como motivaci ´on la teor´ıa de la atenci ´on visual y la relaci ´on existente entre las ´areas del cerebro que constituyen al sistema visual humano. Con lo cual, en este cap´ıtulo se propone un sistema computacional llamado la corteza vi-sual artificial (CVA), Clementeet al.(2013b); Olagueet al.(2014a), que toma todos estos elementos y los sintetiza en un modelo dedicado a la categorizaci ´on de im ´agenes dentro de una base de datos. As´ı el cap´ıtulo se divide en dos secciones principales, la primera describe brevemente esta motivaci ´on biol ´ogica y en una segunda secci ´on se describe a detalle el algoritmo computacional.

4.1. Integraci ´on de la ruta dorsal y la ruta ventral

(52)

SVM

Mapa Conspicuo Mapa Conspicuo Centro

Entorno

Imagen a Color

Mapa Conspicuo Mapa Conspicuo de

de Color de Forma de Intensidad

V1

V2 Color

V4

de Forma (CMS)

n m´aximos globales max(MMC, MMO, MMS, MMInt)

V MC=V OC(Icolor)V MO=V OO(Icolor) V MS=V OS(Icolor) V MInt= (Ir+Ig+Ib

3 )

¿Qu´e?

Ruta Ventral IT

MMC=

P

(V OM M k(CMC)) P(V OM M kMMO(=CMO) P(V OM M kMMS=(CMS)) P(V OM M kMMInt=(CMInt))

Vector Descriptor −

→ν= (α1, ..., αn) Orientaci´on

Direcci´on de Movimiento

Forma Binocular Disparidad

¿D´onde? / ¿C´omo?

Ruta Dorsal

Inferotemporal Corteza

Mapa Visual Mapa Visual Mapa Visual Mapa Visual

de Color (CMC) Orientaci´on (CMO)

Relaci´on

de Intensidad (CMInt) de Orientaci´on

V OM M2(CMO) V OM M3(CMS) V OM M k(CMInt) V OM M1(CMC)

Figura 13: La figura de la izquierda muestra las ´areas del cerebro involucradas en el proceso visual

humano; a ´un cuando se determinan dos rutas de informaci ´on, llamadas del “¿Qu ´e?” y “¿D ´onde?”,

existe una alta interconexi ´on entre ellas; como un ejemplo, la ruta ventral identifica el objeto y la ruta

dorsal nos indica su ubicaci ´on en la escena. Dado este proceso natural y la funcionalidad de cada

´area se propone una analog´ıa computacional en forma de etapas dentro de un modelo jer ´arquico,

figura derecha, estas procesan diferentes dimensiones de la imagen (color, orientaci ´on, forma e

intensidad); donde al final se selecciona la respuesta m ´axima sobre el mapa de prominencia, la cual ubica la localidad del objeto, y partir de esta se construye un descriptor.

Referencias

Documento similar