Reconocimiento de objetos en una escena bajo el paradigma del cómputo evolutivo y la corteza visualObject recognition under the paradigm of evolutionary computation and visual cortex

(1)

SUPERIOR DE ENSENADA, BAJA CALIFORNIA

MR

PROGRAMA DE POSGRADO EN CIENCIAS

EN CIENCIAS DE LA COMPUTACI ´

ON

Reconocimiento de objetos en una escena bajo el paradigma

del c ´

omputo evolutivo y la corteza visual

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de Doctor en Ciencias

Presenta:

Eddie Helbert Clemente Torres

(2)

Eddie Helbert Clemente Torres

y aprobada por el siguiente comit ´e

Dr. Gustavo Olague Caballero Director del Comit ´e

Dr. Jes ´us Favela Vara Miembro del Comit ´e

Dr. Hugo Hidalgo Silva Miembro del Comit ´e

Dr. Benjam´ın Hern ´andez Valencia Miembro del Comit ´e

Dr. Eugenio Rafael M ´endez M ´endez

Miembro del Comit ´e

Dra. Ana Isabel Mart´ınez Garc´ıa Coordinador del Programa de

Posgrado en Ciencias de la Computaci ´on

Dr. Jes ´us Favela Vara Director de Estudios de Posgrado

(3)

Resumen de la tesis que presenta Eddie Helbert Clemente Torres como requisito parcial para la obtenci ´on del grado de Doctor en Ciencias en Ciencias de la Computaci ´on.

Reconocimiento de objetos en una escena bajo el paradigma del c ´omputo evolutivo y la corteza visual

Resumen elaborado por:

Eddie Helbert Clemente Torres

Uno de los retos de la visi ón por computadora es el reconocimiento de objetos que se encuentran presentes en una escena, mediante el uso de im ágenes digitales. Sin em-bargo el ser humano resuelve esta tarea con aparente sencillez, ya que no importando la escala, rotaci ón, traslaci ón, iluminaci ón y oclusi ón del objeto en la escena, el sistema visual es capaz de identificarlo. Bajo esta motivaci ón, en las últimas d écadas varias l´ıneas de investigaci ón se han centrado en estudiar el sistema visual natural como un modelo que puede ofrecer los pasos clave para proponer una soluci ón a la problem ática del reco-nocimiento de objetos. As´ı en el presente trabajo de tesis se propone un nuevo sistema de reconocimiento de objetos inspirado en la corteza visual humana. Este sistema trata de imitar las distintas funcionalidades y propiedades de las áreas corticales, siguiendo su estructura jer árquica. Donde cada funcionalidad es representada por un proceso compu-tacional que implica el uso de expresiones matem áticas bien definidas; las cuales son propuestas y especializadas por un proceso evolutivo artificial. El desempe ño del sistema es medido a partir de la clasificaci ón de bases de datos como CalTech101, GRAZ y VOC; propuestas por la comunidad de visi ón por computadora. De esta forma, se obtienen re-sultados que igualan y superan a los reportados en el estado del arte.

(4)

Abstract of the thesis presented by Eddie Helbert Clemente Torres as a partial requirement to obtain the Doctor of Science degree in Computer Science.

Object recognition under the paradigm of evolutionary computation and visual cortex

Abstract by:

Eddie Helbert Clemente Torres

Today object recognition is considered a challenging task for the development of com-puter vision systems. Natural systems like that of humans are able to recognize an object even when it is inmersed in a clutter environment, at unusual orientations, under different illumination conditions, or partially occluded by other objects. Historically, many works ha-ve used the natural visual system as an inspiration to approach the object recognition task. Thus, in this thesis a novel object recognition system is proposed, inspired also in the hu-man visual cortex. This system tries to emulate the functionalities and properties of the cortical areas following its hierarchical structure. Each functionality is represented by mat-hematical and computational methods, which are discovered by an artificial evolutionary process. The system performance is measured through its classification efficiency of ima-ge databases as CalTech-101, GRAZ and VOC. As a result, the experimentation shows that the system performs better or comparable to those proposed in the state-of-the-art.

(5)

Dedicatoria

A la memoria de mi padre.

A Irma.

(6)

Agradecimientos

Agradezco sinceramente:

A mi esposa Irma por su apoyo incondicional, por darme los ´animos para desarrollar

y culminar este proyecto y sobre todo por su cari ˜no y amor que se expresa en forma de

comprensi ´on y paciencia, lo cual ha sido un tesoro invaluable y un motor en mi vida.

A mi madre y mi hermano por estar siempre a mi lado, respald ´andome en los sue ˜nos

que he emprendido, ya que sin su ayuda no habr´ıa podido estar aqu´ı.

A mi asesor, por brindarme su amistad y cari ˜no, por los valiosos consejos y

discusio-nes que han permitido no solo el desarrollo cient´ıfico, sino tambi ´en una formaci ´on humana

necesaria para un pensamiento cr´ıtico y reflexivo.

A mis sinodales por sus invaluables observaciones y consejos que han enriquecido

este trabajo.

A mis compa ñeros y amigos de CICESE y EvoVisi ón, en especial a Daniel Hern ández

y Le ´on Dozal, que con su apoyo y amistad hemos formado un grupo cient´ıfico y fraterno.

Al Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada.

Al pueblo de M ´exico que con sus aportaciones han permitido mis estudios doctorales

(7)

Tabla de contenido

P ´agina

Resumen en espa ˜nol ii

Resumen en ingl ´es iii

Dedicatoria iv

Agradecimientos v

Lista de figuras ix

Lista de tablas xiii

1. Introducci ´on 1

1.1. Planteamiento del problema . . . 2

1.2. Objetivo general . . . 6

1.3. Objetivos espec´ıficos . . . 6

1.4. Alcances de la tesis . . . 6

1.5. Organizaci ´on de la tesis . . . 7

2. Fundamentos 9 2.1. Estructura del sistema visual humano . . . 9

2.1.1. Modelos biol ´ogicos de la corteza visual humana . . . 11

2.1.1.1. El modelo de Hubel y Wiesel . . . 11

2.1.1.2. Dos rutas de informaci ´on . . . 13

2.1.1.3. Ruta ventral . . . 14

2.1.1.4. Ruta dorsal . . . 14

2.2. Modelos neuropsicol ´ogicos . . . 15

2.2.1. Integraci ´on de caracter´ısticas . . . 15

2.2.2. Reconocimiento por componentes . . . 17

2.3. Modelos computacionales . . . 20

3. Modelo de la ruta ventral artificial 25 3.1. Modelo HMAX . . . 25

3.2. Modelo dirigido por funciones vs modelo dirigido por datos . . . 27

3.3. Ruta ventral artificial . . . 29

3.3.1. Detecci ´on de regiones de inter ´es . . . 30

3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on . . . 32

3.3.3. Experimentos y resultados . . . 33

4. Corteza visual artificial 36 4.1. Integraci ´on de la ruta dorsal y la ruta ventral . . . 36

4.2. Modelo computacional . . . 38

4.2.1. Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de una imagen . . . 38

4.2.1.1. Caracter´ısticas de la im ´agen como flujos de informaci ´on independientes . . . 39

4.2.1.2. Mapas visuales . . . 40

(8)

Tabla de contenido (continuaci ´

on)

4.2.2. Descripci ´on y clasificaci ´on de una imagen . . . 43

4.2.2.1. Descripci ´on . . . 44

4.2.2.2. Clasificaci ´on . . . 45

4.2.2.3. Conclusi ´on . . . 46

5. Programaci ´on de cerebros artificiales 47 5.1. La corteza visual artificial como un sistema teleol ´ogico . . . 47

5.2. Evoluci ´on de cerebros artificiales . . . 48

5.2.1. Representaci ´on multi- ´arbol . . . 49

5.2.1.1. Funciones y terminales . . . 52

5.2.2. Funci ´on objetivo . . . 62

5.2.3. Operadores gen ´eticos . . . 65

5.2.3.1. Operadores de cruzamiento . . . 67

5.2.3.2. Operadores de mutaci ´on . . . 68

5.2.4. Implementaci ´on . . . 70

5.3. B ´usqueda aleatoria . . . 72

6. Resultados 75 6.1. Base de datos . . . 75

6.1.1. CalTech-5 . . . 75

6.1.2. CalTech-101 . . . 77

6.1.3. GRAZ-01 y GRAZ-02 . . . 77

6.1.4. Reto VOC2007 . . . 78

6.2. Tama ˜no del espacio de b ´usqueda de la CVA . . . 80

6.3. Evoluci ´on de cerebros artificiales . . . 82

6.3.1. Prueba de validaci ´on cruzada . . . 84

6.3.2. An ´alisis de las soluciones . . . 87

6.4. B ´usqueda aleatoria . . . 119

6.4.1. Desempe ño de la b úsqueda aleatoria variando el n úmero de im ágenes de entrenamiento . . . 120

6.4.1.1. El mejor tama ˜no para un conjunto de entrenamiento . . . . 122

6.4.1.2. An ´alisis de las soluciones desde un punto estructural . . . 125

6.4.1.3. Algunos ejemplos de soluciones de la CVA . . . 129

6.4.2. Comparasi ´on entre los modelos de la CVA y el HMAX . . . 136

6.4.3. Resultados sobre las bases de datos Graz 01 y Graz 02 . . . . 136

6.4.4. Reto VOC . . . 138

7. Aplicaci ón 142 7.1. Auto-ajuste de la atenci ón visual para la mejora de un sistema de de-tecci ón de un punto l áser . . . 142

7.2. Trabajos previos . . . 144

7.3. T ´ecnicas cl ´asicas . . . 147

7.3.1. Umbralizaci ´on din ´amica . . . 147

(9)

Tabla de contenido (continuaci ´

on)

7.4. Descripci ´on del sistema . . . 148

7.4.1. M ´odulo de puesta a punto . . . 150

7.4.2. M ódulo de an álisis de im ágenes . . . 150

7.4.3. M ódulo de interacci ón dom ótica . . . 152

7.5. La atenci ón focalizada y su aplicaci ón en un sistema de detecci ón l áser 152 7.5.1. Extracci ón de caracter´ısticas . . . 153

7.5.2. Integraci ´on de caracter´ısticas . . . 153

7.5.3. Proceso de auto-ajuste del FOA . . . 155

7.5.4. FOA + Correlaci ón de Patrones + Umbralizaci ón din ámica . . . 158

7.5.5. FOA + Correlaci ´on de patrones +F RBSexpert . . . 159

7.5.6. FOA + Correlaci ´on de patrones +F RBStuned−GA . . . 160

7.5.7. Codificaci ´on e inicializaci ´on del GA . . . 162

7.5.8. Cruza aritm ´etica max-min . . . 163

7.5.9. Mutaci ´on uniforme . . . 164

7.5.10. FOA + Correlaci ´on de patrones +F RBSlearning−GA . . . 164

7.6. Dise ˜no de experimentos . . . 165

7.7. FOA + TM + DT . . . 168

7.8. FOA + TM +F RBStuned−GA . . . 171

7.9. FOA + TM +F RBSlearning−GA . . . 174

7.10. Resumen de resultados . . . 175

8. Conclusiones y trabajo futuro 180 8.1. Limitaciones . . . 181

8.2. Trabajo futuro . . . 182

(10)

Lista de figuras

Figura P ´agina

1. Reconocimiento de objetos . . . 4

2. Retina . . . 10

3. C ´eluas simples y complejas . . . 12

4. Sistema visual humano . . . 13

5. Teor´ıa de esquemas . . . 19

6. Modelo 3-D . . . 19

7. Modelo de la atenci ´on visual . . . 22

8. Modelo funcional . . . 28

9. La imagen como el gr ´afico de una funci ´on . . . 30

10. Ruta ventral artificial . . . 31

11. Detecci ´on de regiones de inter ´es . . . 32

12. Descripci ´on de caracter´ısticas . . . 33

13. Corteza visual artificial . . . 37

14. Adquisici ´on y transformaci ´on de caracter´ısticas . . . 41

15. Descripci ´on de la imagen . . . 44

16. Ciclo evolutivo . . . 49

17. Programaci ´on de cerebros artificiales, analog´ıa . . . 50

18. Representaci ´on de una posible soluci ´on . . . 51

19. Elementos estructurales . . . 57

20. Curva ROC . . . 66

21. Cruce cromos ´omico . . . 68

22. Cruce gen ´etico . . . 69

23. Mutaci ´on cromos ´omica . . . 69

24. Mutaci ´on gen ´etica . . . 70

25. Diagrama a bloques de la programaci ´on de cerebros artificiales . . . 73

26. Diagrama de flujo de la programaci ´on de cerebros artificiales . . . 74

27. Base de datos CalTech-5 . . . 76

29. Base de datos GRAZ-01 . . . 79

(11)

Lista de figuras (continuaci ´

on)

Figura P ´agina

31. Base de datos VOC2007. . . 81

32. Validaci ´on cruzada . . . 84

33. Soluci ´onA1−3 . . . 90

34. Soluci ´onA2−3 . . . 91

35. Soluci ´onA3−2 . . . 92

36. Soluci ´onA4−2 . . . 93

37. Soluci ´onA5−1 . . . 94

38. Soluci ´onC1−2 . . . 96

39. Soluci ´onC2−1 . . . 97

40. Soluci ´onC3−6 . . . 98

41. Soluci ´onC4−1 . . . 99

42. Soluci ´onC5−6 . . . 100

43. Soluci ´onR1−2 . . . 103

44. Soluci ´onR2−5 . . . 104

45. Soluci ´onA2−6 . . . 105

46. Soluci ´onR3−2 . . . 106

47. Soluci ´onR3−4 . . . 107

48. Soluci ´onH1−1 . . . 108

49. Soluci ´onH1−4 . . . 109

50. Soluci ´onH3−1 . . . 110

51. Soluci ´onH3−3 . . . 111

52. Soluci ´onH4−3 . . . 112

53. Soluci ´onM1−4 . . . 114

54. Soluci ´onM2−5 . . . 115

55. Soluci ´onM3−1 . . . 116

56. Soluci ´onM3−5 . . . 117

(12)

Lista de figuras (continuaci ´

on)

Figura P ´agina

58. Desempe ˜no de la CVA en una b ´usqueda aleatoria . . . 123

59. Intentos aleatorios necesarios para descubrir una soluci ´on . . . 126

60. Frecuencia de uso de las funciones de los OV . . . 128

61. Complejidad y diversidad . . . 130

62. Soluci ´onCV AF1 . . . 133

63. Soluci ´onCV AM1 . . . 134

64. Soluci ´onCV AF2 . . . 135

65. Desempe ˜no en la base de im ´agenes de GRAZ-02 . . . 140

66. Desempe ˜no en la base de im ´agenes de VOC2007 . . . 141

67. Im ´agenes con un punto l ´aser . . . 147

68. Patrones l ´aser . . . 148

69. Sistema de control del entorno . . . 149

70. Esquema de la atenci ´on focalizada . . . 155

71. Genotipo del FOA . . . 156

72. Esquema de la evoluci ´on de la programaci ´on de cerebros artificiales . . . . 157

73. Funci ´on objetivo . . . 158

74. Algoritmo FOA + TM + DT . . . 159

75. Algoritmo FOA + TM + FRBS . . . 160

76. Ajuste del FRBS . . . 161

77. Evoluci ´on de un FRBS . . . 161

78. Rango de los intervalos de la funci ´on de membres´ıa. . . 163

79. Desplazamiento lateral de las etiquetas ling ¨u´ısticas M . . . 165

80. Proceso de aprendizaje de la base de conocimiento, KB . . . 165

81. Desempe ˜no del FOA a lo largo de la evoluci ´on . . . 167

82. Diversidad . . . 168

83. Complejidad . . . 169

(13)

Lista de figuras (continuaci ´

on)

Figura P ´agina

85. Imagen con un punto l ´aser . . . 170

86. Im ´agenes sin un punto l ´aser . . . 170

87. TM+DT vs. FOA+TM+DT . . . 178

88. TM+F RBStuned−GA vs. FOA+TM+F RBStuned−GA . . . 178

(14)

Lista de tablas

Tabla P ´agina

1. Matriz de confusi ´on HMAX . . . 34

2. Matriz de confusi ´on RVA . . . 35

3. Comparaci ´on entre tiempos de c ´omputo . . . 35

4. N ´umero de convoluciones . . . 35

5. Funciones y terminales,V OO . . . 53

6. Funciones y terminales,OVC . . . 55

7. Funciones y terminales,OVF . . . 61

8. Funciones y terminales,OVM M . . . 62

9. Matriz de confusi ´on . . . 63

10. Ejemplo de la respuesta entregada por un clasificador . . . 64

12. Subconjuntos de GRAZ-01 . . . 78

13. Par ´ametros utilizados para la evoluci ´on de cerebros artificiales . . . . 83

14. Tama ˜no del conjunto de im ´agenes de entrenamiento y prueba . . . . 85

15. Validaci ´on cruzada, aeroplanos vs fondo . . . 85

16. Validaci ´on cruzada, carros vs fondo . . . 86

17. Validaci ´on cruzada, rostros vs fondo . . . 86

18. Validaci ´on cruzada, hojas vs fondo . . . 86

19. Validaci ´on cruzada, motocicletas vs fondo . . . 86

20. Resumen de la validaci ´on cruzada . . . 87

21. Mejores soluciones, aeroplanos vs fondo . . . 89

22. Mejores soluciones, carros vs fondo . . . 95

23. Mejores soluciones, rostros vs fondo . . . 101

24. Mejores soluciones, hojas vs fondo . . . 102

25. Mejores soluciones, motocicletas vs fondo . . . 113

26. Intentos aleatorios para obtener 100 soluciones . . . 121

27. Resultados en la clasificaci ´on con soluciones al azar . . . 124

28. Promedio del n ´umero de MM sobre las 100 soluciones de cada clase 129 29. Mejores soluciones descubiertas por un proceso aleatorio . . . 131

(15)

Lista de tablas (continuaci ´

on)

Tabla P ´agina

31. Exactitud de clasificaci ´on . . . 137

32. Comparaci ´on de desempe ˜no la CVA y el modelo HMAX . . . 138

33. Desempe ño promedio de la CVA en la base de datos de GRAZ-01 . 139 34. Desempe ño promedio de la CVA en la base de datos de GRAZ-02 . 139 35. Desempe ño de las mejores soluciones en GRAZ-02 . . . 139

36. Estado del arte . . . 146

37. Funciones y terminales . . . 154

38. Validaci ´on cruzada de la atenci ´on focalizada . . . 166

39. ResultadosT M+DT vsF OA+T M +DT . . . 171

40. Resultados TM+DT, FOA+TM+DT y TM+F RBStuned−GA . . . 171

41. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 50000 evaluaciones . . . 173

44. ResultadosF OA+T M +F RBSlearning−GA . . . 175

45. Resumen de resultados . . . 176

(16)

Cap´ıtulo 1.

Introducci ´

on

La visi ón por computadora es un área de investigaci ón que tiene por objetivo trans-formar la informaci ón contenida en im ágenes digitales, a datos simb ólicos o num éricos, de forma tal que el mundo real pueda ser analizado e interpretado por una computadora, (Klette, 2014; Shapiro y Stockman, 2001). Lo anterior implica, realizar una descripci ón del mundo que se percibe en una o m ás im ágenes y reconstruir sus propiedades como: formas, iluminaci ón, colores, texturas, y distribuci ón de los elementos que la componen, en informaci ón que la computadora pueda interpretar, (Szeliski, 2010). Llevar a cabo esta tarea representa todo un reto y en este sentido muchos esfuerzos toman como inspiraci ón la misma visi ón humana, a fin de alcanzar la meta de poder duplicar la habilidad de perci-bir el mundo que lo rodea. En particular, uno de los problemas m ás importantes a resolver de la visi ón por computadora es el reconocimiento de objetos, el cual sigue siendo uno de los menos entendidos dentro de la percepci ón visual, (Ullman, 1996). En este sentido la presente tesis propone un nuevo modelo de reconocimiento de objetos inspirado en el proceso de la visi ón humana y la evoluci ón artificial.

(17)

prin-cipales: la primera se refiere a la identificaci ón de un objeto como una entidad singular; mientras que la segunda se refiere a la pertenencia del objeto dentro de un conjunto de objetos con caracter´ısticas similares, sin importar su tama ño, ubicaci ón, rotaci ón, punto de vista, condici ón de iluminaci ón y oclusiones. Computacionalmente, ambos procesos son similares debido a que la entrada del modelo de aprendizaje es una imagen y su salida es una etiqueta, donde esta puede implicar la identificaci ón del objeto, o bien la membres´ıa del objeto a una categor´ıa. Sin embargo, la categorizaci ón implica un rango mayor de posibles variaciones que la identificaci ón, debido a que el sistema de reco-nocimiento debe generalizar a trav és de las diferentes condiciones del objeto y de una variedad de ejemplos de la clase. As´ı, el problema de la clasificaci ón de un objeto es un reto computacional, debido a que un sistema de visi ón artificial debe ser capaz de cons-truir un descriptor a partir de un conjunto de propiedades invariantes del objeto (Pinto

et al., 2008).

De esta manera, la capacidad del cerebro de analizar la informaci ´on visual, sin una aparente necesidad de reglas expl´ıcitas y laboriosas instrucciones, ha motivado en el pre-sente trabajo proponer un modelo computacional, dedicado al reconocimiento de objetos inspirado en el flujo de informaci ´on de la corteza visual.

1.1. Planteamiento del problema

En la actualidad no existe una definici ´on simple, precisa o completa de la problem ´atica de reconocimiento de objetos. Sin embargo, existen algunas definiciones generales como las expresadas en Russell y Norvig (2009) donde el reconocimiento de objetos se define como sigue:

Dado un conjunto de im ágenes que contienen uno m ás objetos seleccionados de una colecci ónO1, O2, ..., Oj, ..., Ok de objetos, la cual se conocea priori, y

(18)

Responder las siguientes preguntas:

¿Cu ´ales objetosO1, O2, ..., Oj, ..., Ok est ´an presentes en la escena?

En base a lo anterior, ¿Es posible determinar la posici ´on y orientaci ´on del observa-dor?

El contestar este cuestionamiento no es trivial. Por ejemplo, sup óngase que se quiere determinar la presencia o ausencia de los k posibles objetos contenidos en una ima-gen de 8 bits y tama ñoN _×N. Una forma de solucionar esta problem ática es proponer un vector binario, cuyo j- ésimo bit codifique la presencia/ausencia de un objeto; con lo cual existir´ıa una correspondencia entre la imagen de entrada y este vector. En teor´ıa se tendr´ıa que considerar como entrada al sistema cada combinaci ón de pixeles que forman a la imagen, esto es 8N2

posibles configuraciones; as´ı como cada combinaci ´on de los posibles objetos, es decir,2k_{combinaciones; con lo cual existir´ıa un total de}₈N2

·2k

posi-bles correspondencias para resolver este problema. En este caso, si se toma una imagen de 128 ×128 pixeles y se definen 10 objetos, existir´ıan alrededor de ≈ 1014800 _posibles relaciones que se deber´ıan de considerar para resolver esta instancia. De esta manera, dependiendo del tama ˜no de la imagen y el n ´umero de objetos en esta, el problema crece exponencialmente.

Una reducci ón a la complejidad del problema anterior es plantear una transformaci ón sobre la informaci ón contenida en la imagen, hacia una representaci ón generalizada del o los objetos en la misma. Es decir, dada una imagenI buscar una funci ón que relacione la representaci ón Rj del j- ésimo objeto, donde esta funci ón sea capaz de sintetizar los

(19)

1 0 1 1 0 0 0 1 1 0 Imagen (I)

Objeto j

Rj

Representaci´on

f(I)

Figura 1: El reconocimiento puede plantearse como un problema de b ´usqueda de la funci ´on f(I),

que relacione el objetojcon alguna representaci ónRj, sin importar la traslaci ón, rotaci ón, oclusi ón

o escala del objeto.

Dada una imagen I que pertenece a una base de im ´agenes de un conjunto Ω de objetos, y una representaci ´onRj para cada objetoj ∈ Ω. La tarea de reconocimiento de

objetos se define como la b ´usqueda del m´ınimo argumento en la expresi ´on siguiente:

Q=arg min c(f(I)) ;

dondef(I), es una funci ón que devuelve una representaci ón consistente,Rj, delj- ésimo

objeto en la imagenI; es decir,f(I) :I _7→Rj; mientrasc(·)provee una m ´etrica del

rendi-miento de este mapeo. N ótese que esto implica una b úsqueda de la funci ónf que mejor caracterize a ó las im ágenes de los objetos contenidos en la base de datos.

(20)

bio-inspirado. De igual forma, al realizar esta analog´ıa, se brinda informaci ´on sobre el tipo de caracter´ısticas que son relevantes en el reconocimiento de objetos.

En la pr áctica, este tipo de modelos bioinspirados est án limitados debido a la falta de una descripci ón detallada del sistema visual humano, adem ás de estar restringidos por la capacidad de c ómputo. Un ser humano puede reconocer hasta 100,000 objetos en un rango de 100-200ms, haciendo uso de alrededor de1011_{neuronas altamente conectadas} y distribuidas en áreas del cerebro que son especializadas en el an álisis de diferentes aspectos de la imagen. De esta forma, la comparaci ón en desempe ño entre un siste-ma artificial y un sistesiste-ma natural, dedicado al reconocimiento y clasificaci ón de objetos a ún no es justa. No obstante, se puede delimitar y enmarcar dicha problem ática bajo al-gunas restricciones, haciendo posible utilizar modelos bioinspirados como una soluci ón al problema de reconocimiento de objetos. Por ejemplo, en visi ón por computadora, se han propuesto bases de datos e ´ındices de desempe ño en la identificaci ón o clasifica-ci ón de las im ágenes, donde ambos se han tomado como est ándares en la evaluaclasifica-ci ón y comparaci ón entre diferentes sistemas artificiales, Pintoet al.(2008); Ponceet al.(2006), algunas de estas bases de datos son Caltech, GRAZ y VOC, propuestas por autores co-mo: Fei-Feiet al.(2007); Griffinet al.(2007); Opeltet al.(2006); Everinghamet al.(2010) y sus m étricas: raz ón de error equivalente, área bajo la curva ROC y precisi ón promedio respectivamente. En general estas bases de datos son construidas por un largo n úmero de imagenes divididas en categorias, que dependen del o los objetos que contienen cada imagen;i. e., im ágenes que contienen aeroplanos, carros, rostros, barcos, por mencionar algunos, como tambi én se suele incluir alguna clase adicional que no tiene alg ún objeto en espec´ıfico y es llamada fondo. De esta forma, en esta tesis la propuesta de un mo-delo bioinspirado para la clasificaci ón de objetos, se ha planteado como un problema de optimizaci ón dentro del marco de reconocimiento de objetos, y se limita a las bases de datos antes mencionadas para una comparaci ón con trabajos en el estado del arte como Serreet al.(2005); Mutch y Lowe (2008); Wang y Feng (2013); Jiet al.(2013); Chenet al.

(21)

1.2. Objetivo general

El objetivo del presente trabajo de investigaci ón es proponer un sistema de reconoci-mieto de objetos en im ágenes digitales; donde dicho sistema sea un modelo bioinspirado del sistema visual humano y del mecanismo de evoluci ón de las estructuras dentro de este.

1.3. Objetivos espec´ıficos

Proponer una estructura para el sistema de reconocimiento de objetos, basado en los modelos psicol ´ogicos, fisiol ´ogicos y computacionales.

Proponer un proceso de descripci ´on de la imagen inspirado de los procesos que se llevan a cabo en el sistema de visi ´on natural.

Dise ñar e implementar una metodolog´ıa basada en la programaci ón gen ética para entrenar el modelo de clasificaci ón de im ágenes.

Establecer criterios de evaluaci ´on bien establecidos y utilizados por la comunidad de visi ´on artificial.

Este nuevo modelo debe ser aplicable a la clasificaci ´on de bases de im ´agenes en el estado del arte.

Realizar una comparaci ´on en el rendimiento de clasificaci ´on del modelo propuesto con modelos en estado del arte.

1.4. Alcances de la tesis

(22)

Se propone e implementa el paradigma de un modelo funcional para el tratamien-to y an álisis de im ágenes, lo que permite considerar las propiedades de la imagen como una funci ón de la escena, a diferencia de un modelo tradicional donde las pro-piedades son dependientes de los datos de la propia imagen. En consecuencia, se sustituye la utilizaci ón de peque ñas secciones de la imagen para describir a la ima-gen (Serreet al., 2007); por un modelo funcional, donde un conjunto de operadores sobre la imagen permitan obtener caracter´ısticas espec´ıficas de cada objeto.

Para el modelo propuesto se sigue una estructura jer ´arquica inspirada en el sistema visual humano, como los sugeridos por Riesenhuber y Poggio (1999); Serre et al.

(2007); Mutch y Lowe (2008); Itti y Koch (2001), por mencionar algunos.

El modelo es entrenado para el problema de clasificaci ´on binaria, donde se detecta la presencia/ausencia del objeto en una imagen.

Se realiza la evaluaci ón de este trabajo sobre cada una de las clases que componen a 3 bases de datos, CalTech, Fei-Feiet al.(2007); GRAZ, Opeltet al.(2006) y VOC, Everingham et al.(2010). Para esto, se utilizan m étricas de clasificaci ón empleadas por trabajos en el estado del arte.

Se propone y utiliza un nuevo m étodo basado en la programaci ón gen ética, acorde a la estructura jer árquica del modelo propuesto, el cual es capaz de generar un grupo de operadores sobre la imagen. Donde cada operador es construido a partir de su particular conjunto de funciones y terminales. Para lograr lo anterior, se implementa una nueva codificaci ón junto con operadores de cruza y mutaci ón para realizar el ciclo evolutivo.

1.5. Organizaci ´on de la tesis

(23)

(24)

Cap´ıtulo 2.

Fundamentos

El sistema visual humano es capaz de reconocer e identificar una gran variedad de objetos en una escena. Sin embargo, la forma exacta en la cual nuestro cerebro organiza y controla estas acciones es a ún un campo desconocido. De este modo, existen pregun-tas abierpregun-tas tales como: ¿Qu é tipo de informaci ón se procesa desde que la imagen es generada en la retina, hasta la construcci ón de una representaci ón del objeto? ¿Cu áles son las caracter´ısticas que nuestro cerebro toma en cuenta para reconocer un objeto? ¿C ómo son almacenadas las representaciones del objeto, y c ómo son activadas cuando es visto el objeto? ¿Las representaciones del objeto en nuestro cerebro son generales, o son espec´ıficas a una acci ón o a un proceso cognitivo, como el aprendizaje, planeamien-to, o razonamiento?

Las preguntas anteriores han sido hist óricamente estudiadas por una variedad de cient´ıficos en diversas disciplinas, incluyendo psicolog´ıa cognitiva, neurobiolog´ıa, neuro-psicolog´ıa y ciencias de la computaci ón. En este cap´ıtulo se realizar á una breve revisi ón de trabajos en las diferentes disciplinas antes mencionadas con el objetivo de poner en contexto la propuesta del presente trabajo de tesis.

La primera secci ón describe brevemente la estructura del sistema visual humano y algunos modelos bi ólogicos propuestos por la comunidad neurocient´ıfica. De igual forma, la siguiente secci ón describe algunas de las teor´ıas neuropsicol ógicas de como el ser humano es capaz de reconocer objetos y finalmente la última secci ón explica algunos de los modelos computacionales que son bioinspirados en el sistema visual humano para resolver la tarea del reconocimiento y clasificaci ón de objetos en una imagen.

2.1. Estructura del sistema visual humano

(25)

fototransducci ón. Estas c élulas son conocidas como conos, bastones y c élulas ganglio-nares, ver figura 2. Los conos se excitan con longitudes de onda corta (colores en tonos azules), mediana (colores en tonos verdes) y larga (colores en tonos rojos); mientras los bastones son sensibles a los cambios de intensidad luminosa, lo que permite percibir propiedades del color como el tono y el brillo (MacLeod y Boynton, 1979). Finalmente esta informaci ón se transfiere a las c élulas ganglionares de la retina, en donde se llevan a cabo dos procesos en v´ıas paralelas, llamados respectivamente v´ıa centro-activo y v´ıa centro-inactivo, este proceso tambi én se conoce como centro-entorno ó centro periferia. El primer proceso se refiere a las c élulas que se activan cuando la luz estimula el centro de sus campos receptivos y se inhiben cuando se estimula la periferia; mientras que el proceso v´ıa centro-inactivo, se refiere al comportamiento contrario. Esto permite perci-bir peque ñas diferencias y r ápidas variaciones de luminosidad. Adem ás, existen c élulas ganglionares especializadas en transmitir informaci ón relativa al movimiento, resaltar los detalles y el color de los objetos presentes en la escena visual.

LUZ

Iris

Retina

Pupila Cornea

Bastones Conos Cristalino

Ganglionares Nervio

Escler´otica

C´elulas ´

Optico

Figura 2: Esquema de la retina.

(26)

proveniente del campo visual contralateral de cada una de las dos retinas, el cual llega al n úcleo geniculado lateral (NGL), en el cual se llevan a cabo procesos relacionados con la atenci ón selectiva, creaci ón de im ágenes mentales, respuesta a colores, movimiento y distinguir objetos en un primer plano (Chen et al., 1998; O’Connor et al., 2002). Casi la totalidad de las fibras provenientes de las neuronas del cuerpo geniculado lateral, por medio del tracto óptico, terminan en la corteza estriada o V1, ver figura 4. Esta regi ón del cerebro, y las áreas que componen la corteza visual han sido estudiadas ampliamen-te por las neurociencias, y han surgido varias hip óampliamen-tesis y ampliamen-teor´ıas tratando de explicar el c ómo la informaci ón visual es interpretada en cada regi ón; que para prop ósitos de esta tesis se explicar án solo dos de ellas.

2.1.1. Modelos biol ´ogicos de la corteza visual humana

Si bien Francesco Gennari (1782) hace la primera descripci ón f´ısica de la corteza vi-sual primariara (V1) del cerebro, área que tambi én es llamada corteza estriada gracias a sus estudios. Es a finales del siglo XIX cuando Hermann Munk relaciona esta área del cerebro con el sentido de la vista; y es a principios del siglo XX cuando Ramon y Cajal hacen la primera descripci ón a nivel celular de esta área (Glickstein y Rizzolatti, 1984; Gross, 1999).

2.1.1.1. El modelo de Hubel y Wiesel

(27)

Hubel, 1982). Actualmente se tiene la hip ótesis que existen c élulas neuronales llamadas c élulas abuelas que pueden ser excitadas por el est´ımulo visual de objetos espec´ıficos como por ejemplo los rostros (Gross, 2002).

Inhibido Excitado Inhibido Inhibido Inhibido Excitado Inhibido Excitado Inhibido Inhibido Excitado Inhibido t

0 1 2 3

t

0 1 2 3

t

0 1 2 3

t

0 1 2 3

C´elulas Simples 2 3 1 t t t

1 2 3

0

1 2 3

0 1 2 3

3 2 1 0 Est´ımulo 3 Est´ımulo 2 Est´ımulo 1 Est´ımulo visual

1- sin cambio

2 - excitaci´on

3 - inhibido

0 1 2 3

1 2 3 4 1 2 3 4 1 2 3 4 luz luz luz Est´ımulo 1 Est´ımulo 2 luz luz luz luz Est´ımulo 4 Est´ımulo 3 Células simples Células Complejas Respuesta 1- excitación

4 - inhibido 3 - excitaci´on 2 - excitaci´on

Est´ımulo visual C´elula simple

Respuesta

C´elula compleja

Tiempo (t) _{Tiempo (t)}

Figura 3: En el lado izquierdo de la figura se muestra el comportamiento de una c ´elula simple frente

a una serie de est´ımulos visuales, la cu ál reacciona solo a una posici ón y orientaci ón espec´ıfica;

mientras el lado derecho muestra como reacciona una c ´elula compleja ante est´ımulos similares.

(28)

(2001); Farivar (2009) descubren que existe un gran intercambio de informaci ón entre di-chas rutas. De esta forma, el reconocimiento de objetos involucra procesos que son útiles para la ubicaci ón de los objetos y viceversa.

Capa Magnocelular y Retinocortical

V3

Inferior Temporal TEO TE Ruta Ventral

Ruta Dorsal Capa Parvocelular

V4

V1 V2

MST MT Retina LGN

Estructura Pulvinar (Pul)

Corteza Parietal Posterior

CS

Pul

V3

V2

V1

V2

V4 V5 (MT)

V3a

¿Qu´e?

Col´ıculo Superior (CS)

¿D´onde? / ¿C´omo?

Retina LGN

Infero Temporal

Ruta Dorsal

Ruta Ventral

¿Qu´e? ¿D´onde? /

¿C´omo? Corteza Parietal

Figura 4: Esquema del sistema visual humano.

2.1.1.2. Dos rutas de informaci ´on

(29)

experiencia visual inmediata sino tambi én para almacenarlas y utilizarlas como futuras referencias. Es decir, la ruta ventral habilita al cerebro a crear conceptos mentales que nos permiten pensar, reconocer e interpretar subsecuentes est´ımulos visuales y planear nuestras acciones en el mundo. En contraste plantean a la ruta dorsal como el actuador en tiempo real, guiando la programaci ón y respuesta de nuestras acciones visuales en el instante en que se llevan a cabo. Esto es, habilitan las reacciones y movimientos que son activados por est´ımulos visuales, guiando la mirada hacia dicho objeto o induciendo alg ún movimiento para alcanzarlo; permitiendo a nuestros ancestros sobrevivir en un ambiente hostil e impredecible. En resumen, existe una distinci ón entre la visi ón para la percepci ón y la visi ón para la acci ón (Goodale y Milner, 2006).

2.1.1.3. Ruta ventral

La funci ón de la ruta ventral o del “¿Qu é?” es asociada con la identificaci ón de objetos y reconocimiento de formas (Oram y Perrett, 1994). La informaci ón visual es obtenida en la retina pasando por el nucleo lateral geniculado hasta llegar al área V1 del cerebro, la cual se conecta con el área V2 que tiene la funcionalidad de reconstruir bordes ocul-tos, procesar informaci ón relativa al color y a la forma. Una vez que se ha procesado la informaci ón esta sigue al área V4 en donde las c élulas que la componen se activan a est´ımulos crom áticos, formas complejas, profundidad y movimiento. Finalmente V4 se in-terconecta con áreas temporales inferiores del cerebro (IT) llamadas TEO (parte posterior de la corteza inferotemporal) y TE (parte anterior de la corteza inferotemporal), donde se cree que el objeto se identifica y se encuentra la memoria visual. De esta forma, a medida que la informaci ón avanza de V1 a TE, se verifica un cambio progresivo en la extracci ón de caracter´ısticas estables e invariables de los objetos y las conexiones se vuelven siem-pre menos topogr áficas, hasta perder por completo cada organizaci ón retinot ópica entre V4 y TE o TEO.

2.1.1.4. Ruta dorsal

(30)

tambi én V5 y temporal medial superior o MST, ver figura 4, las cuales se activan al recibir est´ımulos visuales de movimiento. Esta ruta finaliza en el área parietal de la corteza en donde se interconecta con áreas que controlan el movimiento de los ojos. En general, la ruta dorsal est á asociada en la localizaci ón de los objetos en una escena, as´ı como en guiar las acciones de movimiento en el espacio, por ejemplo, el alcanzar un objeto o el de dirigir la mirada a un objeto espec´ıfico. De igual forma, se tiene la hip ótesis que es en esta ruta donde mayormente se lleva a cabo la tarea de la atenci ón visual (McMains y Kastner, 2009).

2.2. Modelos neuropsicol ´ogicos

Los modelos neuropsicol ógicos de la visi ón tienen el objetivo de explicar el modo en que determinadas estructuras, funciones cerebrales y modelos anat ómicos se relacionan con procesos psicol ógicos concretos de la visi ón como el reconocimiento de objetos o la atenci ón visual. En este sentido, se explican dos teor´ıas que fundamentan la analog´ıa del modelo computacional propuesta en esta tesis.

2.2.1. Integraci ´on de caracter´ısticas

Treisman y Gelade (1980) proponen una nueva hip ótesis de la atenci ón visual, lla-mada teor´ıa de integraci ón de caracter´ısticas. En esta se sugiere que la atenci ón debe ser dirigida serialmente a cada est´ımulo de la escena, siempre y cuando se presente al menos la conjunci ón de dos o m ás caracter´ısticas separables, las cuales son necesarias para caracterizar o distinguir a un posible objeto presente en la escena.

(31)

psicolog´ıa de Gestalt afirma que el todo precede a sus partes, esto es, que inicialmente solo se perciben los objetos y sus relaciones, y s ólo despu és, si es necesario, se realiza un an álisis de sus componentes o propiedades.

No obstante, una impresi ón inmediata y directa del medio que nos rodea, no garantiza que esta impresi ón se lleve a cabo en una de las primeras etapas del procesamiento de informaci ón en el sistema nervioso. Es l ógicamente posible, que s ólo se tome conciencia del resultado final, sin tomar en cuenta que es el producto de una complicada secuencia de operaciones anteriores. As´ı, el procesamiento dearriba-abajo(“top-down”) puede des-cribir lo que experimentamos concientemente; como una teor´ıa de codificaci ón perceptual que necesita de un objetivo espec´ıfico.

En la teor´ıa de integraci ón de caracter´ısticas de la atenci ón, se propone la hip ótesis que los rasgos que caracterizan a un objeto, son registrados en forma temprana, aut óma-tica y en paralelo a trav és del campo visual, con lo cual los objetos son identificados por separado; mientras en una etapa posterior se realiza la atenci ón focalizada a cada obje-to. En este sentido, se asume que la escena es inicialmente codificada a lo largo de un n úmero de dimensiones separables, tales como color, orientaci ón, frecuencia espacial, brillo y direcci ón de movimiento. A fin de recombinar estas representaciones separadas y lograr una s´ıntesis de las caracter´ısticas para cada objeto en la escena, la ubicaci ón de los est´ımulos son procesados serialmente a trav és de una atenci ón focalizada. De esta manera, las caracter´ısticas que est án presentes en la ubicaci ón del centro de aten-ci ón son combinadas para conformar un único objeto. Esta atenaten-ci ón focalizada provee la

adhesi ´on, la cual integra las caracter´ısticas inicialmente separables en objetos unitarios. Una vez que se han registrado correctamente, se percibe la composici ´on de objetos y se almacenan como tal.

(32)

esto se lleve a cabo por distintos canales f´ısicos. En este caso se usa el t érmino “dimen-si ón” para referirse al rango completo de variaci ón el cual es analizado separadamente por la funcionalidad de alg ún subsistema perceptual independiente, y “caracter´ıstica” pa-ra referirse a un valor particular sobre una dimensi ón. Esto es, color y orientaci ón son dimensiones; mientras rojo y vertical son caracter´ısticas sobre estas dimensiones. Las dimensiones perceptuales no necesariamente corresponden únicamente a las dimensio-nes f´ısicas de los objetos. As´ı, algunos aspectos en relaci ón a los atributos f´ısicos pueden ser registrados como caracter´ısticas b ásicas; por ejemplo la percepci ón del contraste de la intensidad en lugar de una intensidad absoluta, o percibir propiedades de orden su-perior tales como la simetr´ıa o la homogeneidad. La idea de que estas dimensiones son autom áticamente percibidas por separado, parece ser contraintuitivo; sin embargo, este proceso ocurre en una etapa temprana de la percepci ón y no es hasta cuando ocurre la atenci ón visual, donde estas caracter´ısticas se unen y se construye una imagen del objeto.

2.2.2. Reconocimiento por componentes

(33)

estos modelos para reconocer objetos en tres dimensiones (Biederman y Gerhardstein, 1993). De esta forma, la teor´ıa gira alrededor de identificar los geones de un objeto visual y sus relaciones, esta informaci ón es entonces correlacionada con alguna representaci ón del objeto ya almacenada o bien con un modelo estructural, el cual contenga informa-ci ón sobre los atributos de los objetos como: textura, color, tama ño u orientainforma-ci ón. As´ı, un objeto es identificado por el mejor ajuste entre alguna representaci ón en memoria y la informaci ón dada por la composici ón de los geones.

N ótese que este planteamiento sigue la l´ınea de investigaci ón propuesta por Marr (1982), en la teor´ıa de esquemas; donde se explica la visi ón como un proceso de infor-maci ón. En este sentido se definen tres diferentes tipos de an álisis:

Computacional. Desde este punto de vista se analiza la tarea de un sistema cogni-tivo, con el objetivo de identificar el proceso de informaci ón espec´ıfico que resuelve dicha tarea junto con sus restricciones. Es decir, se trata de contestar las preguntas ¿Cu ál es el objetivo de este procesamiento?, ¿Porqu é éste es adecuado? y ¿Cu ál es l ógica de la estrategia por el cual este puede ser resuelto?

Algor´ıtmico. Este tipo de an álisis trata de explicar el como el sistema cognitivo puede desarrollar el proceso de informaci ón para resolver una tarea. Para lo cual se identifica la informaci ón de entrada y salida, se identifica el algoritmo para transfor-mar la entrada en la salida deseada y finalmente se especifica el como la informa-ci ón es codificada.

Implementaci ón. En este enfoque un an álisis de implementaci ón responde la pre-gunta del ¿C ómo puede realizarse f´ısicamente tanto la representaci ón como el al-goritmo que resuelva dicha tarea?

(34)

Imagen de Entrada

Percepción de intensidades

Cruce por ceros, manchas, puntos, bordes, barras, terminaciones, líneas virtuales, curvas y contornos.

Esquema Primario

Orientación de superficies locales y discontinuidades en profundidad.

Esquema 2 1/2−D

Modelo 3−D

Modelos 3−D organizados jerárquicamente en términos de primitivas volumétricas y de superficie. Centrado en el objeto Referencia centrado en el observador

Figura 5: Marr propone la visi ´on como un flujo de informaci ´on, que consta de tres etapas principales,

donde las primeras dos son enmarcadas desde un punto de referencia centrada en el observador y

la ´ultima centrada en el objeto.

es decir, caracter´ısticas producto de cambios de intensidad, estructuras geom étricas loca-les y efectos en cambios de iluminaci ón. En una segunda representaci ón, el esquema 2 1₂, intenta caracterizar la orientaci ón de las regiones en la imagen como superficies locales, as´ı como su profundidad y sus discontinuidades. La última representaci ón es un modelo 3-D, en el cual se intenta describir un objeto a partir de sus formas y su organizaci ón, utilizando un sistema modular y jer árquico de primitivas volum étricas y de superficie. De esta forma, el proceso de reconocimiento usa un cat álogo de descripciones de modelos 3-D y sus asociaciones para describir un nuevo objeto.

Humano

Brazo

Antebrazo

Mano

(35)

2.3. Modelos computacionales

En el siglo XX, con el arrivo de las computadoras digitales varios trabajos han inten-tado emular la funcionalidad de la corteza visual humana, con el prop ósito de desarrollar tareas como el reconocimiento de objetos, atenci ón visual y la detecci ón de objetos. En esta secci ón se da una lista de los trabajos m ás relevantes en el estado del arte los cuales son biol ógicamente inspirados en estas ideas.

Desde un punto de vista computacional, el primer trabajo que desarrolla un algorit-mo bioinspirado en la corteza visual con el objetivo del reconocimiento de objetos fue Fukushima (1980), quien propuso un modelo por medio de redes neuronales llamado Neocognitron. Su trabajo est á inspirado en el modelo jer árquico descrito por Hubel y Wie-sel (1959, 1962). Esta estructura est á representada por una red neuronal que consiste de una capa de entrada, seguida de una serie de estructuras modulares llamdas c élulas S y c élulas C, haciendo referencia a las c élulas simples y complejas. Esta idea imita las caracter´ısticas de las c élulas hipercomplejas de orden inferior y superior. En la pr áctica este modelo es capaz de reconocer letras y n úmeros considerando cambios de posici ón.

(36)

sujetapapeles, obteniendo buenos resultados a ún bajo la variaci ón de posici ón. En tra-bajos como los propuestos por Serreet al.(2005); Mutch y Lowe (2008), este modelo es mejorado para clasificar im ágenes complejas, alcanzando un alto desempe ño sobre las mismas; en estos trabajos se propone la creaci ón de un diccionario universal de carac-ter´ısticas, el cual es una colecci ón de parches utilizados para construir la descripci ón de la imagen. As´ı, varios trabajos como Kimet al.(2013); Wersing y K örner (2003); Ghodrati

et al.(2012), han sugerido el como optimizar el n úmero de parches en el diccionario uni-versal y el como proponer metodolog´ıas para mejorar la descripci ón del objeto siguiendo este modelo jer árquico.

Durante el mismo periodo de tiempo, surgen varios sistemas computacionales imitan-do la atenci ón visual, los cuales est án basaimitan-dos en la estructura jer árquica de la teor´ıa de la integraci ón de caracter´ısticas propuesta por Treisman y Gelade (1980). El primer modelo es sugerido por Koch y Ullman (1985), donde dadas las localidades en el espacio visual que difieren de su entorno con respecto a alguna caracter´ıstica elemental como la orientaci ón, color o movimiento son dirigidos a su correspondiente “mapa de caracter´ısti-cas”. Estos mapas son combinados en un “mapa de sobresaliencia”, el cual codifica a las regiones conspicuas de la escena visual. Despu és una red neuronal llamada “el ganador lo toma todo” (Winner-Take-All), selecciona la regi ón mas conspicua a una representa-ci ón central, ver figura 7.

(37)

WTA

Mapas de sobresaliencia

Mapa de

características central

Representación

Figura 7: Modelo computacional de la atenci ´on visual propuesto por Koch y Ullman (1985).

conspicuos son integrados en un mapa de sobresaliencia por medio de un proceso de re-lajaci ón que identifica un peque ño n úmero de regiones convexas. A lo largo de esta l´ınea de investigaci ón, Tsotsoset al. (1995), modela la atenci ón visual a trav és de un proceso jer árquico de el ganador toma todo.

Ittiet al. (1998), proponen un modelo de atenci ón visual, que en la actualidad es am-pliamente utilizado, dado que este modelo recopila las ideas de propuestas por Koch y Ullman (1985) y Milanese (1993). La principal contribuci ón es la implementaci ón de con-ceptos te óricos para aplicaciones en escenas del mundo real, Itti y Koch (2001). En este sentido, ellos implementan el c álculo de una pir ámide de im ágenes por cada dimensi ón y de esta forma obtener mapas de caracter´ısticas de intensidad, orientaci ón y color. Esta t écnica permite la detecci ón de caracter´ısticas en diferentes escalas y entonces aplican el mecanismo de centro periferia, donde se realiza una substracci ón entre los diferen-tes niveles de la pir ámide. Esta metodolog´ıa ha sido empleada y mejorada por varios autores como Cutsuridis (2009), quien propuso un modelo cognitivo para explicar como varias áreas del cerebro trabajan en conjunto en el an álisis de una escena. Kootstraet al.

(38)

espa-cial y amplitud de movimiento) y caracter´ısticas de alto nivel con el objetivo de reconocer rostros y medir el movimiento de los ojos en un video.

N ótese que los trabajos anteriormente expuestos se han dividido en dos rubros, los primeros dedicados al reconocimiento de objetos en inspirados en el proceso de informa-ci ón llevado en la ruta ventral y los segundos imitando la ateninforma-ci ón visual inspirada en los procesos de la ruta dorsal. Sin embargo, existen algunos trabajos que tratan de integrar ambos enfoques. Por ejemplo, Fukushima (1987) implementa una red neuronal jer árqui-ca que desarolla una atenci ón selectiva para el reconocimiento de objetos. En este árqui-caso, cuando varios patrones se presentan simult áneamente, el modelo realiza una atenci ón selectiva en cada uno de ellos, segmentando a cada uno del resto y realizando el reco-nocimiento de objetos de manera separada. Olshausen et al. (1993) define un modelo computacional biol ógicamente plausible que combina el mecanismo de la atenci ón y el proceso del reconocimiento para objetos en escalas y posiciones diversas. Waltheret al.

(39)

(40)

Cap´ıtulo 3.

Modelo de la ruta ventral artificial

Como se ha expuesto en el cap´ıtulo anterior la ruta ventral o del “¿Qu é?”, es un mo-delo del procesamiento visual del sistema humano, el cual describe la tarea del recono-cimiento de objetos. En este cap´ıtulo se propone un primer modelo bioinspirado en este flujo de informaci ón. De esta manera en un primera secci ón se expone a detalle el mode-lo computacional HMAX, a partir del cual se realiza un cambio de paradigma. A partir de este nuevo enfoque; en la última secci ón se formula el modelo propuesto y se discuten algunos resultados obtenidos.

3.1. Modelo HMAX

El modelo HMAX (Riesenhuber y Poggio, 1999; Serreet al., 2005, 2007; Mutch y Lo-we, 2008); est ´a inspirado en el flujo de informaci ´on de la ruta ventral bajo las siguientes caracter´ısticas:

El proceso visual es jer árquico, y est á enfocado en construir una representaci ón del objeto que es invariante a la posici ón y escala en una primera etapa y despu és a el punto de vista y otras transformaciones.

A lo largo de esta jerarqu´ıa los campos receptivos de las neuronas, as´ı como su complejidad y est´ımulos son incrementales.

El procesamiento de la informaci ´on se realiza sin retroalimentaci ´on.

El aprendizaje ocurre en las ´ultimas etapas de la jerarqu´ıa.

(41)

Unidades S1. La entrada del sistema es una imagen en tonos de grises, la cual es procesada a trav ´es de la funci ´on de Gabor:

F(x, y) = e

−x20+γ2y02 2σ2

cos

2π λ x0

donde x0 =xcos(θ) +ysin(θ)yy0 =ycos(θ)−xsin(θ); la raz ´on de aspectoλ= 0.3 y se consideran cuatro direcciones θ, (0◦_, ₄₅◦_, ₉₀◦ _y ₁₃₅◦_{). Finalmente para cada}

orientaci ´on se construye una pir ´amide de 16 escalas; las cuales varian en un rango de7_×7a37_×37pixeles, en pasos de 2 pixeles.

Unidades C1. La etapa C1 representa a las c élulas complejas, en este caso, se realiza la selecci ón del m áximo valor dentro de un vecindario de 8 pixeles entre escalas adyacentes de cada pir ámide:

r= m´axxj,

lo cual reduce la pir ´amide a 8 escalas, esto implica incrementar la tolerancia a trans-formaciones 2D.

UnidadesS2. En esta capa, se calcula la respuesta de la funci ´on de base radial:

r=e(−β||X−Pi||)_,

entre las diferentes unidades de C1 y segmentos de la imagen, lo que implica que las unidades de S2 son una medida entre la entradaX y un patr ´on almacenadoPi, en este caso el autor propone alrededor de 1000 patrones, donde β es un valor de ajuste.

(42)

Si bien, el modelo est ándar HMAX permite alcanzar una precisi ón de alrededor del 95 % al clasificar objetos entre dos clases en bases de datos como CalTech, el procesa-miento de las im ágenes se limita a una escala de grises, adem ás que la construcci ón del descriptor de una imagen es computacionalmente cosotoso, ya que al menos se realizan alrededor de 32000 convoluciones por imagen (tomando en cuenta un conjunto de 1000 patrones) para su reconocimiento. En este sentido, se plantean los siguientes cuestiona-mientos:

¿Es posible simplificar esta estructura para tener un mejor rendimiento computacio-nal, sin perder la justificaci ´on biol ´ogica?

¿C ´omo se puede reemplazar el uso de los patrones o parches que constituyen el diccionario universal?

¿C ´omo extender este modelo a im ´agenes a color?

El poder contestar estas preguntas nos lleva a considerar un cambio de paradigma en el tratamiento de la imagen; lo cual se explica a detalle en la secci ´on siguiente.

3.2. Modelo dirigido por funciones vs modelo dirigido por datos

En trabajos previos como los planteados por Fukushima (1980); Mel (1997); Ullman

(43)

...

... ...

...

... ... ...

fI(fp1, fp2, ..., fpn)

Color

fpn

fp1 fp2

EvoVis i´on

Profundidad Continuidad EvoVis

i´on

Figura 8: Se consideran las propiedades de la imagen como una funci ´on de la escena, a diferencia

de un modelo tradicional donde las propiedades son dependientes de los datos de la propia imagen.

informaci ón visual sigue una serie de transformaciones, producto del est´ımulo óptico en la retina, el cual culmina con la obtenci ón de las caracter´ısticas necesarias para describir un objeto. Es en este sentido, que en el presente trabajo se plantea la hip ótesis que la informaci ón visual puede expresarse como una funcional de la escena y que todas las ca-racter´ısticas que la describen son intr´ınsicas a esta funcional, ver figura 8. Y por lo tanto, el descriptor de una imagen puede realizarse a partir de la respuesta de estas funciones y no por la correlaci ón con patrones preestablecidos.

Dentro de esta conjetura, una imagen entonces puede definirse como una represen-taci ón de esta funcional, es decir como el gr áfico de una funci ón. Formalmente:

Definici ón: Imagen como la gr áfica de una funci ón. Sea f una funci ón f : U _⊂

R2 → R. La gr ´afica o imagen I def es el subconjunto de R3 que consiste de los puntos

(44)

De esta manera, el flujo de informaci ´on puede definirse utilizando el concepto de com-posici ´on de funciones, como una serie de transformaciones u operadores sobre la super-fice que genera la imagen. Con lo cual, se define lo siguiente:

Definici ´on: Operador Visual. Un operador visual (OV) es una funci ´on sobre una ima-gen Iq, con el objetivo de extraer caracter´ısticas espec´ıficas de la misma, como lo son:

contornos, bordes, formas, intensidad, entre otras. Donde su salida es otra imagen que se denominar ´a mapa visual (MV).

OV(Iq) :Iq 7→M V

Dadas las definiciones anteriores, el proceso jer árquico del modelo est ándar HMAX, puede reformularse algor´ıtmicamente como una composici ón de operadores visuales so-bre la imagen y m ás a ún, el conjunto de patrones utilizados para construir el descriptor de la imagen puede sustituirse por uno o m ás operadores visuales. Con lo cual, este nuevo modelo tiene una analog´ıa no con las c élulas simples y complejas como lo plantea Serre

et al. (2007), sino con las funcionalidades que existen a lo largo de la ruta ventral de la corteza visual. De esta manera se construye el modelo que llamaremos la ruta ventral artificial.

3.3. Ruta ventral artificial

(45)

159

227 207 207 135 131 131 159

227 207 207 135 131

131 183

183

211

215 215

223 227 231 231 219 219

227 231 231 219 219 207 207

219 219 155

223 227 227 159 135 135

171 167

127

227 215 215 135 127

Figura 9: La imagen vista como una superficie, la cual es definida como el gr ´afico de una funci ´on.

Este modelo se divide en dos etapas, la detecci ón de regiones de inter és y la des-cripci ón y clasificaci ón de la imagen a partir de las regiones de inter és. Este proceso se describe a continuaci ón.

3.3.1. Detecci ´on de regiones de inter ´es

La detecci ón de las regiones de inter és es descrita gr áficamente en la la figura 11. La entrada del sistema es una imagen a color, I(R, G, B, x, y), que se descompone en una pir ámide de 12 escalas (Iσ1, ..., Iσ12), cada una m ás peque ña que la anterior por un

fac-tor de214; manteniendo su relaci ´on de aspecto y la informaci ´on en las diferentes bandas

(46)

S1i=Fs(x, y)

S2i=fi(C1i)

SVM C1i(x, y) =maxs(S1s) V1

V2

V4

IT Orientaci´on

Direcci´on de _Forma

Color S1

C1

S2

C2

IT

C2 =max(PS2i) movimiento

binocular Disparidad

inferotemporal Corteza

Figura 10: Analog´ıa entre la ruta ventral y el modelo computacional propuesto.

En este sentido, este operador visual est á dedicado a la detecci ón de regiones de inter és (IRO), el cual es especializado para extraer bordes, l´ıneas en diferentes orienta-ciones y esquinas. En este caso el operador IRO mapea a cada escala de la pir ámide a una nueva pir ámide,Iσ1, ..., Iσ12 7→ If1,1, ..., If1,12, en cuyas escalas se han ponderado las

regiones de inter ´es antes mencionadas.

Una vez que se ha aplicado el operador IRO, la informaci ón resultante se sintetiza mediante un operadormáxde forma local entre dos escalas subsecuentes de la pir ámide de escalas,max(I(f1,2n−1), I(f1,2n))conn = 1, ..,6. Entonces un segundo operadormáxes

aplicado con el objetivo de substituir cada muestra de las 6 bandas (Imax1,1, ..., Imax1,6) con

el valor m áximo de una regi ón de tama ño i×j alrededor de la posici ón de la posici ón

(k, l):

Imax2,n = m´ax[Imax1,n(k+i, l+j)] (1)

(47)

ban-12 escalas Imagen de

entrada

12 escalas

Evolucionado IRO

If1,12

If1,11

If1,1

If1,2

If1,3

max(If1,2, If1,3)

Imax2,6

Imax2,2

Imax2,1

Iσ12

Iσ1

Iσ2

Iσ3

Iσ11

max(Imax1,n(k+i, l+j))

6 bandas 6 bandas

Imax1,6

Imax1,2

Imax1,1

max(If1,1, If1,2)

max(If1,11, If1,12)

Detecci´on de caracter´ısticas invariantes a posici´on (C1)

I(R, G, B, x, y) If1,n=f1(Iσn)

n= 1, ...,12

M´aximo local

n= 1, ...,6 Detecci´on de caracter´ısticas invariantes a escala (S1)

Figura 11: Diagrama a bloques de la etapa de detecci ´on de regiones de inter ´es

da. El prop ósito de aplicar estas operaciones es lograr invariancia en diferentes esca-las y posiciones, adem ás de sintetizar la informaci ón en un n úmero menor de bandas, (I(max2,1), ..., I(max2,6)).

3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on

Una vez que se han detectado las regiones con mayor informaci ón, se procede a ca-racterizar dichas regiones. T´ıpicamente esta etapa de descripci ón se realiza a partir de la correlaci ón de patrones. Es en esta parte donde se propone la utilizaci ón de una serie de funciones (las cuales sustituyen el uso de estos patrones predeterminados), donde se busca que su salida sea caracter´ıstica a la informaci ón contenida en la imagen y por ende propia al objeto que se busca describir. Esto implica, que el costo computacional se vea reducido, ya que s ólo es necesario aplicar un reducido conjunto de funciones para obtener un vector caracter´ıstico, en lugar de correlacionar cientos o miles de patrones preestablecidos. De acuerdo a la figura 12, la informaci ón dada por la etapa C1 es la entrada ak₋1operadores, los cuales emulan el conjunto de c élulas hipercomplejas de bajo orden. En otras palabras, para cada imagen de entradaImax2,n con n = 1, ...,6, un

conjunto de funciones fi(Imax2,n) con i = 2, ..., k, es aplicado con el objetivo de obtener

(48)

Pk

i=2fi(Imax2,1)

Pk

i=2fi(Imax2,2)

Pk

i=2fi(Imax2,6) IΣ,6 Imax2,6

IΣ,2 IΣ,1

max(IΣ,1, ..., IΣ,6)

200 m´aximos globales

6 bandas

Descriptor de la imagen (C2)

Imax2,2 Imax2,1

6×(k−1) f3(Imax2,2)

fk(Imax2,2)

f3(Imax2,6)

fk(Imax2,6) f2(Imax2,6)

k−1 funciones f3(Imax2,1)

fk(Imax2,1) f2(Imax2,1)

f2(Imax2,2)

Descripci´on de caracter´ısticas(S2)

Entrada 6 bandas

bandas

Figura 12: Diagrama a bloques de la etapa de descripci ´on de caracter´ısticas

Como siguiente paso, la metodolog´ıa contempla una etapa llamada C2, para la cual las salidas de los k − 1, operadores visuales son combinados aplicando una adici ´on,

IΣ,n = Pk_i₌₂fi(Imax2,n) con n = 1, ...,6, resultando en una nueva pir ´amide de 6 bandas.

Entonces, el vector descriptor es construido a partir de los 200 valores m ás altos de la pir ámide obtenida anteriormente, ver figura 12. Finalmente, este vector es la entrada de una m áquina de soporte vectorial, la cual es utilizada como un sistema clasificador.

3.3.3. Experimentos y resultados

(49)

Tabla 1: Esta tabla muestra la matriz de confusi ´on, obtenida por el m ´etodo HMAX sobre el conjunto

de im ágenes de prueba para las 10 diferentes clases. En este caso, la precisi ón de clasificaci ón fue

del= 71.33 %(107/150 images).

Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto

Aeroplanos 11 1 0 1 0 0 0 2 0 0

Bonsai 0 10 3 1 0 1 0 0 0 0

Cerebros 0 1 10 0 1 0 1 1 0 1

Carro 1 1 0 11 0 1 0 0 1 0

Sillas 0 0 1 1 11 0 0 1 1 0

Rostros 0 2 1 0 0 10 1 0 0 1

Hojas 0 0 1 0 0 1 12 0 0 0

Motocicletas 2 0 0 2 0 0 0 11 1 0

Veleros 0 0 1 0 0 2 0 2 10 0

Se ˜nales de Alto 0 0 1 0 0 2 1 0 0 11

Los resultados de evolucionar la RVA se obtuvieron mediante un equipo Dell Precision T7500 Workstation, Intel Xeon 8 Core, NVIDIA Quadro FX 3800 sobre un sistema ope-rativo Linux OpenSUSE 11.1. La implementaci ón del algoritmo de la m áquina de soporte vectorial fue tomada de la libreria libSVM, Chang y Lin (2011). En este caso, el experi-mento fue una clasificaci ón multiclase de 10 categor´ıas, provistas por la base de datos de CalTech-101 (Fei-Feiet al., 2007). El mejor resultado obtenido fue con una precisi ón del

(50)

Tabla 2: Esta tabla muestra la matriz de confusi ´on obtenida por la RVA. La precis ´on sobre la

clasifi-caci ´on es del= 80 %(120/150 images) en el conjunto de im ´agenes de prueba.

Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto

Aeroplanos 3 1 0 6 0 1 0 3 1 0

Bonsai 0 13 0 0 0 0 0 0 2 0

Cerebros 1 0 13 0 0 0 0 1 0 0

Carros 0 0 0 14 0 0 0 1 0 0

Sillas 0 2 0 0 10 3 0 0 0 0

Rostros 0 0 0 0 0 15 0 0 0 0

Hojas 0 0 0 0 0 0 15 0 0 0

Motocicletas 0 0 0 3 0 0 0 12 0 0

Veleros 0 1 0 0 0 1 0 1 12 0

Se ˜nales de Alto 0 0 0 0 0 1 0 0 1 13

Tabla 3: Comparaci ´on entre los tiempos de c ´omputo en los diferentes sistemas

Tama ˜no de HMAX HMAX RVA la imagen MATLAB CUDA MATLAB

896_×592 34s 3.5s 2.6s

601×401 24s 2.7s 1.25s

180×113 9s 1s 0.23s

Uno de las principales ventajas de este modelo ha sido la sustituci ón de patrones predeterminados por el uso de funciones, lo cual ha resultado en un mejor rendimiento tanto de clasificaci ón como en tiempo de c ómputo, esto sin perder la inspiraci ón biol ógica en la corteza visual humana. Sin embargo, la mejora en la precisi ón de clasificaci ón ha sido marginal; lo cual ha motivado el an álisis de este modelo, detectando una gran p érdida de informaci ón en la etapa de detecci ón de regiones de inter és. Esto ha resultado en un replanteamiento de la RVA en nuevo modelo llamado la corteza visual artificial; donde este nuevo modelo se discute a detalle en el cap´ıtulo IV.

Tabla 4: N úmero de convoluciones (NC) para cada funci ón de la mejor soluci ón obtenida despu és

de la evoluci ´on de la RVA.

f1= 0.05Dx( f2= _log₍_Dxlog(₍Dxx_Dx₍_C(C₁₎1))₋_C₁₎₎ f3= (|Dxx(C1)−Dx( f4=log(Dxx(C1)) f5=Dyy(C1)

Dy(I)) Dyy(C1))|)(|Dy(C1)|) +Dx(Dy(C1))

N C= 24 N C= 24 N C= 36 N C= 12 N C= 24

f6=Dyyy(C1) f7= (log(Dx(Dy(C1)))) f8=|Dy(C1) f9=Dy(Dx(Dy( f10= 0.05(Dyy(C1)

(C1·Gaussσ=2(C1)) −Dy(C1)| C1)))−log(Dy(C1)) −Dx(Dy(C1)))

(51)

Cap´ıtulo 4.

Corteza visual artificial

Si bien el sistema de la ruta ventral artificial permiti ó implementar un modelo jer árquico y dirigido por funciones, sus resultados en t érminos de clasificaci ón no fueron los espe-rados. Es en este sentido que se ha planteado una nueva forma de adquirir y sintetizar la informaci ón visual, donde se ha tomado como motivaci ón la teor´ıa de la atenci ón visual y la relaci ón existente entre las áreas del cerebro que constituyen al sistema visual humano. Con lo cual, en este cap´ıtulo se propone un sistema computacional llamado la corteza vi-sual artificial (CVA), Clementeet al.(2013b); Olagueet al.(2014a), que toma todos estos elementos y los sintetiza en un modelo dedicado a la categorizaci ón de im ágenes dentro de una base de datos. As´ı el cap´ıtulo se divide en dos secciones principales, la primera describe brevemente esta motivaci ón biol ógica y en una segunda secci ón se describe a detalle el algoritmo computacional.

4.1. Integraci ´on de la ruta dorsal y la ruta ventral

(52)

SVM

Mapa Conspicuo Mapa Conspicuo Centro

Entorno

Imagen a Color

Mapa Conspicuo Mapa Conspicuo de

de Color de Forma de Intensidad

V1

V2 Color

V4

de Forma (CMS)

n m´aximos globales max(MMC, MMO, MMS, MMInt)

V MC=V OC(Icolor)V MO=V OO(Icolor) V MS=V OS(Icolor) V MInt= (Ir+Ig+Ib

3 )

¿Qu´e?

Ruta Ventral IT

MMC=

P

(V OM M k(CMC)) P(V OM M kMMO(=CMO) P(V OM M kMMS=(CMS)) P(V OM M kMMInt=(CMInt))

Vector Descriptor −

→ν= (α1, ..., αn) Orientaci´on

Direcci´on de Movimiento

Forma Binocular Disparidad

¿D´onde? / ¿C´omo?

Ruta Dorsal

Inferotemporal Corteza

Mapa Visual Mapa Visual Mapa Visual Mapa Visual

de Color (CMC) Orientaci´on (CMO)

Relaci´on

de Intensidad (CMInt) de Orientaci´on

V OM M2(CMO) V OM M3(CMS) V OM M k(CMInt) V OM M1(CMC)

Figura 13: La figura de la izquierda muestra las ´areas del cerebro involucradas en el proceso visual

humano; a ún cuando se determinan dos rutas de informaci ón, llamadas del “¿Qu é?” y “¿D ónde?”,

existe una alta interconexi ´on entre ellas; como un ejemplo, la ruta ventral identifica el objeto y la ruta

dorsal nos indica su ubicaci ´on en la escena. Dado este proceso natural y la funcionalidad de cada

´area se propone una analog´ıa computacional en forma de etapas dentro de un modelo jer ´arquico,

figura derecha, estas procesan diferentes dimensiones de la imagen (color, orientaci ´on, forma e

intensidad); donde al final se selecciona la respuesta m ´axima sobre el mapa de prominencia, la cual ubica la localidad del objeto, y partir de esta se construye un descriptor.