Programación cerebral: un nuevo enfoque para la resolución del problema de seguimiento de objetos en secuencias de imágenes basado en atención visualBrain programming :

(1)

y aprobada por el siguiente comité

Dr. Gustavo Olague Caballero Codirector del Comité

M.C. José Luis Briseño Cervantes Codirector del Comité

Dr. Heriberto Márquez Becerra Miembro del Comité

Dr. Hugo Homero Hidalgo Silva Miembro del Comité

Dra. Ana Isabel Martínez García Coordinador programa de

Posgrado en Ciencias de la Computación

Dr. Jesús Favela Vara Director

Dirección de Estudios de Posgrado

(2)

Programa de Posgrado en Ciencias

en Ciencias de la Computación

Programación cerebral: un nuevo enfoque para la resolución del problema de seguimiento de objetos en secuencias de imágenes basado en atención visual

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de

Maestro en Ciencias

Presenta: Paul Llamas Virgen

(3)

Resumen de la tesis de Paul Llamas Virgen, presentada como requisito parcial para la ob-tención del grado de Maestro en Ciencias en Ciencias de la Computación.

Programación cerebral: un nuevo enfoque para la resolución del problema de seguimiento de objetos en secuencias de imágenes basado en atención visual

Resumen aprobado por:

Dr. Gustavo Olague Caballero Codirector de Tesis

M.C. José Luis Briseño Cervantes Codirector de Tesis

El problema de seguimiento de objetos en secuencias de imágenes es un problema típico en visión por computadora, el cual se compone de dos subproblemas: la detección de objetos y la estimación de la trayectoria que éstos realizan cuando se encuentran en movimiento. La solución a esta problemática puede aplicarse a diversos campos como la medicina, la manufactura, el tránsito y seguridad vehicular, por mencionar sólo algunos. Las propues-tas clásicas para su resolución consideran modelos matemáticos que describen características particulares del objeto, con la desventaja implícita de resolver únicamente instancias par-ticulares del problema general. En este sentido existe una nueva área de estudio la cual pretende desarrollar nuevas estrategias de solución desde una perspectiva cognitiva. El estu-dio de la corteza visual humana así como los mecanismos involucrados en el procesamiento de la visión humana pretenden descubrir cómo se llevan a cabo los procesos para dotar de la percepción visual a un sistema artificial y así poder incluso emular en un futuro la visión natural en robots. Este trabajo propone un nuevo paradigma para la resolución del prob-lema de seguimiento de objetos al cual llamamos “programación cerebral", el cual está basado en un proceso natural cognitivo que imita la atención visual y que surge del estudio de la ruta dorsal la cual forma parte de la corteza visual humana. El trabajo se aplicó en tres sistemas artificiales diferentes: un cuadricóptero, un robot humanoide y un brazo robótico. Los resultados alcanzados demuestran la factibilidad de la metodología propuesta mediante la implementación de nuestros algoritmos en lenguaje C.

(4)

Abstract of the thesis presented by Paul Llamas Virgen, in partial fulfillment of the require-ments of the degree of Master of Science in Computer Science.

Brain programming: a novel visual attention-based approach for tracking objects in images sequences based on visual attention

Abstract approved by:

Dr. Gustavo Olague Caballero Codirector de Tesis

M.C. José Luis Briseño Cervantes Codirector de Tesis

The tracking problem on images sequences is a typical computer vision problem, this task can be divided in two fundamental steps: objects detection and object-in-motion trajectory estimation. The solution for this problem can be applied to several fields such as: medicine, manufacture, transit and vehicular security, just for mention a few. The classical proposals consider mathematical models that describe particular features of the objects, this implies an implicit disadvantage by solving only particular instances of the general problem. In this sense there exists a new study that proposes new solution strategies from a cognitive perspective. The studies of the human visual cortex as well as involved mechanisms in the human vision process aim to describe how the processes for providing visual perception to an artificial system are conducted in order to emulate, in a future, natural vision in robots. This work proposes a new paradigm for solving the tracking problem called “brain programming", which is based on a natural cognitive process that mimics visual attention task and emerges from the study of the dorsal stream process that conforms the human visual cortex. This methodology was applied in three different artificial systems: a quadcopter, a humanoid robot and a robotic arm. The results show the proposed methodology feasibility by means of the development in C language of our algorithms.

(5)

Dedicatoria

“Si he llegado a ver más

lejos que otros, es porque

me subí a hombros de

gi-gantes." A mis padres,

(6)

Agradecimientos

Aquél que cree que el alcanzar una meta es producto de un esfuerzo individual, se equiv-oca, no se ha dado cuenta que tras de sí existe un mundo que lo empuja, el universo coadyuva con cosas pequeñas y son esas cosas pequeñas las que crean aquéllas grandiosas. Cuando se llega a este punto, y echa la vista atrás, se observa que este trabajo es el fruto de muchas situaciones y personas que de una u otra forma, han aportado lo mejor de sí para su real-ización. A todas estas personas, que me han acompañado en este camino quisiera expresarles mis agradecimientos.

Si mencionara a todos los que de alguna manera ayudaron a la culminación este trabajo este documento sería un libro de agradecimientos.

A mis coasesores, el Dr. Gustavo Olague, por sus enseñanzas, su apoyo y sus múltiples metáforas y al M.C. José Luis Briseño por haberme guiado en la realización de este trabajo, así como a mis sinodales de tesis; el Dr. Hugo Hidalgo y el Dr. Heriberto Márquez por sus opiniones, observaciones y su tiempo.

A mis hermanos, a donde quiera que vaya van conmigo.

A mis compañeros de laboratorio: Andersen, Daniel, Eddie y León por su apoyo y por haber propiciado a generar una atomósfera agradable en el laboratorio de evovisión.

(7)

Fernando, René, Gustavo por mostrarme que existen muchas más cosas que aprender de la vida, un abanico de opciones que no conocía.

A Lorena, por haber llegado en un momento de decisiones en mi vida, por haberle dado dirección a mi brújula interior descalibrada.

A Arantxa, mi mejor amiga, por siempre estar ahí cuando le necesité y cuando no, por haber soportado mis distracciones y emociones aunque ello nos haya costado nuestra amistad.

A Paulina, Renova y Mancilla, mis amigos que sé que siempre estarán ahí, gracias por haberme acompañado.

A Don Simón Covarrubias y doña María Cuéllar, mis otros padres. Dos de las personas más sabias e ilustres con las que he coincidido en la vida, cómo olvidar todas aquellas cátedras filosóficas extensas enclaustrados en un ambiente donde no había lugar para el tiempo, porque sólo hasta ahora comprendo algunas de las cosas que alguna vez conversamos y por haberme enseñado escuchar y valorar el silencio.

A todos y cada uno de los mexicanos haberme apoyado económicamente para la obtención de este grado. Pronto les devolveré el favor.

Al Consejo Nacional de Ciencia y Tecnología CONACyT por la gestión del recurso y por mantener la calidad de los posgrados en México.

Al CICESE por haberme abierto las puertas a lo que fue mi segundo hogar por un periodo de tiempo, por brindarme un pequeño lugar por esas largas y profundas horas de reflexión bajo una atomósfera de quietud, silencio, soledad y tranquilidad nocturna que forjaron en mí no sólo el pensamiento crítico del área de la inteligencia artificial, sino en el infinito universo de los intereses diversos de la humanidad.

(8)

Resumen en español . . . ii

Resumen en inglés . . . iii

Dedicatoria . . . iv

Agradecimientos . . . v

Lista de figuras . . . x

Lista de tablas . . . x

1 Introducción . . . 1

1.1 Descripción del problema . . . 2

1.2 Motivación. . . 3

1.3 Objetivos . . . 5

1.3.1 Objetivo general . . . 5

1.3.2 Objetivos específicos . . . 5

1.4 Preguntas de investigación . . . 5

1.5 Contribuciones . . . 6

1.6 Estructura del documento . . . 6

2 Marco teórico . . . 8

2.1 Problema de seguimiento de objetos . . . 8

2.1.1 Representación del objeto . . . 10

2.1.2 Selección de características para el seguimiento . . . 13

2.1.3 Detección de objetos . . . 15

2.1.4 Seguimiento del objeto . . . 22

2.1.5 Discusión . . . 28

2.2 Estudios sobre el funcionamiento del cerebro . . . 28

2.2.1 La corteza visual . . . 32

2.2.2 Las rutas ventral y dorsal . . . 35

2.2.3 Atención visual . . . 38

2.2.4 Discusión . . . 45

3 Ruta dorsal artificial . . . 46

3.1 Modelo de computación cerebral . . . 47

3.1.1 Mapas visuales (VMs) . . . 54

3.1.2 Mapas conspicuos (CMs) . . . 57

(9)

4 Programación cerebral . . . 61

4.1 Programación genética . . . 61

4.1.1 Restricciones . . . 63

4.1.2 Proceso evolutivo de un programa genético . . . 64

4.2 Representación genética de la ruta dorsal artificial . . . 66

4.2.1 Parámetros iniciales . . . 75

4.2.2 Operadores genéticos . . . 75

4.2.3 Medida-F como función objetivo . . . 77

5 Implementación de la ruta dorsal artificial y seguimiento del objeto. . . 83

5.1 Selección del mejor individuo de la etapa de evolución . . . 83

5.2 Estimación de la trayectoria del objeto. . . 84

5.2.1 Seguimiento de lazo abierto . . . 85

5.2.2 Seguimiento a lazo cerrado . . . 85

5.2.3 Filtro predictor como estrategia para la estimación de la trayectoria a lazo cerrado . . . 87

5.3 El cuadricóptero ar-drone 2.0 . . . 93

5.3.1 Hardware del cuadricóptero . . . 93

5.3.2 Software y comunicación del cuadricóptero . . . 96

5.4 El humanoide NAO . . . 99

5.4.1 Sensores del robot . . . 100

5.4.2 Características de hardware . . . 101

5.4.3 Características de software del robot . . . 103

5.5 El robot Staubli RX60. . . 105

5.5.1 Características de hardware . . . 105

5.5.2 Características de software . . . 106

5.6 Implementación de la metodología . . . 107

5.7 Discusión . . . 111

6 Resultados experimentales . . . 113

6.1 Análisis cualitativo de la estrategia de programación cerebral . . . 113

6.1.1 Síntesis de las soluciones del proceso evolutivo . . . 115

6.1.2 Análisis estructural de las soluciones . . . 117

6.2 Descripción de los experimentos para el seguimiento a lazo abierto y cerrado 117 7 Conclusiones, aportaciones y trabajo futuro . . . 131

7.1 Conclusiones. . . 131

7.2 Aportaciones . . . 133

7.3 Trabajo Futuro . . . 134

Referencias bibliográficas. . . 136

(10)

Lista de figuras

1 Diagrama de seguimiento. . . 9

2 Neuronas de Cajal . . . 31

3 Los lóbulos cerebrales, de acuerdo a una clasificación en base a la actividad-acción cerebral. . . 32

4 Corte longitudinal del cerebro. . . 33

5 División de las capas de la corteza visual en conjunto con los lóbulos cerebrales. 34 6 Diagrama esquemático del flujo de la información visual. . . 36

7 Las rutas cerebrales ventral y dorsal. . . 37

8 Cuatro diferentes especies de pinzones. . . 39

9 Procesamiento bottom-up. . . 40

10 Procesamiento top-down. . . 41

11 Zonas del cerebro y características de procesamiento de información. . . 48

12 Analogía entre la ruta dorsal de la corteza visual y el modelo propuesto llamado ruta dorsal artificial. . . 51

13 Diagrama de flujo del proceso de la ruta dorsal artificial (ADS). . . 52

14 Proceso de obtención de los mapas visuales (VMs). . . 57

15 Proceso para la obtención de los mapas conspicuos CMs. . . 58

16 Proceso de integración de características (EFI). . . 59

17 Representación sintáctica de un árbol en programación genética: max(x_∗x, x+ 3y).. . . 63

18 Estructura básica de un GP. . . 64

19 Formación de un árbol lleno en un programa genético con profundidad de 2. 65 20 Proceso general de evolución. . . 68

21 Genotipo del individuo en la ruta dorsal artificial. . . 73

22 El operador de cruzamiento a nivel de cromosoma y cruzamiento a nivel de gen. 77 23 El operador de mutación a nivel de cromosoma y mutación a nivel de gen. . 78

24 Muestras de imágenes de la base de datos del dinosaurio. . . 80

25 Muestras de imágenes segmentadas. . . 82

26 Diagrama de áreas de segmentación manual y proto-objeto. . . 82

27 Objeto utilizado para el seguimiento. . . 85

28 Errores en la utilización de seguimiento de lazo abierto. . . 86

29 Diagrama de seguimiento a lazo abierto. . . 89

30 Diagrama de seguimiento a lazo cerrado. . . 90

31 Diagrama de seguimiento de lazo abierto a bloques. . . 91

32 Diagrama de seguimiento de lazo cerrado a bloques. . . 92

33 Cuadricóptero ar-drone 2.0 . . . 94

34 Ejes del cuadricóptero. . . 95

35 El robot humanoide Nao. De la empresa Aldebaran robotics. . . 100

(11)

39 El robot Staubli RX60. . . 105

40 Articulaciones y partes del robot Staubli. . . 106

41 El robot Staubli y su controlador CS7. . . 107

42 Diagrama general del proceso de seguimiento del objeto con robots. . . 109

43 Módulos que componen el proceso de seguimiento de la estación base y los robots. . . 110

44 Aptitud, diversidad y complejidad de los individuos en la evolución. . . 116

45 Frecuencia de uso de las funciones y terminales en el proceso evolutivo. . . . 121

46 Cuadricóptero, movimiento hacia abajo. . . 122

47 Cuadricóptero, movimiento hacia enfrente. . . 123

48 Cuadricóptero, movimiento hacia un lado. . . 124

49 Robot NAO, movimiento hacia enfrente. . . 125

50 Robot NAO, movimiento hacia un lado.. . . 126

51 Robot NAO, matriz de confusión para el movimiento taichi. . . 127

52 Robot brazo Staubli, movimiento hacia abajo. . . 128

53 Robot brazo Staubli, movimiento hacia enfrente. . . 129

54 Robot brazo Staubli, movimiento hacia un lado. . . 130

Lista de tablas 1 Trabajos representativos para la etapa de detección de objetos. . . 16

2 Categorías de seguimiento y su trabajo representativo. . . 23

3 Terminales y funciones para la dimensión de orientación. . . 71

4 Terminales y funciones para la dimensión de color. . . 72

5 Terminales y funciones para la dimensión de forma. . . 72

6 Terminales y funciones para la integración de características. . . 73

7 Parámetros utilizados en el proceso . . . 74

8 Descripción de la creación de la base de datos del dinosaurio. . . 81

9 Número de imágenes por categoría. . . 81

10 Programas que se utilizan en el mejor individuo resultante del proceso de evolución. . . 84

11 Estadísticas del experimento k-fold. . . 114

12 Selección de 6 de los mejores individuos. . . 114

(12)

Algunos de los estudios en materia de ciencias computacionales, específicamente en el campo de visión por computadora, son relativamente recientes, se han propuesto varios enfoques para resolver los diversos problemas del mundo de los sistemas artificiales de los cuales aún no se tiene una solución genérica.

Las ciencias computacionales se dividen en varias áreas específicas de investigación. Existe un área de investigación a la cual esta tesis enriquece: la inteligencia artificial (IA), cuyo objetivo o cúspide es la creación de una máquina que sea capaz de alcanzar los pensamientos, acciones y comportamientos propios del ser humano y a la vez sea indistinguible de éste. Sin embargo, ésta no es una tarea sencilla, por ahora la meta que se pretende alcanzar dista de ser realidad y sigue siendo un sueño que buscan diversos científicos a lo largo y ancho del mundo. Existen en la literatura trabajos que tratan de simular las acciones que realiza el cerebro humano y a pesar de que no se ha conseguido hacerlo completamente, éstos brindan enfoques prometedores.

Por otro lado, se sabe que el ser humano percibe su entorno en base a diversos mecanismos fisiológicos que han sido llamados sentidos: olfato, tacto, oído, gusto y vista. El campo de la inteligencia artificial pretende proveer de este tipo de sensores a las máquinas en base a los sentidos del ser humano; el organismo de adaptación por excelencia, para poder percibir el ambiente al que se expone. Las comunidades de IA al tratar de resolver el problema de conceder de visión a una máquina propusieron la existencia un problema que era tan com-plicado como el dotar de inteligencia artificial a una máquina: la visión artificial. De hecho, el sentido de la vista es uno de los mecanismos fisiológicos más importantes del ser humano, donde la información que recibimos es percibida por el ojo, y la cantidad de información que se procesa es inmensa por lo que tratar de proveer del sentido de la vista a una máquina es una tarea para nada sencilla.

(13)

esquinas, detección de puntos de interés, sustracción de fondo, segmentación, reconocimiento de objetos, seguimiento, sólo por mencionar algunos.

A pesar de que existen diversos enfoques que llevan a cabo procesos visuales, aún no se ha resuelto el problema de forma general. Uno de los planteamientos profundos de la época moderna fue, sin duda alguna, el propuesto por el pionero en neurociencias computa-cionales: David Marr (Marr, 1982). Marr ha influenciado una nueva generación de modelos computacionales en los cuales las áreas cerebrales juegan un papel fundamental. Él señala que continúan preguntas abiertas acerca de cómo es que las áreas involucradas en el cerebro que conceden al ser humano de visión pueden procesar información coherente para nosotros. Además de cuáles son los procesos fiosológicos que se llevan a cabo en el cerebro para el discernimiento de información visual. Para él, el enfoque fisiológico, es decir, el estudio de las áreas cerebrales involucradas en dotar del sentido de la visión puede brindar a las ciencias computacionales con respuestas a las cuestiones que en la actualidad se enfrenta. Sus in-vestigaciones demuestran que la combinación de análisis computacionales y biológicos puede contribuir al descubrimiento de interesantes algoritmos neurológicos.

En esta tesis se presenta una metodología para generar de forma automática un detec-tor para la resolución del problema de seguimiento de objetos. Para lograrlo se utiliza un novedoso paradigma al que llamamos programación cerebral. Este trabajo se inspira de la in-vestigación del grupo de EvoVisión, particularmente en el trabajo publicado en (Dozalet al., 2014).

1.1 Descripción del problema

El seguimiento de objetos es un problema clásico de la visión por computadora y de la inteligencia artificial en general debido a su complejidad. Puntualmente en la visión por computadora existe una larga lista de aplicaciones que es posible realizar con la resolución de dicho problema. Básicamente el problema de seguimiento de objetos se presenta en base a dos procesos puntuales:

• La detección del objeto a seguir en una escena.

(14)

La mayoría de los trabajos existentes están diseñados para trabajar con una clase de objeto en particular. Sin embargo, el ser humano es capaz de identificar cualquier objeto independientemente de la clase de objeto a la que pertenezca. Actualmente se ha impulsado el estudio del cerebro con el objetivo de comprenderlo a profundidad y así analizar cómo es que el cerebro puede resolver diversos problemas; en este caso puntual de la detección de objetos. Actualmente la comprensión del cerebro dista de ser clara.

Esta tesis presenta un nuevo enfoque neuroinspirado en la atención visual, basado en el paradigma de programación cerebral y en los trabajos previos de (Clemente et al., 2013) y (Olagueet al., 2014) cuyas ideas son retomadas para la resolución del problema de seguimiento de objetos.

1.2 Motivación

El seguimiento de objetos involucra identificar el objeto en la escena y posteriormente estimar la trayectoria que dicho objeto describe a través del movimiento. Así, las aplicaciones de este problema en particular son muy diversas.

(15)

Dentro de la interacción humano-computadora es necesario implementar diversos mecan-ismos que resuelvan actividades asociadas al problema de seguimiento; por ejemplo, ojos, personas, el reconocimiento de gestos, etc, esto con el objetivo de que los sistemas computa-cionales que tengan adjunta una cámara disciernan información y coadyuven a la interacción del usuario con los mismos.

El seguimiento es utilizado para resolver problemas globales de tránsito vehicular desde el punto vista de visión por computadora, esto es, problema de flujo y dirección, control de semáforos en zonas urbanas, además de obtener estadísticas en este ámbito, comportamiento del mismo en tiempo real, entre otros.

Otro problema que está siendo actualmente muy atacado es la navegación vehicular. Se pretende que en un futuro no muy lejano exista la posibilidad de que los vehículos tengan independencia, es decir, que no dependan de un conductor para navegar o que por lo menos auxilien al conductor en su viaje. La navegación autónoma en robots de exploración es otra de las fuertes áreas de aplicación. El seguimiento de objetos es el primer paso para resolver el problema de reconocimiento de objetos en movimiento en entornos reales el cual es otro problema bastante atacado dentro de la comunidad de visión por computadora.

El seguimiento de objetos, es un mecanismo natural que realizan los humanos para la interpretación del ambiente cuyo estado es el movimiento. En primera instancia el humano localiza el objeto para posteriormente estimar la trayectoria del mismo sin dejar de detectarlo en todo momento. A pesar de que existen diversos métodos para la resolución del problema de seguimiento, ellos solamente resuelven pequeñas instancias del problema en general, ya que éste está ligado al reconocimiento de objetos.

(16)

1.3 Objetivos

1.3.1 Objetivo general

El objetivo principal de esta tesis es proponer un nuevo enfoque para la obtención de solu-ciones que permitan resolver el problema de seguimiento de un objeto en una escena basado en la corteza visual, la cual es un área del cerebro que provee al ser humano de la capacidad de visión. Nuestro estudio considera específicamente la ruta dorsal, en la que se aplica la técnica propuesta a la cual llamamos programación cerebral. Asimismo, busca enriquecer el enfoque neuroinspirado que ha brindado resultados satisfactorios en la comunidad de visión. El método utilizado se inspira en el funcionamiento de la corteza visual y establece un novedoso paradigma llamado programación cerebral para la resolución del problema, re-solviendo el seguimiento de un objeto en una escena.

1.3.2 Objetivos específicos

• Analizar a profundidad la fisiología cerebral, específicamente la corteza visual y los diversos mecanismos de la ruta dorsal con el objetivo de comprender el problema de atención visual desde un enfoque neurológico.

• Utilizar la metodología de programación cerebral propuesta por (Dozalet al., 2014) para evolucionar la extracción de características de un objeto las cuales fueron identificadas en la teoría de atención de Treisman (Treisman y Gelade, 1980). Todo esto con el fin de realizar la detección del objeto.

• Implementar y evaluar la ruta dorsal artificial en el lenguaje de programación C. Asimismo reducir el tiempo de ejecución para lograr la detección del objeto en tiempo real con el objetivo de extender la aplicación al caso de robots.

• Demostrar la resolución del problema de seguimiento de objetos basado en el nuevo enfoque de programación cerebral implementándolo en tres sistemas artificiales: un robot volador de cuatro hélices, un robot humanoide y un brazo robótico.

1.4 Preguntas de investigación

(17)

paradigma para la detección de objetos y asimismo resolver el seguimiento de los mis-mos?

• ¿Qué representación del objeto debe ser la óptima para el seguimiento?

• ¿La metodología propuesta reduce el tiempo de ejecución con respecto a enfoques an-teriormente propuestos?

• ¿Qué ventajas brinda el trasladar la ruta dorsal artificial a lenguaje C?

1.5 Contribuciones

Las contribuciones de esta tesis son:

• Una descripción de los mecanismos de la ruta dorsal.

• Un nuevo enfoque para la resolución del seguimiento de objetos basado en atención visual y programación cerebral.

• Una biblioteca de la ruta dorsal artificial (ADS) implementada en lenguaje C sobre entorno Linux.

• La implementación del problema de seguimiento en un robot volador, un robot hu-manoide y un brazo robótico.

1.6 Estructura del documento

Esta tesis está estructurada de la siguiente manera:

• Capítulo II: Aquí se introduce un marco teórico asociado al problema de seguimiento y un conciso estado del arte de los métodos utilizados actualmente para resolver dicho problema. Además se plasma el marco teórico correspondiente a los estudios cerebrales, enfocándonos en el problema de atención visual.

(18)

• Capítulo IV: Se describe el nuevo paradigma de programación cerebral, la ruta dorsal artificial (ADS) en conjunto con un método de aprendizaje de máquina: la progra-mación genética, para la síntesis de las operaciones que describan el objeto a seguir.

• Capítulo V: Se describe la implementación del modelo propuesto para la etapa de detección junto con la estrategia de seguimiento además de su implementación en tres robots: un cuadricóptero, un humanoide y un brazo robótico.

• Capítulo VI: Se presenta la experimentación realizada así como una discusión de los resultados obtenidos.

(19)

Capítulo 2. Marco teórico

En este capítulo se explica brevemente lo que ha acontecido dentro de la visión por com-putadora para la resolución del problema de seguimiento. Se brinda literatura asociada al problema de seguimiento en la comunidad de visión, además se dan a conocer los métodos utilizados. Aunado a ello, se introducen estrategias computacionales basadas en modelos neuroinspirados y posteriormente se enfoca al estudio de la corteza visual, un área del cere-bro dedicada al procesamiento de la percepción visual. Dichos estudios se toman como los cimientos en los cuales se apoyó esta investigación para la consolidación de este nuevo enfoque neuroinspirado.

2.1 Problema de seguimiento de objetos

El seguimiento de objetos es un problema importante en el campo de la visión por com-putadora. La proliferación de computadoras potentes, la disponibilidad de cámaras de video económicas y de alta calidad, y el incremento de la necesidad del video automático ha gen-erado mucho interés en los algoritmos de seguimiento de objetos.

De manera sencilla, el problema de seguimiento puede definirse como el problema de la estimación de la trayectoria de un objeto en la imagen que se mueve a través de la escena. En otras palabras, un seguidor asigna consistentemente etiquetas al objeto en diferentes marcos del video. Adicionalmente, dependiendo del dominio de estudio, un sistema de seguimiento puede además proveer información asociada al objeto en cuestión, tales como la orientación, área o forma del objeto, entre otros. La comunidad de visión por computadora se ha intere-sado en el problema y ha realizado diversos estudios considerando múltiples enfoques para brindar soluciones. Ésta plantea que para llevar a cabo el seguimiento deben de resolverse dos problemas puntuales: la detección del objeto de interés y la estimación de la trayectoria del mismo; ver Figura1.

El seguimiento de objetos puede ser complicado cuando se presentan las siguientes situa-ciones:

• Pérdida de información causada por la proyección del mundo 3D en una imagen 2D.

(20)

Figura 1_: Diagrama de seguimiento. Se compone de la detección del objeto y la estimación de la trayectoria.

• Movimiento complejo del objeto.

• Oclusiones parciales o totales del objeto.

• Formas complejas del objeto.

• Cambios en la iluminación de la escena.

• Falta de capacidad computacional para la resolución en tiempo real.

Se puede simplificar la idea del seguimiento de objetos al establecer límites en el movimiento y/o en la apariencia del objeto. Por ejemplo, casi todos los algoritmos suponen que el objeto en movimiento es suave sin cambios bruscos en el movimiento. También se puede acotar estableciendo si son constantes en velocidad o aceleración basada en información a priori, además de establecer conocimiento a priori pueden existir parámetros que simplifiquen el problema como el número de objetos a seguir, el tamaño de los mismos, la forma, el color, entre otros.

Se han propuesto numerosos enfoques para el seguimiento de objetos. Ellos principalmente difieren entre sí en base a las preguntas de investigación que pretenden resolver como por ejemplo:

¿Qué representación del objeto debe de ser la óptima para el seguimiento?

(21)

seguimiento? O preguntas como:

¿Cómo debe de ser el movimiento, apariencia y la forma del mismo?

Las respuestas a esas preguntas dependen del ambiente en el cual se evalúa el problema de seguimiento. Existen un gran número de métodos los cuales pretenden responder las preguntas anteriores en diversos escenarios. En esta sección se pretende dar a conocer y describir los diversos métodos existentes además de categorizarlos.

Han habido sustanciales trabajos para el seguimiento de humanos, los cuales se discuten en estudios donde se realiza una exhaustiva recopilación y explican que el problema de seguimiento es sustancial para llevar a cabo el análisis del movimiento humano (Aggarwal y Cai, 1999) y (Moeslund y Granum, 2001). En otros trabajos relacionados a este problema reconocen humanos y sus actividades. Dentro de ese reconocimiento también consideran el seguimiento como una parte fundamental para llevarlo a cabo (Gavrila, 1999). Dichos traba-jos categorizan diversos métodos para la resolución del problema. Tomando las ideas básicas, en esta sección, se plantea una explicación y clasificación de los mismos.

Antes de describir los métodos para el seguimiento, se da a conocer la representación del objeto a seguir y diversos métodos de representación.

2.1.1 Representación del objeto

En un escenario de seguimiento, un objeto puede ser definido como cualquier cosa que es de interés para el análisis. Por ejemplo, barcos en el mar, peces dentro de un acuario, vehículos en la carretera, aviones en el cielo o personas caminando. Sin embargo, los objetos pueden ser vistos desde un punto de vista no cognoscitivo, como los puntos de interés, las esquinas en una imagen, entre otros, siendo estos una serie de objetos que pueden ser importantes para seguir en un dominio específico. Los objetos pueden ser representados por sus formas y apariencias. Primeramente se describen representaciones de formas comunes de los objetos empleados para su seguimiento.

Puntos: El objeto es representado por un punto, esto es, el centroide (Veenman, 2001), o por una serie de puntos (Serby et al., 2004). En general, la representación de punto es adecuada para el seguimiento de objetos que necesitan regiones pequeñas en la imagen.

(22)

o por una elipse (Comaniciu et al., 2003). El movimiento para tales representaciones es usualmente modelado por una traslación afín o proyectiva (homografía). Aunque las formas geométricas primitivas son más adecuadas para la representación de objetos rígidos simples, puede ser además utilizada para el seguimiento de objetos no rígidos.

Silueta del objeto y contorno: La representación del contorno define el límite de un objeto. La región dentro del contorno es llamada la silueta del objeto. La representación de la silueta y contorno del objeto son adecuadas para el seguimiento de formas no rígidas y complejas (Yilmazet al., 2006).

Modelos de forma articulada: Los modelos articulados están compuestos de partes del cuerpo que están unidas por articulaciones. Por ejemplo, el cuerpo del ser humano es un objeto articulado con partes las cuales están unidas como el torso, las piernas, los brazos, la cabeza y los pies. La relación entre las partes están relacionadas por modelos cinemáticos de movimiento. Con el objetivo de representar un objeto articulado, se pueden modelar las partes constituyentes utilizando cilindros o elipses.

Modelos de esqueleto: El esqueleto de los objetos se puede extraer para aplicarlo a la transformación del eje medial de la silueta (Ballard y Brown, 1982). Este modelo es común-mente utilizado como una representación de la forma útil en el reconocimiento de objetos (Ali y Aggarwal, 2001). La representación de esqueleto puede ser aplicada en el modelado de articulaciones y objetos rígidos.

Existen maneras de representar las características aparentes de los objetos. Note que la representación de la forma puede además ser combinada con la representación de la apari-encia para el problema de seguimiento (Cutler y Davis, 2000). Algunas representaciones de apariencias comunes en el contexto del seguimiento de objetos son:

(23)

Plantillas: Las plantillas son regiones de una imagen formadas utilizando formas geométri-cas simples o siluetas (Fieguth y Terzopoulos, 1997). Una ventaja de una plantilla es que lleva tanto la información espacial como la información de apariencia. Las plantillas, sin embargo, solamente codifican la apariencia del objeto generado a partir de una simple vista. Así, son solamente adecuadas para el seguimiento donde los objetos cuyas posturas no varían considerablemente durante el curso del seguimiento.

Modelos de apariencia activa: Los modelos de apariencia activa son generados por el mod-elado simultáneo de la forma del objeto y su apariencia (Edwardset al., 1998). En general, la forma del objeto está definida por un conjunto de marcas. Similar a la representación basada en contornos donde las marcas pueden residir en los límites del objeto, o alternativamente pueden residir dentro de la región del objeto. Por cada marca, se almacena un vector el cual se compone de color, textura o magnitud de gradiente. Los modelos de apariencia activa requieren una fase de entrenamiento donde tanto la forma como su apariencia asociada se utilizan para ser aprendidas de un conjunto de muestras utilizando, por ejemplo, el análisis del componente principal.

Modelos de apariencia multivista: Esos modelos codifican diferentes vistas de un objeto. Un enfoque para representar diferentes vistas de objetos es generar un subespacio de las vistas dadas. Los enfoques de subespacio, por ejemplo el Análisis del Componente Principal (PCA)1

y el Análisis del Componente Independiente (ICA)2

, han sido utilizados para la forma y la representación de la apariencia (Moghaddam y Pentland, 1997), (Black y Jepson, 1998). Otro enfoque para caracterizar diferentes vistas de un objeto es entrenando un conjunto de clasificadores, por ejemplo, la máquina de vectores de soporte o las redes Bayesianas (Avidan, 2004), (Park y Aggarwal, 2004). Una limitación de los modelos de apariencia multivista es que las apariencias en todas las vistas son requeridas antes de tiempo.

En general, existe una fuerte relación entre la representación de objetos y los algoritmos de seguimiento. La representación de objetos es usualmente elegida de acuerdo al dominio de aplicación, por ejemplo, la representación por puntos es muy adecuada cuando se pre-tende hacer seguimiento de objetos muy pequeños como para el seguimiento de semillas en movimiento (Veenman, 2001). Similarmente, en otros trabajos utilizan la representación por puntos para seguir aves distantes (Shafique y Shah, 2005).

1

Del inglés: Principal Component Analysis.

2

(24)

Para los objetos cuyas formas pueden ser aproximadas por rectángulos o elipses, la repre-sentación de la forma primitiva geométrica es más apropiada. Existen trabajos que utilizan una representación de forma elíptica y emplean un histograma de color calculado de la región elíptica para el modelo de la apariencia (Comaniciuet al., 2003). En otros utilizan eigenvec-tores para representar la apariencia, éstos fueron generados de plantillas de objetos regulares (Black y Jepson, 1998). Para el seguimiento de objetos con formas complejas, como las pro-ducidas en el estudio de los humanos, la representación apropiada es la basada en contornos o siluetas, y las aplicaciones pueden aterrizarse en videovigilancia (Haritaogluet al., 2000).

2.1.2 Selección de características para el seguimiento

La selección de las características correctas juega un rol crítico en seguimiento. En general, las propiedades más deseables de una característica visual es su invarianza así pues los objetos pueden ser fácilmente distinguidos en un espacio de características. La selección de caracter-isticas está estrechamente relacionada a la representación del objeto. Por ejemplo, el color es utilizado como característica para la representación de la apariencia basada en histogramas, mientras que en la representación en base a contorno, los contornos del objeto son usualmente utilizados como características. En general, muchos algoritmos de seguimiento utilizan una combinación de esas características. Los detalles de características visuales comunes son las siguientes.

Color: El color aparente de un objeto está influenciado principalmente por dos propiedades físicas, 1) la reflectancia espectral de la iluminación y 2) las propiedades de la superficie reflec-tante del objeto. En el procesamiento de imágenes, el espacio de color RGB3

es usualmente utilizado para la representación de color. Sin embargo, el espacio RGB no es un espacio de color uniforme a la percepción visual humana, esto es, las diferencias entre los colores en el espacio RGB no corresponden a las diferencias de color percibidos por humanos (Paschos, 2001). En contraste, L_∗u_∗v y L_∗a_∗b (espacios de color aceptados por la Comisión Inter-nacional en Iluminación, (CIE)4

) son perceptualmente espacios de color uniformes, mientras HSV5

es un espacio de color aproximadamente uniforme. Sin embargo, esos espacios de color son sensibles al ruido (Song et al., 1996). En resumen, no existe un acuerdo sobre el cual

3

Del inglés: Red Green Blue.

4

Del Francés: Commission Internationale de l’Éclairage.

5

(25)

convenir qué espacio de color es el más eficiente, por lo que se han utilizado una variedad de espacios de color en el problema de seguimiento.

Bordes: Los bordes de los objetos usualmente brindan cambios fuertes en la intensidad de la imagen. La detección de bordes es utilizada para identificar esos cambios. Una propiedad importante de los bordes es que son menos sensibles a los cambios de iluminación comparados con las características de color. Los algoritmos que siguen los límites del objeto usualmente utilizan representación del objeto en base a sus bordes. Debido a su simplicidad y precisión, el mecanismo más popular es el detector de bordes de Canny (Canny, 1986). De esta manera se han presentado trabajos donde se realiza una evaluación de algoritmos de detección de bordes con el objetivo de mostrar las ventajas y las desventajas que presentan (Bowyeret al., 1999).

Flujo óptico: El flujo óptico caracteriza un denso campo de vectores de desplazamiento los cuales definen la traslación de cada pixel en una región. Se calcula utilizando restric-ciones en brillo, esto es, suponen un brillo constante de pixeles correspondientes en marcos consecutivos (Horn y Schunck, 1981). El flujo óptico es comúnmente utilizado como una característica en segmentación basada en movimiento y en aplicaciones de seguimiento. Téc-nicas populares para calcular la densidad de flujo óptico incluyen métodos propuestos por (Lucas y Kanade, 1981), (Black y Anandan, 1996) y (Szeliski y Coughlan, 1994). Para la evaluación del rendimiento de los métodos de flujo óptico referidos es recomendable leer el estudio de (Barron et al., 1992).

Textura: La textura es una medida de la variación de intensidad en una superficie la cual sirve para cuantificar diversas propiedades tales como la suavidad y la regularidad (Yil-maz et al., 2006). Comparado con el color, la textura requiere de una serie de cálculos de procesamiento de imágenes los cuales sirven para generar los descriptores. Existen varios de-scriptores de texturas: matrices de co-ocurrencia en niveles de grises (GLCM’s); la medición de texturas de Law, wavelets, bancos de filtros ortogonales y pirámides dirigibles (Haralick et al., 1973), (Mallat, 1989), (Greenspan et al., 1994). Similar a las características de los

bordes, las características de las texturas son menos sensibles a los cambios de iluminación comparados con el color.

(26)

caracterís-ticas ha recibido una atención significativa por parte de la comunidad de reconocimiento de patrones. Los métodos para la selección automática de características pueden ser divididos en métodos de filtrado y métodos de envolturas (Blum y Langley, 1997). Los métodos de filtrado tratan de seleccionar características basadas en un criterio general; i.e., las características no tienen que ser correlacionadas. El método de envoltura selecciona características basadas en la utilidad de las características en un dominio del problema específico, por ejemplo, el rendimiento de clasificación utilizando un subconjunto de características. PCA es un ejem-plo de los métodos de filtrado para la reducción de características, éste involucra variables no correlacionadas llamadas los componentes principales. Un método de envoltura para la selección de las características discriminatorias utilizadas en la identificación de una clase particular de objetos es el bien conocido algoritmo Adaboost (Tieu y Viola, 2000). Adaboost es un método para encontrar clasificadores fuertes basados en una combinación de clasifi-cadores débiles moderadamente incorrectos. Dado un largo conjunto de características, un clasificador puede ser entrenado por cada característica. Adaboost descubre una combinación ponderada de clasificadores representando características que maximizan el rendimiento en la clasificación del algoritmo. Entre todas las características, el color es la característica más ampliamente utilizada para el seguimiento. A pesar de su popularidad, las bandas de color son más sensibles a las variaciones de iluminación, por lo tanto en escenarios donde este efecto es inevitable se recomienda utilizar otras características. Otros trabajos utilizan car-acterísticas como el flujo óptico para el seguimiento del contorno (Cremers y Schnörr, 2003). En otros trabajos utilizan las respuestas de filtros dirigibles para el seguimiento (Jepson, 2003). Alternativamente, existe trabajos que sostienen que la combinación de características mejoran el rendimiento del seguimiento.

2.1.3 Detección de objetos

(27)

de cambio en marcos consecutivos. Dadas las regiones de objetos en la imagen la tarea del seguidor consiste en tener la relación del objeto correspondiente marco a marco para la formación de la trayectoria de varios marcos. En el artículo (Yilmaz et al., 2006), clasifican en cuatro categorías la detección de objetos, como se muestra en la Tabla 1.

Tabla 1_: Trabajos representativos para la etapa de detección de objetos.

Categorías Trabajo representativo

Detector de puntos Detector de Moravec (Moravec, 1979)

Detector de Harris (Harris y Stephens, 1988)

Detector de puntos de interés (Mikolajczyk y Schmid, 2005), (Olague y Trujillo, 2011)

Segmentación Mean-shift (Comaniciu y Meer, 2002) Corte de grafo (Malik, 2000)

Contornos activos (Paragios y Deriche, 2000) Modelado de fondo Mezcla de Gaussianas (Stauffer y Grimson, 2000)

Eigenfondo (Oliver, 2000)

Flor de pared (Toyama et al., 1999)

Textura de fondo dinámico (Monnet et al., 2003)

Clasificador supervisado Máquina de vector de soporte (Papageorgiou et al., 1998) Redes neuronales (Rowley et al., 1996)

Boosting adaptativo (Viola y Jones, 2003)

Detector de puntos

(28)

de la intensidad es un máximo local en un parche de 12_×12. El detector de Harris calcula las derivadas de primer orden de una imagen, (Ix, Iy) en las direcciones x y y para resaltar las variaciones de intensidad direccional, con lo que calcula una segunda matriz de momento la cual codifica estas variaciones. De esta manera el resultado es evaluado para cada pixel en un vecindario pequeño:

M =

P I2

x P

IxIy P

I2 y

(1) Cualitativamente tanto el detector de Harris y el KLT enfatizan las variaciones de inten-sidad utilizando medidas muy parecidas. En la práctica, ambos métodos encuentran casi los mismos puntos de interés. La única diferencia son los criterios adicionales del KLT que esti-man una distancia espacial predefinida entre los puntos de interés detectados. En teoría, la matriz M es invariante tanto a la rotación como a la traslación. Sin embargo no es invariante a transformaciones afines ni proyectivas. Por lo que con el objetivo de introducir un detector de puntos de interés robusto bajo diferentes transformaciones, Lowe introduce el método SIFT6

el cual está compuesto de cuatro pasos (Lowe, 2004). Primeramente se construye un espacio de escala convolucionando la imagen con filtros Gaussianos en sus respectivas escalas. Las imágenes convolucionadas son utilizadas para generar diferencias de Gaussianas (DoG7

). Los puntos de interés candidatos son entonces seleccionados del mínimo y máximo DoG a través de las escalas. El siguiente paso actualiza la localización de cada candidato interpolando los valores de color utilizando pixeles del vecindario. En el tercer paso, los candidatos de bajo contraste y los que se posicionan a lo largo de los bordes son eliminados. Finalmente a los puntos de interés restantes se les asignan orientaciones basadas en picos en los histogramas de direcciones de gradiente en un vecindario pequeño. El detector SIFT genera un gran número de puntos de interés comparado con otros detectores. Esto es debido a que los diferentes puntos de interés de las distintas escalas de las pirámides son acumulados. Empíricamente se ha mostrado que el detector SIFT identifica más puntos de interés y es más resistente a transformaciones de la imagen por lo que supera a los demás (Mikolajczyk y Schmid, 2005). Existen otros trabajos que utilizan programación genética para sintetizar operadores que mejoran significativamente la estrategia SIFT (Perez y Olague, 2013).

6

Del inglés: Scale Invariant Feature Transformation.

7

(29)

En los últimos años se ha puesto especial interés en el uso de algoritmos evolutivos (AE) para resolver problemas de visión por computadora. Los algoritmos evolutivos son técnicas robustas y flexibles que exploran amplios espacios de búsqueda y brindan soluciones óptimas que normalmente no se encuentran utilizando técnicas convencionales. En particular existen trabajos donde se propone una metodología que sintetiza puntos de interés estableciendo el problema como un problema de optimización multiobjetivo y en el cual utilizan el paradigma de programación genética, los resultados generados brindan soluciones que permiten mejorar el detector SIFT y proponer un gran número de nuevos detectores diseñados especialmente para la tarea de visión (Olague y Trujillo, 2011).

Sustracción de fondo

La detección del objeto puede ser alcanzada construyendo una representación de la escena llamada el modelo de fondo y entonces encontrar desviaciones del modelo para cada marco analizado. Cualquier cambio significativo en una región de la imagen del modelo de fondo sig-nifica un movimiento del objeto. Los pixeles constituyendo las regiones se someten a cambios que son marcados como procesamiento a futuro. Usualmente un algoritmo de componente conectado se aplica para obtener regiones conectadas correspondientes a los objetos, a este proceso se le llama sustracción de fondo.

(30)

de densidad de kernel para modelar el fondo por pixel. Este método lidia con pequeños movimientos del fondo. (Li y Leung, 2002) fusionan las características de color y textura para realizar la extracción de fondo sobre bloques de tamaño 5_×5 puesto que la textura no varía considerablemente a cambios de iluminación el método es menos sensible a esos cambios.

(Toyama et al., 1999) poponen un algoritmo de tres niveles para lidiar con el problema de sustracción de fondo. Ellos utilizan información a nivel de marco y proponen utilizar el filtro de Wiener para la predicción probabilística del color esperado del fondo. Un enfoque alternativo para la sustracción de fondo es representar la intensidad de las variaciones del pixel en una secuencia discreta de imágenes y sus estados correspondientes a eventos en el ambiente. Por ejemplo, para el seguimiento de vehículos en la carretera, los pixeles en las imágenes pueden estar en correspondencia al fondo, el estado del coche, o las sombras. En estudios utilizan modelos ocultos de Markov (HMM8

) para clasificar pequeños bloques de una imagen y su correspondencia a uno de los tres estados (Rittscheret al., 2000). En el contexto de detección de luces encendidas y apagadas en un cuarto utilizan HMMs para la sustracción de fondo (Stenger et al., 2001). En lugar de modelar la variación de pixeles individuales en (Oliver, 2000) se proponen enfoques holísticos utilizando la descomposición de eigen espacios. Este enfoque es menos sensible a la iluminación. Una limitación de los enfoques mencionados es que todos requieren de fondo estático. Esta limitación es tratada por (Monnetet al., 2003) y (Zhong y Sclaroff, 2003). Ambos métodos son aptos para lidiar con la variación del fondo; por ejemplo, olas, nubes en movimiento, escaleras mecánicas, entre otros.

En resumen, muchos métodos en el estado del arte para cámaras fijas como (Haritaoglu et al., 2000) y (Collins et al., 2001) utilizan métodos de sustracción de color para detectar

regiones de interés. Esto es porque los métodos recientes de sustracción tienen la capacidad de modelar los cambios de iluminación, ruido y el movimiento periódico de regiones del fondo y por lo tanto pueden detectar objetos en varias condiciones. En la práctica la sustracción de fondo provee regiones de objetos incompletas en muchos casos, esto es, los objetos pueden ser ubicados en distintas regiones o pueden existir hoyos dentro de los objetos y no existe garantía de que las características del objeto serán distintas a las características del fondo.

(31)

Segmentación.

El objetivo de los algoritmos de segmentación de imágenes es particionar la imagen en sec-ciones perceptualmente similares. Cada algoritmo de segmentación ataca dos problemas, el criterio para una buena partición y el método para el alcance de una alta eficiencia de parti-ción (Malik, 2000). En esta secparti-ción se discuten técnicas recientes que son relevantes para el seguimiento de objetos.

Agrupación Mean-Shift. Para el problema de segmentación, (Comaniciu y Meer, 2002) proponen el enfoque de corrimiento hacia la media para encontrar montículos en el espacio de color y uniones espaciales,[l, u, v, x, y], donde[l, u, v], representan el color y[x, y]representan la localización espacial. Una agrupación resultante del algoritmo es escalable a varias otras aplicaciones tales como la detección de bordes, la regularización de imágenes y el seguimiento; (Comaniciu y Meer, 2002) y (Comaniciu et al., 2003).

Segmentación de imágenes utilizando cortes de grafos. La segmentación de imágenes puede además ser formulada como un problema de particionamiento de grafos, donde los vértices (pixeles), V = u, v, ..., de un grafo (imagen) G, está particionada en N subgrafos disconjuntos (regiones). Hay estudios que utilizaron el criterio mínimo de corte donde el objetivo era encontrar las particiones que minimicen el corte (Wu y Leahy, 1993). Otros pro-ponen el corte normalizado para superar el problema de la sobre segmentación (Malik, 2000). En la segmentación basada en cortes normalizados, la solución al eigensistema generalizado para imágenes grandes puede ser caro en términos de memoria y procesamiento computa-cional. Sin embargo, este método requiere menos parámetros de selección comparados con la segmentación del método de corrimiento hacia la media. Los cortes normalizados han sido además utilizados en el contexto de seguimiento de contorno de objetos (Xu y Ahuja, 2002). Contornos activos. En un marco conceptual el paradigma de contornos activos, la seg-mentación de objetos se alcanza envolviendo un contorno en los límites del objeto; de tal forma que el contorno encierre estrechamente la región del objeto. La evolución del contorno es gobernada por una energía funcional, la cual ajusta la forma del contorno a la hipotética región del objeto.

(32)

característi-cas globales incluyen color (Zhuet al., 1995), (Yilmazet al., 2004), (Ronfard, 1994) y textura (Paragios y Deriche, 2000). Distintas investigaciones han utilizado distintos términos de en-ergía en la ecuación general. En 1997 (Caselleset al., 1997) excluye un parámetro utilizando únicamente el gradiente de la imagen como la energía de la misma. Sin embargo, el gradiente de la imagen provee la información local y es sensible a caer en el mínimo local. Para superar el problema, investigadores introdujeron el término de energía en base a la región (Zhuet al., 1995). Recientemente, métodos que combinan la energía de la imagen basada en regiones o en gradiente se han hecho populares (Paragios y Deriche, 2000). Un error importante en los métodos basados en contorno es la inicialización del contorno. En enfoques basados en el gradiente de la imagen, un contorno es típicamente colocado fuera de la región del objeto y reducida hasta que el límite del objeto es encontrado (Kass et al., 1988), (Caselles et al., 1997). Sin embargo, existen soluciones en las cuales el contorno puede expandirse o reducirse hasta llenar el límite del objeto. Sin embargo, esos enfoques requieren conocimiento a pri-ori del fondo o del objeto en sí (Paragios y Deriche, 2000), utilizando múltiples marcos o un marco de referencia, la inicialización puede ser realizada sin construir regiones a priori. Por ejemplo, en (Paragios y Deriche, 1999), los autores utilizan la sustracción de fondo para inicializar el contorno.

Aprendizaje supervisado

(33)

El coentrenamiento ha sido exitosamente utilizado para reducir la cantidad de interacción manual requerida para el entrenamiento en el contexto de adaboost (Levinet al., 2003) y las máquinas de soporte vectorial (Kockelkorn et al., 2003).

El boosting adaptativo es un método iterativo para encontrar un buen clasificador com-binando varios clasificadores, donde la precisión de cada clasificador es moderada (Freund y Schapire, 1997). En otros trabajos se ha demostrado experimentalmente su aplicación, por ejemplo para la detección de peatones con adaboost (Levin et al., 2003).

Máquinas de vectores de soporte. Como un clasificador, las máquinas de vectores de so-porte (SVM9

) son utilizadas para acumular datos en clases encontrando el máximo hiperplano óptimo que separe unas clases de otras (Boseret al., 1992). A pesar de ser un clasificador lin-eal, la SVM puede además de ser utilizado como un clasificador no lineal aplicando pequeños trucos en el kernel que define el vector de características de extracción en la entrada. En este contexto existen trabajos que utilizaron la SVM para la detección de peatones y rostros en imágenes (Papageorgiou et al., 1998).

2.1.4 Seguimiento del objeto

El objetivo de un algoritmo de seguimiento de objetos es estimar la trayectoria de un ob-jeto sobre el tiempo localizando su posición en cada marco del video. El algoritmo debe además proveer la región completa en la imagen que es ocupada por el objeto a cada instante de tiempo. El modelo seleccionado para representar la forma del objeto limita el tipo de movimiento en base a su deformación. Por ejemplo, si un objeto es representado como un punto, entonces solamente se puede utilizar un modelo traslacional. En la Tabla 2 se pre-senta una lista de trabajos reprepre-sentativos divididos en categorías de acuerdo a los métodos utilizados en el seguimiento de objetos.

De esta manera se introducen brevemente las principales categorías de seguimiento y se explican además brevemente, trabajos que han contribuido al mejoramiento de diversas técnicas para la estimación de la trayectoria en base a la Tabla2.

9

(34)

Tabla 2_: Categorías de seguimiento y su trabajo representativo.

Categorías Trabajo representativo

Seguimiento por puntos

Métodos determinísticos Seguidor MGE (Salari y Sethi, 1990), Seguidor GOA (Veenman, 2001). Métodos estadísticos

Filtro de Kalman (Broida y Chellappa, 1986), JPDAF (Bar-Shalom y Fortmann, 1987),

PMHT (Streit y Luginbuhl, 1994). Seguimiento por kernel

Modelos de apariencia basados en plantillas y densidad.

Mean-shift (Comaniciuet al., 2003), KLT (Shi y Tomasi, 1994), Estratificado (Tao et al., 2002).

Modelos de apariencia multivista. Eigenseguimiento (Black y Jepson, 1998), Seguimiento con SVM (Avidan, 2004). Seguimiento por silueta

Evolución de contorno

Modelos de estado espacio (Isard y Blake, 1998), Métodos variacionales (Bertalmioet al., 2000),

Métodos heurísticos (Ronfard, 1994). Coincidencia de forma

Hausdorf (Huttenlocher et al., 1993), Transformada de Hough (Sato y Aggarwal, 2004),

Histograma (Cohen y Medioni, 2003).

Seguimiento por puntos

(35)

(Salari y Sethi, 1990). Otros proponen un enfoque voraz, el cual está limitado por uniformi-dad próxima (Rangarajan y Shah, 1991). Las correspondencias iniciales se determinan con el flujo óptico en los primeros dos marcos, sin embargo, este método no contempla objetos que entren y salgan de la escena fotografiada. En el trabajo de (Intilleet al., 1997) el cual utiliza una versión ligeramente modificada de (Rangarajan y Shah, 1991) para la correspondencia de centroides de objetos, los objetos son detectados utilizando sustracción de fondo. (Veenman, 2001) extienden el trabajo de (Sethi y Jain, 1987) y (Rangarajan y Shah, 1991) introduciendo la restricción de movimiento común para la correspondencia. En el trabajo de (Shafique y Shah, 2005) proponen un enfoque multimarco para preservar la coherencia temporal de la velocidad y posición. Ellos formulan la correspondencia como un problema teórico de grafos. Por otro lado, los métodos estadísticos para la correspondencia de puntos resuelven prob-lemas enfocados al ruido en el movimiento, i.e., objetos que tengan perturbaciones, como el caso de la maniobra de vehículos. Por otro lado, existen métodos que son utilizados ampliamente para el seguimiento de contornos (Isard y Blake, 1998), reconocimiento activo (Vaswaniet al., 2003), identificación de objetos (Zhouet al., 2004) y estructura y movimiento (Matthieset al., 1989). La estimación de la trayectoria de un simple objeto, dondef(t)yh(t)

son funciones lineales y los estados iniciales X1 y el ruido tiene una distribución Gaussiana.

Entonces, el estado óptimo puede estimarse por el filtro de Kalman. En términos generales, el estado del objeto no se supone como Gaussiano y la estimación puede ser implementada utilizando filtros de partículas (Kitagawa, 1987).

Filtro de Kalman. Un filtro de Kalman es utilizado para estimar el estado de un sistema lineal donde el estado supone una distribución Gaussiana. El filtrado de Kalman está com-puesto de dos pasos, la predicción y la corrección. El paso de la predicción utiliza el estado del modelo para predecir el nuevo estado de las variables.

Xt =DXt−1₊_W_Σt ₌_D_Σt−1_D₊_Qt _, (2)

dondeXty Σt son los estados y la covarianza de la predicción en un tiempot. _Des la matriz

de transición de estados que define la relación entre las variables de estado en los tiempost

y t₋1. Q es la covarianza del ruido W. Similarmente, en el paso de corrección se utiliza la

(36)

Xt₌_Xt₊_Kt_,_[

Zt−MXt]

| {z }

v

Σt_{= Σ}t

−Kt

MΣt , (3)

donde v es llamada la innovación, M es la matriz de medida y K es la ganancia de

Kalman. Note que el estado actualizado Xt es distribuido de forma Gaussiana. En caso de

que las funciones f(t) y h(t) sean no lineales, pueden ser linearizadas utilizando la serie de Taylor para obtener el filtro de Kalman extendido (Bar-Shalom y Fortmann, 1987). Similar al filtro de Kalman, el filtro de Kalman extendido supone que el estado es distribuido por una Gaussiana. El filtro de Kalman ha sido extensamente utilizado por la comunidad de visión por computadora para el seguimiento de objetos. Se ha utilizado el filtro a fin de seguir puntos en imágenes difusas (Broida y Chellappa, 1986). En seguimiento con cámaras de visión estéreo (Beymer y Konolige, 1999) utilizan el filtro de Kalman para la predicción de la posición del objeto y la velocidad en el plano(x, y, z). (Rosales y Sclaroff, 1999) utilizan el filtro de Kalman extendido para estimar la trayectoria 3D de un objeto de movimiento 2D.

Filtro de partículas. Una limitación del filtro de Kalman es la suposición de que el estado de las variables están distribuidas por una Gaussiana. Así, el filtro de Kalman brinda información pobre cuando no se considera una distribución Gaussiana. Esta limitación se ataca en el trabajo de (Kitagawa, 1987).

Cuando se pretenden seguir múltiples objetos utilizando el filtro de Kalman o filtro de partículas, se necesita asociar determinísticamente la medida más acorde para un objeto en particular de acuerdo al estado del objeto. En este caso el problema de correspondencia necesita ser resuelto antes de aplicar dichos filtros. El método más simple para lograr la correspondencia es utilizando el enfoque del vecino más cercano. Una revisión detallada de esas técnicas puede ser encontrada en el libro de (Bar-Shalom y Fortmann, 1987) o en el estudio de (Cox, 1993).

Seguimiento por Kernel

(37)

la imagen (Birchfield, 1998) pueden ser utilizados como características. Una limitación de la correspondencia de kernels es su costo computacional debido a la búsqueda por fuerza bruta. Para reducir el tiempo computacional, los investigadores limitan la búsqueda del ob-jeto en el vecindario de su posición previa. y se han propuesto muchos algoritmos eficientes (Schweitzer et al., 2006). De esta manera existen propuestas que generan modelos de obje-tos definiendo el color medio de los pixeles contenidos en una región rectangular (Fieguth y Terzopoulos, 1997). Otras propuestas utilizan un histograma ponderado calculado de una región circular para representar el objeto (Comaniciuet al., 2003). Otro enfoque para seguir una región definida por una forma primitiva, es calculando su traslación utilizando el método del flujo óptico. Este cálculo sencillo es llevado a cabo en el vecindario del pixel, algebraica o geométricamente (Lucas y Kanade, 1981), (Horn y Schunck, 1981).

En otros estudios proponen un método para el seguimiento de múltiples objetos basado en el modelado de toda la imagen, I(x, y), como un conjunto de capas (Tao et al., 2002). Otros proponen una modelización conjunta de las regiones de fondo y el primer plano para seguimiento (Isard y MacCormick, 2001).

Hablando de seguimiento de modelos de apariencia multivistas. En 1998 se propuso un enfoque de subespacio basándose en el eigenespacio para calcular la transformación afín de la imagen actual del objeto a la imagen reconstruida a partir de los eigenvectores (Black y Jepson, 1998). Este enfoque permite distorsiones en plantillas donde la distorsión es causada por los cambios de iluminación en las imágenes. En esta línea existen, trabajos donde uti-lizaron una máquina de vectores de soporte (SVM) como clasificador para realizar de una forma más eficiente el seguimiento (Avidan, 2004).

Seguimiento de silueta

(38)

tipo de problemas.

El primer problema que se debe de resolver es la coincidencia de la silueta. Se han realizado propuestas de seguimiento coincidencia de forma utilizando representación basada en bordes (Huttenlocher et al., 1993). De manera similar, también se propone un enfoque que utiliza la distancia Hausdorff para la verificación de las trayectorias y el problema de estimación de la posición (Li y Chellappa, 2001). En (Cohen y Medioni, 2003) se utilizaron histogramas de color y bordes como modelos para objetos, de tal suerte que la diferencia entre los demás modelos propuestos es que estos proponen generar histogramas desde círculos concéntricos con varios radios definidos a partir de un conjunto de puntos de control de acuerdo a una referencia cíclica. En otro trabajo se modela la apariencia del objeto de acuerdo a la información de los bordes obtenida dentro de la silueta (Haritaogluet al., 2000). En particular, el modelo de los bordes es utilizado para refinar la traslación del objeto utilizando la suposición de velocidad constante.

En un estudio definen el estado del objeto a través de la dinámica de los puntos de control los cuales son modelados en términos de un modelo spring, el cual mueve los puntos de control basándose en parámetros de rigidez (Terzopoulos y Szeliski, 1993). El nuevo estado del contorno es predicho utilizando filtros de Kalman. En el 2000, algunos investigadores extendieron el filtro basado en partículas descrito en (Isard y Blake, 1998) para el seguimiento de múltiples objetos incluyendo el principio de exclusión para el manejo de oclusiones (Isard y MacCormick, 2001). Por otro lado, se propone un seguidor de contorno donde éste es parametrizado como una elipse (Huang, 2001). De esta forma, cada nodo de contorno tiene asociado un modelo de Markov y los estados de éstos están definidos por los puntos detectados a lo largo de las líneas normales al punto de control de contorno. Dicho método es estimado utilizando el algoritmo propuesto en (Viterbi, 1967).

(39)

flujo óptico para cada pixel de la región del objeto de interés. Sin embargo, en dicho trabajo se utiliza un mecanismo de búsqueda por fuerza bruta. En (Cremers y Schnörr, 2003) además se utilizó el flujo óptico para estimar la evolución del contorno por lo que restringieron su aplicación de tal forma que un objeto puede ser definido únicamente a través de vectores de flujo homogéneos dentro de la región de estudio.

El seguimiento de silueta es empleado cuando se requiere estimar la trayectoria de una región completa de un objeto. En el contexto del seguimiento de región, la precisión y las medidas de recuperación son definidas en términos de intersección del área hipotética, así como de las regiones correctas del objeto cuya precisión se define por el radio de intersección. La ventaja más importante del seguimiento de siluetas es su flexibilidad para manejar una larga variedad de formas puesto que las siluetas pueden ser representadas de formas muy variadas.

2.1.5 Discusión

Se ha realizado progreso significante en términos de seguimiento de objetos durante los úl-timos años. Diversos seguidores robustos han sido desarrollados los cuales pueden seguir objetos en tiempo real en escenarios simples. Sin embargo, está claro que a partir del es-tado del arte estudiado existen bastantes deficiencias con respecto a las suposiciones que se realizan; como por ejemplo: la luminosidad, la suavidad, la velocidad, el alto contraste con respecto al fondo, entre otros. Esto limita el trabajo de diseño de una solución en particu-lar del problema de seguimiento, de tal suerte que sea generalizable para varios problemas considerando diversos escenarios. En general se cree que diversas fuentes de información adicionales, en particular información a priori e información contextual, deberían de ser ex-plotadas cuando sea posible para adaptar el seguidor al escenario en el cual desempeñará su trabajo. Un enfoque principal para integrar esas fuentes de información impactará en el desarrollo de un algoritmo de seguimiento general que pueda ser implementado con éxito en diversos dominios de aplicación.

2.2 Estudios sobre el funcionamiento del cerebro

(40)

se ha mostrado interesada en descubrir a profundidad todos los mecanismos involucrados en el desarrollo de las acciones del cuerpo humano, sin embargo, a pesar de que se trabaja ampliamente en el discernimiento de las funciones cerebrales, por ahora no se sabe exacta-mente cómo es que un órgano que solaexacta-mente abarca una pequeña parte del organismo ha evolucionado para llevar a cabo desde las funciones más sencillas pero vitales, hasta aquellas acciones que requieren mucho más procesamiento cerebral. Así, se sabe que para sintetizar y consolidar dichos procesos existentes han tenido que transcurrir millones de años (Olague et al., 2014).

Diversas comunidades científicas se han interesado en el estudio del órgano maestro en-tre ellas la psicología, la neurología, las ciencias cognitivas, la filosofía, la psiquiatría, la cibernética y las ciencias computacionales, por mencionar algunas (Olague et al., 2014). El estudio de la corteza visual constituye el gran reto de la ciencia en los próximos siglos, pues representa develar los misterios de nuestra humanidad; es decir, la actividad de la corteza cerebral está relacionada con las capacidades que distinguen al hombre de otros mamíferos. De esta forma, se piensa que gracias al notable desarrollo y evolución del cerebro, el ser humano es capaz de realizar tareas tan sumamente complicadas como escribir un libro, com-poner una sinfonía o inventar la computadora.

Puntualmente, en las ciencias computacionales y más aún en el campo de la inteligencia artificial se ha mostrado una gran actividad en el estudio del cerebro. El objetivo es simple, conocer cómo el cerebro lleva a cabo sus funciones naturales que parecen ser ejecutadas de una manera extremadamente simple en el cuerpo humano, y cómo a partir de éste entendimiento del funcionamiento del cerebro se puede coadyuvar a la emulación de actividades propias del ser humano en sistemas mecánicos. Dentro de la inteligencia artificial la visión por computadora se ha enfocado en el estudio de un área del cerebro en particular, la corteza visual, cuyo objetivo está ligado a explicar el fenómeno de la percepción visual.

El estudio de dicha área cerebral es un interés contemporáneo. David Marr, un neuro-científico inglés deja en su libro visión preguntas abiertas a la comunidad y define un marco conceptual basado en el estudio fisiológico cuyo enfoque es el más prometedor, puesto que la visión por computadora ha brindado avances significativos en un lapso corto de tiempo (Marr, 1982).