Evolución de una ruta dorsal artificial utilizando programación cerebral para la atención visualBrain programming for the evolution of an artificial dorsal stream

(1)

Le´

on Felipe Dozal Garc´ıa

y aprobada por el siguiente comit´e

Dr. Gustavo Olague Caballero Director del Comit´e

Dr. Hugo Homero Hidalgo Silva Miembro del Comit´e

Dr. Chernykh Andrey Miembro del Comit´e

Dr. Leonardo Trujillo Miembro del Comit´e

Dra. Ana Isabel Mart´ınez Garc´ıa Coordinador

Posgrado en Ciencias de la Computaci´on

Dr. Jes´us Favela Vara Director

Direcci´on de Estudios de Posgrado

(2)

EDUCACI ´

ON SUPERIOR DE

ENSENADA, BAJA CALIFORNIA

MR

Programa de Posgrado en Ciencias

en Ciencias de la Computaci´on

Evolución de una ruta dorsal artificial utilizando programación cerebral para la atención visual.

Tesis

para cubrir parcialmente los requisitos necesarios para obtener el grado de

Doctor en Ciencias

Presenta:

Le´on Felipe Dozal Garc´ıa

(3)

Resumen de la tesis de León Felipe Dozal Garc´ıa, presentada como requisito parcial para la obtención del grado de Doctor en Ciencias en Ciencias de la Computación.

Evolución de una ruta dorsal artificial utilizando programación cerebral para la atención visual.

Resumen aprobado por:

Dr. Gustavo Olague Caballero

Director de Tesis

Este trabajo describe la aplicación de una nueva estrategia llamada Programación Cere-bral para la automatización del diseño de soluciones para tareas de atención visual. En particular, la atención visual es conciderada como un factor cr´ıtico cuyo principal meta es diseñar una relación entre diferentes propiedades-caracter´ısticas de la escena con el objeto de seleccionar el aspecto más adecuado para la tarea en cuestión. Este estudio, sigue una tendencia en computación cognitica donde la ruta visual es modelada a través de niveles suce-sivos o capas; la tarea de atención visual se basa en la idea de que varias áreas del cerebro están a cargo de dicha funcionalidad de una manera jerárquica. De este modo, proponemos un proceso artificial, que emula su contraparte natural, y búsca estas operaciones complejas en términos de un proceso de optimización/búsqueda, el cual es capaz de proveer las mejores soluciones en el espacio de posibles programas de atención visual para un problema dado.

Los resultados obtenidos sobre un banco de pruebas bien conocido confirman que la propuesta es capaz de diseñar automáticamente programas de atención visual que superan diseños anteriores hechos a mano por expertos en la atención visual, mientras que provee resultados legibles a través de un conjunto de esructuras matemáticas y computacionales.

(4)

Abstract of the thesis presented by Le´on Felipe Dozal Garc´ıa, in partial fulfillment of the requirements of the degree of Doctor in Sciences in Computer Science.

Brain Programming for the Evolution of an Artificial Dorsal Stream

Abstract approved by:

Dr. Gustavo Olague Caballero

Thesis Director

This work describes the application of a new strategy called Brain Programming for automating the design of visual attention tasks. In particular, visual attention is considered as a critical factor whose main goal is to design a relationship between the different properties-features of the scene with the aim of selecting the most suitable aspect for the task at hand. In this study, following a main trend in cognitive computation where the visual pathway is modeled through successive levels or layers; the visual attention task is defined with the idea that several tissues of the brain are in charge of such functionality in a hierarchical way. Thus, we propose that an artificial process, mimicking the natural counterpart, can look for these complex operations in terms of an optimization/search process, which is able to provide the best solutions among the space of possible visual attention programs for a given problem. The results obtained on a well-known test bed confirm that the proposal is able to au-tomatically design visual attention programs that outperform previous man-made designs developed by visual attention experts, while providing readable results through a set of mathematical and computational structures.

(5)

Dedicado a mis padres

Clara Luz Garc´ıa Sagarnaga

y

(6)

Agradecimientos

Quiero agradecer muy especialmente a mis padres Clara Luz Garc´ıa Sagarnaga y Hugo Dozal Aguayo, por su gran e incesable apoyo, no solo durante la realización de este trabajo, sino durante toda mi vida. Es su constante presencia la que me inspira a seguir trabajando y avanzando. A mi hermana Tania y a mi cuñado Juan Carlos porque siempre tienen sonrisas y palabras de aliento para m´ı, y por toda la ayuda incondicional que me han brindado. A mi sobrina Mar´ıa Elisa que se ha convertido en una gran fuente de aprendizaje e inspiración. A mi abuelita Socorro por su amor, ayuda y ejemplo de fortaleza. A mi t´ıa Ana por todo su cariño y apoyo. A todos mis t´ıos y t´ıas por toda su ayuda.

Además quiero agradecer a mi tutor el Dr. Gustavo Olague por haberme guiado y enseñado durante el doctorado y a mis compañeros Eddie Clemente y Daniel Hernandez por todas sus aportaciones y comentarios.

A mi comit´e de tesis formado por el Dr. Hugo Homero Hidalgo Silva, el Dr. Andrey Chernykh y el Dr. Leonardo Trujillo Reyes.

Al Centro de Investigaci´on Cient´ıfica y de Educaci´on Superior de Ensenada.

(7)

Contenido

P´agina

Resumen en espa˜nol ii

Resumen en ingl´es iii

Dedicatoria iv

Agradecimientos v

Lista de figuras viii

Lista de tablas xii

1 Introducci´on 1

1.1 Motivaci´on . . . 1

1.1.1 Motivaci´on biol´ogica . . . 1

1.1.2 Motivaci´on computacional . . . 4

1.2 Alcance . . . 4

1.3 Contribuciones . . . 6

1.4 Organizaci´on del documento . . . 7

2 Fundamentos teóricos de la atención visual 8 2.1 Conceptos básicos de atención visual . . . 8

2.1.1 ¿Qu´e es la atenci´on visual? . . . 8

2.1.2 “Bottom-up” y “top-down” . . . 10

2.1.3 B´usqueda visual . . . 11

2.2 Consideraciones neurol´ogicas de la atenci´on visual . . . 12

2.2.1 El ojo . . . 12

2.2.2 Quiasma ´optico . . . 13

2.2.3 Corteza visual primaria . . . 14

2.2.4 Rutas visuales . . . 15

2.3 Modelos psicof´ısicos de atenci´on visual . . . 16

2.3.1 Teor´ıa de integraci´on de caracter´ısticas de Treisman . . . 17

2.3.2 Modelo de b´usqueda guiada . . . 18

2.3.3 Competici´on neuronal para la atenci´on visual selectiva . . . 19

2.4 Términos biológico-computacionales para la atención visual . . . 21

2.4.1 Mapas de caracter´ısticas . . . 21

2.4.2 Mecanismo centro-circundante . . . 22

2.4.3 Mapa de sobresaliencia . . . 22

2.4.4 “Bottom-up” y “top-down” . . . 23

2.5 Conclusi´on . . . 24

3 Trabajo relacionado y estado del arte de los modelos computacionales de atenci´on visual 25 3.1 Modelos computacionales de la atenci´on visual . . . 25

3.1.1 Modelo de atenci´on de Koch y Ullman . . . 26

(8)

P´agina

3.1.3 Otros modelos computacionales de atenci´on visual . . . 33

3.2 Conclusi´on . . . 36

4 Evoluci´on de la ruta dorsal artificial 38 4.1 Modelo de la Ruta Dorsal Artificial . . . 38

4.1.1 Adquisici´on de caracter´ısticas visuales y mapas visuales . . . 38

4.2 Algoritmo de Programaci´on Cerebral . . . 44

4.2.1 Representaci´on Gen´etica de la RDA . . . 45

4.2.2 Medida F como Funci´on de Aptitud . . . 48

4.2.3 Operaciones Gen´eticas . . . 52

4.3 Problema de Atenci´on “Top-down” . . . 55

4.3.1 Base de datos de im´agenes . . . 56

4.3.2 Experimentos y resultados . . . 56

4.4 Problema de atenci´on “bottom-Up” . . . 78

4.4.1 Base de datos de im´agenes . . . 79

4.4.2 Correlaci´on como funci´on de aptitud . . . 79

4.4.3 Dimensi´on de Forma . . . 81

4.4.4 Funciones con Constantes . . . 82

4.4.5 Experimentos y Resultados . . . 83

4.4.6 Evoluci´on de RDAs para apuntar la novedad en la escena . . . . 83

5 Concluciones y trabajo futuro 94 5.1 Conclusi´on . . . 94

(9)

Lista de figuras

Figura P´agina

1 Campos receptivos de las c´elulas ganglionares. a) Campo receptivo con centro encendido o on-center. b) Campo receptivo con centro apagado o off-center. 13 2 Cuatro campos receptivos t´ıpicos de las c´elulas simples. El est´ımulo efectivo

para estos campos son: a) y b) un borde claro-oscuro que cae en el l´ımite entre las regiones exitatoria (+) e inhibitoria (-). c) una hendidura de luz cubriendo la región exitatoria, y d) una l´ınea obscura cubriendo la región inhibitoria. . 15 3 Ruta dorsal o “Dónde”y ruta ventral o “Qué” . . . 16 4 Diagrama del modelo de la teor´ıa de integración de caracter´ısticas. . . 17 5 Modelo de atención biológicamente plausible. . . 28 6 La figura ilustra la correspondencia que existe entre las áreas de la ruta dorsal

y las etapas del modelo artificial. La idea es emular las transformaciones que sufre la imagen de entrada a lo largo de la ruta de la atenci´on visual. . . 39 7 Este diagrama de flujo muestra el esquema de la ruta dorsal artificial. . . 40 8 Esta figura ilustra la analog´ıa entre el sistema natural y el artificial. La idea

se basa en la evolución de varios operadores matemáticos, inmersos o encap-sulados dentro de la ruta dorsal artificial, los cuales emulan el funcionamiento de áreas cerebrales espec´ıficas y que forman parte de lo que llamamos progra-mación cerebral. . . 46 9 Ejemplo de la representación de un genotipo. . . 46 10 Diagrama de flujo del algoritmo de Programación Cerebral. . . 49 11 Este diagrama ilustra las regiones en la imagen que se utilizan para calcular

las variables de precisión y cobertura. . . 51 12 Esquemas que ilustran las operaciones de mutación a nivel cromosómico y génico. 53 13 Esquemas que ilustran las operaciones de cruzamiento a nivel cromosómico y

g´enico. . . 54 14 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la

(10)

Figura P´agina 15 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para

la base de datos del “Triángulo de Advertencia”: 1) gráfica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) enseña la diversidad de la población dada por el porcentaje de singularidad de los operadores OV E y

ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y

ICE basada en la cantidad de nodos y su profundidad, respectivamente. . . 59 16 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la

base de datos de “Señales de Tráfico”: 1) gráfica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) enseña la diversidad de la población dada por el porcentaje de singularidad de los operadores OV E y ICE, as´ı como por la distancia Euclidiana entre los individuos de la población. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y ICE

basada en la cantidad de nodos y su profundidad, respectivamente. . . 60 17 Estas gr´aficas muestran la tasa de detecciones falsas para los mejores

individ-uos a lo largo de las 30 ejecuciones. . . 64 18 Estas gr´aficas muestran las estad´ısticas de la frecuencia de uso de las funciones

y terminales, obtenida de los mejores individuos a lo largo de 30 ejecuciones. 66 19 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del

mejor individuo RDAC14, el cual enfoca correctamente la lata roja en la base

de im´agenes. . . 71 20 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del

mejor individuo RDAT26, el cual enfoca correctamente el tri´angulo de

adver-tencia en la base de im´agenes. . . 72 21 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del

mejor individuo RDAT S22, el cual enfoca correctamente la se˜nal de tr´afico en

la base de im´agenes. . . 74 22 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la

(11)

Figura P´agina 23 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para

la base de datos de la “Triángulo de Advertencia”: 1) gráfica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) enseña la diversidad de la población dada por el porcentaje de singularidad de los operadores OV E y

ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y

ICE basada en la cantidad de nodos y su profundidad, respectivamente. . . 76 24 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la

base de datos de la “Señales de Tráfico”: 1) gráfica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) enseña la diversidad de la población dada por el porcentaje de singularidad de los operadores OV E y ICE, as´ı como por la distancia Euclidiana entre los individuos de la población. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y ICE

basada en la cantidad de nodos y su profundidad, respectivamente. . . 77 25 Procedimiento de correlaci´on. . . 80 26 Prueba de novedad con imagen “bottom-up”. Esta figura muestra la mejor

RDA que fue evolucionada con PC para atender el tri´angulo. . . 84 27 Conjunto de entrenamiento de im´agenes usado por la PC para obtener una

RDA para la atención de la novedad de tamaño. . . 85 28 Estad´ısticas de la Programación Cerebral a lo largo de la ejecución de 9

exper-imentos para la búsqueda de la novedad de tamaño. a) El gráfico de aptitud muestra la aptitud promedio, mediana y la mejor aptitud, b) La diversidad de la población muestra el porcentaje de unicidad de los operadores OV Es

y ICE as´ı como la distancia Euclideana entre los individuos de la poblaci´on, c) y d) Muestran la complejidad de la estructura de los operadores OV Es y

ICE basados en el n´umero de nodos y niveles respectivamente. . . 86 29 Resultados de la mejorRDAtamano˜ obtenida despu´es de 9 ejecuciones durante

la etapa de prueba. . . 87 30 Ejemplo de la funcionalidad de la mejor RDAtamano˜ aplicada sobre una imagen. 88

31 Conjunto de im´agenes de entrenamiento usado por la PC para obtener una

RDA para la atención de la novedad de ausencia. . . 89 32 Estad´ısticas de la Programación Cerebral durante la ejecución de 10

experi-mentos para la búsqueda de espacios vac´ıos. a) La gráfica de la aptitud muestra la mejor aptitud y la aptitud media y mediana, b) la diversidad de la población muestra el porcentaje de unicidad de los operadores OV Es y ICE as´ı como la distancia Euclideana entre las aptitudes de los individuos de la población, c) y d) muestran la complejidad de la estructura de los operadores OV Es y

(12)

Figura P´agina 33 Resultados de la mejor RDAausencia a lo largo de 10 ejecuciones durante la

(13)

Lista de tablas

Tabla P´agina

1 Funciones FO y terminales TO aplicadas con el operador evolucionado

OV EO. . . 47

2 Funciones FC y terminales TC utilizados por el operador evolucionado

OV EC . . . 48

3 Funciones FIC y terminales TIC utilizadas por el operador ICE. . . 48

4 Valores iniciales para el algoritmo de PC . . . 55 5 Esta tabla muestra la tasa de detecciones falsas ocurridas antes de

en-contrar el objetivo (media ±desviación estándar). . . 62 6 Estas tablas muestran la selección de 6 de las 30 mejoresRDAC

clasifi-cadas de acuerdo a su informaci´on estructural. . . 67 7 Estas tablas muestran la selecci´on de 6 de las 30 mejoresRDAT

clasifi-cadas de acuerdo a su informaci´on estructural. . . 68 8 Estas tablas muestran la selecci´on de 4 de las 30 mejoresRDAT S

clasi-ficadas de acuerdo a su informaci´on estructural. . . 69 9 Esta tabla muestra la mejorRDAT S obtenida durante los experimentos

de la primera y segunda fase. . . 78 10 Estas tablas muestran una selecci´on de individuos que son iguales o

similares a las soluciones mostradas en las Tablas 6, 7 y 8. . . 78 11 Conjunto de funciones FF y terminales TF utilizadas por el operador

EV OF. . . 82

12 Conjunto de funciones Fk con un operando constante k y que son

uti-lizadas por los operadores OV EO,OV EC, OV EF y ICE. . . 83

13 Esta Tabla muestra la mejorRDAT ri´angulo obtenida durante los

experi-mentos. . . 84 14 Esta tabla muestra la mejor RDAtama˜no obtenida durante los

experi-mentos. . . 87 15 Esta tabla muestra la mejor RDAausencia obtenida durante los

(14)

1.1 Motivaci´on

La presente investigación trata de un mecanismo biológico conocido como atención visual, este mecanismo ha sido objeto de interés para los cient´ıficos dentro del área de la visión por computadora ya que la atención visual, computacionalmente hablando, podr´ıa reducir considerablemente la dificultad de tareas como el reconocimiento de objetos. En el ámbito de las ciencias computacionales, el estudio de la atención visual se vuelve multidisciplinario debido a las concideraciones biológicas y computacionales que abarca. Por esta razón, la motivación de este estudio proviene de diferentes disciplinas. A continuación se presentan las dos principales corrientes que motivarón este trabajo.

1.1.1 Motivaci´on biol´ogica

En el pasado, la idea de que los observadores humanos constru´ıan una representación com-pleta de su campo visual, estaba ampliamente extendida (Feldman, 1985; Trehub, 1991). Esta creencia ha sido ampliamente refutada por una gran cantidad de investigación. La atención visual es sin lugar a dudas una de los más importantes mecanismos en el sistema visual, porque el cerebro, o las áreas visuales corticales, no son capaces de procesar toda la información presente en el campo visual entero. Existen dos fenómenos básicos que de-finen el problema de atención visual. El primer fenómeno básico es la limitada capacidad del cerebro para procesar la información visual. En un momento dado, sólo una pequeña cantidad de información disponible en la retina puede ser procesada y utilizada en el control del comportamiento. El segundo fenómeno básico es la selectividad, la habilidad de filtrar información no necesaria o indeseable y enfocar aquella que es útil o requerida (Desimone y Duncan, 1995).

(15)

Con respecto al procesamiento de la información visual, existen mecanismos de bajo nivel para la extracción de caracter´ısticas que actuan en paralelo sobre el campo visual entero para proveer los est´ımulos “bottom-up” de lo más destacado en la escena. Después, la atención se enfoca secuencialmente en las áreas sobresalientes de la imagen para analizarlas con más detalle (Treisman y Gelade, 1980; Koch y Ullman, 1985). Julesz (1984) ha mostrado en sus estudios de discriminadores de texturas, que sólo un conjunto limitado de caracter´ısticas elementales, llamadas textones, puede ser detectado en paralelo. Dichas caracter´ısticas que pueden ser detectadas en paralelo son el color, la orientación de bordes y ciertos parámetros de forma como la curvatura, entre otras.

Un problema surge de la detección de diferentes caracter´ısticas, y es la combinación de dichas caracter´ısticas, tales como el color y la orientación, en un sola representación de sobre-saliencia. Esto se vuelve complejo porque las caracter´ısticas provienen de diferentes modali-dades visuales. La complejidad se incrementa cuando se observa a un objeto en particular y es necesario filtrar información para enfatizar las caracter´ısticas del objeto deseado.

Para un posterior análisis de la información visual, como es el reconocimiento de objetos o la realización de actividades visuomotoras, es necesario enfocar la atención sobre una región del campo visual. De acuerdo con lateor´ıa de integración de caracter´ısticas las propiedades de la posición atendida son puestas juntas en una representación central, por lo que la atención visual sirve como un “pegamento” que integra las caracter´ısticas que estaban inicialmente separadas en objetos unitarios (Treisman y Gelade, 1980). En el mismo sentido, Posner

et al. (1980) concluyeron que la atenci´on visual opera “como un punto de luz que mejora la

detecci´on de eventos en su proximidad”.

La atención visual ha sido estudiada desde hace varias decadas por investigadores de diferentes disciplinas cient´ıficas como neurólogos, psicólogos, fisiólogos, y en las últimas tres decadas por gente dedicada a la visión por computadora, la cual ve en la atención visual una manera factible para disminuir la complejidad de diversos problemas en el campo de estudio. Neurológicamente hablando, existen al menos 30 áreas en la corteza visual. Estas áreas estan organizadas en dos rutas principales de procesamiento visual, ambas comienzan en la corteza visual primaria V1. La ruta ventral se dirige a la corteza inferotemporal y es importante para el reconocimiento de objetos; mientras que la ruta dorsal se dirige a la corteza parietal posterior y es importante para la percepción espacial y el desempeño visuomotor, en otras palabras, está a cargo de la atención visual.

(16)

del cerebro. En los primates está intimamente ligada a la selección natural de mecanismos visuales espec´ıficos (Barton, 1998). De hecho, el sistema visual binocular ha evolucionado para adaptarse al ambiente; i.e. es más fácil para un depredador con visión estereoscópica esquivar el camuflaje de la presa, esto se puede conseguir si consideramos que la presa ca-muflajeada está parada en un plano distinto al del fondo. La detección de la presa en dicho caso ser´ıa más dif´ıcil para un organismo con visión monocular (Julesz, 1984). La ventaja del depredador el cual puede burlar el camuflaje es suficiente para incrementar su valor de super-vivencia. Debido al importante rol de la visión en la evolución del cerebro, nos enfocaremos en el sistema visual humano desde un punto de vista funcional y evolutivo.

Los sistemas visuales de diferentes especies exhiben un notable nivel de diversidad. Estos sistemas reflejan las variadas respuestas a colores de diferentes ambientes. La visión tiene profundos efectos en la evolución de los organismos, afectando su supervivencia a través de comportamientos como, apareamiento, búsqueda de comida, y evasión de depredadores. ¿Cómo modifican su visión los vertebrados para adaptarse a varios ambientes? Esta pregunta sobre la evolución de los vertebrados está intimamente relacionada a la fototransducción (Yokoyama, 2002). Además, los fotorreceptores entre las especies son diversos y ofrecen un gran potencial para la adaptación evolutiva. Nosotros usamos este conocimiento para evolucionar artificialmente partes espec´ıficas de las rutas dorsales artificiales con el objetivo de que estas realicen tareas de atención visual.

(17)

1.1.2 Motivaci´on computacional

Una gran cantidad de información es percibida a cada momento, mucha más de la que puede ser procesada eficientemente por el cerebro humano. Sin embargo, la detección y el re-conocimiento de objetos usualmente se realiza con un m´ınimo de esfuerzo. En contraste, en visión por computadora la detección y el reconocimiento de objetos son unos de los proble-mas más dif´ıciles (Forsyth y Ponce, 2003). Existen varios sisteproble-mas sofisticados para tareas especializadas como la detección de caras (Viola y Jones, 2004) o peatones (Papageorgiou

et al., 1998), pero desarrollar un sistema general capaz de igualar la habilidad humana de

reconocer miles de objetos desde diferentes puntos de vista, bajo condiciones de iluminación variables y con oclusiones parciales parece estar lejos todav´ıa. Sugeriere, por lo tanto, que se puede mejorar el rendimiento de los sistemas computacionales con la búsqueda de inspiración en los sistemas biológicos y simular sus mecanismos. El cerebro es la prueba de que resolver la tarea es posible.

Uno de los mecanismos que hace a los humanos tan efectivos para actuar en la vida diaria es la habilidad de la atención visual. La información relevante extra´ıda es dirigida a áreas más altas del cerebro donde procesos complejos tales como el reconocimiento de objetos toman lugar. Restringir estos procesos a subconjunto limitado de los datos sensoriales aumenta su eficiencia.

En visión por computadora, la detección de objetos y el reconocimiento es un campo de gran interés. Las aplicaciones de la visión por computadora van desde la video vigilancia, monitoreo de tráfico, sistemas de asistencia para conductores, e inspección industrial hasta la interacción entre computadora y humano, recuperación de imágenes en bibliotecas digi-tales y análisis de imágenes medicas. En robótica, la detección de obstáculos, manipulación de objetos, creación de mapas semánticos, y la detección de puntos de referencia para la navegación.

1.2 Alcance

(18)

por medio de la imitaci´on de dos tareas principales (Treisman y Gelade, 1980).

• Adquisición, en esta etapa, las caracter´ısticas son capturadas tempranamente, au-tomáticamente y en parallelo a lo largo del campo visual, usando receptores visuales. Dichos receptores están especializados para reaccionar a propiedades espec´ıficas de la escena tales como la orientación, el color, el brillo y el movimiento. Después, la infor-mación de los receptores es transmitida y procesada en diferentes áreas del cerebro.

• Integración, en esta etapa, las caracter´ısticas visuales separadas que están presentes en el ambiente con combinadas para percidir la región más prominente mientras que se búsca atender los objetos de interés dentro de la escena.

En este trabajo, la atención visual es vista como el producto de un proceso de opti-mización, donde los factores “bottom-up” y “top-down” son integrados para producir este fenómeno básico único. As´ı, como en la atención visual biológica, el algoritmo se compone de dos tareas que son usadas en el ciclo de percepción y acción. La primer tarea, relacionada con la percepción, es atribuible a la limitada capacidad de procesamiento del sistema visual; mientras que la segunda función relacionada con la acción es una consequencia de la selec-tividad o habilidad de filtrar información visual no deseada. En este sentido, se dice que la selectividad de atención visual está controlada por factores “bottom-up” y “top-down” (Desimone y Duncan, 1995; Corbetta y Shulman, 2002). Sin embargo, en este trabajo se da un enfasis a la habilidad de diseñar programas de atención visual bajo un único marco de optimización (Dozal et al., 2012). Es por esta razón que en esta investigación la atención visual es estudiada como un único proceso resultado de un único mecanismo diseñado para obedecer un propósito general, el cual podr´ıa estar hecho de diferentes metas particulares pretendiendo diseñar una relación entre el observador y la escena. En particular, este tra-bajo detalla la aplicación de la metodolog´ıa propuesta para la solución de problemas de tipo “top-down” que han sido previamente abordados en la literatura y los cuales han sido usados aqu´ı como punto de referencia para comparar nuestra propuesta con cuatro algoritmos en el estado del arte Itti y Koch (2001).

(19)

deberán ser búscadas en el espacio de posibles programas de atención visual. Segundo, la integración de las mejores caracter´ısticas visuales en un solo mapa de sobresaliencia, lo cual es visto como una tarea dif´ıcil debido a que las diferentes dimensiones visuales producen un problema combinatorial. Finalmente, tenemos el problema de la formulación de la atención visual en términos de un proceso de optimización/búsqueda que búsca una RDA capaz de atender un objetivo dado. En este estudio, se illustrará cómo un enfoque evolutivo permite abordar estos problemas por medio de la implementación de una estrategia de programación cerebral.

1.3 Contribuciones

Esta monograf´ıa cient´ıfica presenta un nuevo enfoque para la detección de objetos y la búsqueda en imágenes orientada a metas. Este trabajo está basado en el muy conocido y am-pliamente aceptado sistema de atención “bottom-up” de Ittiet al.(1998). Esta arquitectura es evolucionada y mejorada para lidiar con factores “top-down” y realizar una atención vi-sual orientada a metas. Además, la evolución también le permitió a dicha estructura realizar tareas “bottom-up” que anteriormente no hab´ıan sido realizadas.

El presente estudio hace las siguientes contribuciones.

• Primero, el diseño automático de rutas dorsales artificiales es explicado, donde el prob-lema esta formulado en términos de un enfoque de optimización/búsqueda. Esta expli-cación extiende las anteriores de Dozal et al. (2012, 2013) y Olague et al. (2014).

• Segundo, una nueva estrategia llamada programación cerebral basada principalmente en la programación genética (GP) (Koza, 1992) es introducida. El enfoque sigue un paradigma jerárquico desarrollado dentro de la comunidad de neurociencias y com-putación en combinación con la idea de que funciones especiales, en la forma de pro-gramas matemáticos y computacionales, pueden ser artificialmente evolucionados para resolver al problema de la atención visual. De hecho, el enfoque propuesto es capaz de diseñar programas competitivos que retan a los diseños de espertos humanos de acuerdo a los resultados obtenidos y utilizando pruebas estandar.

(20)

• Cuarto, la incorporación de la dimensión de forma, llevada a cabo mediante operaciones morfológicas, es una contribución original a la investigación de atención visual.

• Finalmente, el desempeño de cada experimento se describe en las secciónes 4.3 y 4.4 seguidos de un análisis de las mejores soluciones. De la misma manera, las estructuras finales de las mejores rutas dorsales artificiales se describen junto con algunos detalles acerca su funcionamiento interno. Además, el art´ıculo presenta resultados que dan un entendimiento estad´ıstico acerca de las dinámicas y el desempeño general del sistema evolutivo.

1.4 Organizaci´on del documento

(21)

Cap´ıtulo 2. Fundamentos te´oricos de la atenci´on visual

En este cap´ıtulo se presenta una breve revisión de los fundamentos teóricos de la atención visual. El término atención es común en el lenguaje diario y es familiar para todos. Sin embargo, es necesario aclarar y definir el término propiamente. Ya que la atención visual es un concepto de percepción humana, es importante entender el proceso visual subyacente en el cerebro y saber acerca de los descubrimientos psicológicos y neuro-biológicos en este campo.

En este cap´ıtulo, primero, en la sección 2.1, se describen diferentes conceptos de lo que se entiende por atención. La diversidad de conceptos existentes evidenc´ıa lo dif´ıcil que es su campo de estudio. Después, en la sección 2.2, se discuten los procesos neuronales involucrados en el procesamiento visual y de atención en el cerebro humano, con el objetivo de entenderlos mejor. A continuación, se introducen algunos modelos psicof´ısicos de la atención visual que forman la base para muchos modelos de atención computacionales actuales (sección 2.3). Finalmente, en la sección 2.4 se discuten algunos conceptos neuro-biológicos de atención visual que se utilizan comúnmente tanto en los modelos psicof´ısicos como en los computacionales. Conclu´ımos este cap´ıtulo con una discusión en la sección 2.5.

2.1 Conceptos b´asicos de atenci´on visual

En esta sección, se descuten varios conceptos relacionados con atención visual, necesarios para el mejor entendimiento del resto de este documento. Primero, se reviza y define lo que es la atención visual, después se introdusen los conceptos de “bottom-up” y “top-down”, y finalmente, se explica el paradigma de búsqueda visual, tan utilizado en la investigación de la atención visual.

2.1.1 ¿Qu´e es la atenci´on visual?

(22)

atención visual como una manera factible para reducir la complejidad del procesamiento de la información visual (Tsotsos, 1990; Frintrop et al., 2010; Wischnewski et al., 2010; Taylor y Cutsuridis, 2011; Neokleous et al., 2011). Recientemente, una disciplina conocida como visión cognitiva (Vernon, 2008; Nagel, 2003) fue creada de la combinación de la visión por computadora y áreas de investigación cognitivas. Por consiguiente, se dice que los sistemas de visión cognitiva deber´ıan ser capaces de dedicarse al comportamiento dirigido a metas, mien-tras que se adaptan robustamente a cambios inesperados en el campo visual, y deber´ıan tener la habilidad de anticipar la ocurrencia de objetos o eventos; véase (Vernon, 2008). Además, la atención visual es considerada un problema cr´ıtico en la visión cognitiva (Tsotsos, 2006). Debido a la importancia del mecanismo de atención visual, muchas definiciones diferentes han sido formuladas. A continuación, se resumen algunas de esas ideas. Al principio de los 80’s Posner et al. (1980), propusieron que la atención visual podr´ıa ser entendida en terminos de un “punto de luz” que mejora la eficiencia de la detección de eventos dentro de su haz. Más tarde, Treisman y Gelade (1980), compararon la atención con un “pegamento”, el cual integra las caracter´ısticas, inicialmente separadas, en objetos unitarios. Entonces, en la misma decada, Koch y Ullman (1985) describieron la atención visual como una habilidad la cual permite a la creatura dirigir su vista rápidamente hacia el objeto de interés en el campo visual. Después, dos diferentes propuestas fueron desarrolladas. A mediados de los años 90, Desimone y Duncan (1995) introdujeron la atención visual como una propiedad que emerge del procesamiento visual, que es visto como el producto de muchos mecanismos neuronales trabajando para resolver el problema de la competición por los recursos y control del comportamiento. Finalmente, Wolfe (2000) explica que la atención es un “habilitador” más que un actor. En otras palabras, en lugar de decir que la atención de alguna manera identifica un objeto, es mejor decir que la atención habilita al proceso de reconocimiento de objetos para que trabaje sobre una sola cosa a la vez. Por consiguiente, en este trabajo, después de considerar trabajos previos, introducimos una nueva definición de antención visual que consiste en una relación funcional que filtra la información visual de acuerdo con la tarea en cuestion.

La atención visual es un proceso que diseña una relación entre las diferentes

(23)

2.1.2 “Bottom-up” y “top-down”

Hoy en d´ıa, las explicaciones clásicas de la atención visual están de acuerdo con la idea de que está influenciada por factores “bottom-up” y “top-down”. Algunos trabajos explican la existencia de dos sistemas neuronales involucrados y que interactuan en el control de la atención visual, véase (Yarbus, 1967; James, 1950; Desimone y Duncan, 1995; Egeth y Yantis, 1997; Corbetta y Shulman, 2002; Underwood, 2009). Como resultado, la atención visual es usualmente estudiada como dos propuestas separadas enfocandose en los procesos “bottom-up” y “top-down” (James, 1950).

En la literatura dice que la atención visual reactiva o “bottom-up” depende enteramente del est´ımulo; i.e. la novedad y lo inesperado. Además está relacionada con la atención involuntaria, la cual es usualmente comparada con la idea del “punto de luz”. Esta metáfora ha sido utilizada por Posner et al. (1980) para explicar que la atención visual opera “como un punto de luz el cual mejora la detección de eventos es su proximidad”. Para Wolfe (1994) la activación “bottom-up” es una medida de que tan inusual es un objeto en su contexto presente. La fuerza de la activación “bottom-up” en una posición está basado en las diferencias entre el objeto y los objetos en el vecindario de su localización. No depende del conocimiento del sujeto o de una tarea de búsqueda espec´ıfica. Las diferencias se refieren a las diferencias en el espacio de la caracter´ıstica relevante, por ejemplo la diferencia angular entre l´ıneas en el espacio de la orientación. Un modelo completo requerir´ıa un entendimiento de las métricas de cada espacio de caracter´ısticas.

Actualmente, una de las mejores y más faciles maneras de implementar un conjunto de pruebas es estudiar la atención “bottom-up” en terminos de la búsqueda visual. Comúnmente, la tarea exploratoria es estudiada experimentalmente usando un conjunto de imágenes que contienen estimulos visuales exigentes que son presentados a un observador. Por cada imagen hay un objeto de interés u objetivo que es diferente del resto.

(24)

caracter´ısticas, lo cual forza al observador a realizar un escaneo de la escena.

El fenómeno visual “top-down”, es usualmente estudiado en psicof´ısica a través de los llamados “experimentos con señales”. Este tipo de experimentos consisten en presentar una señal o pista que gu´ıe la atención del observador hacia el objetivo. De esta manera, se dice que las señales pueden indicar en dónde está el objetivo, como en el caso de una flecha apuntando hacia el objetivo, o pueden contestar qué es el objeto por medio de la b’usqueda de las similitudes entre una figura, o una descripción escrita, y el objetivo, véase (Frintrop, 2006).

2.1.3 B´usqueda visual

A la tarea de encontrar un objetivo entre varios distractores se le conoce generalmente como

b´usqueda visual, t´ıpicamente hay un solo objetivo que difiere de los distractores en una o m´as

caracter´ısticas. Además, ha sido uno de los paradigmas más productivos para el estudio del desarrollo de la atención visual. En el paradigma de la búsqueda visual el sujeto búsca un objetivo entre un conjunto de objetos distractores. Dos métodos son usados comúnmente. En el que puede ser llamado elmétodo del porcentaje correcto, el experimentador presenta breve-mente un arreglo de objetos seguidos de una máscara durante un intervalo inter-est´ımulos (IIE), véase (Wolfe, 1994). El sujeto hace una elección forzada y responde “s´ı”, si el objetivo está presente, o “no”, si está ausente, el porcentaje correcto es medido como una función del IIE. El número total de objetos (tamaño del conjunto) var´ıa. Si una tarea puede ser realizada con mucha exactitud incluso con IIEs cortos, y si la función IIE _× porcentaje correcto no cambia con el tamaño del conjunto, entonces esto es interpretado como una demostración de que todos los objetos han sido procesados en paralelo, en este caso se le llama búsqueda

paralela. Si conjuntos m´as grandes requieren IIEs m´as largos para alcanzar el mismo

por-centaje correcto que conjuntos más pequeños, esto es interpretado como demostración de que un proceso con limitada capacidad es requerido para la tarea de búsqueda, en cuyo caso se le llama búsqueda serial (Bergen y Julesz, 1983).

El segundo método mide el tiempo de reacción (TR) como una función del tamaño del conjunto y es el más utilizado en investigaciones recientes. La búsqueda es llamada paralela

cuando el tiempo de la búsqueda es independiente del número de objetos distractores, o es llamada serial cuando el tiempo de búsqueda se incrementa con el número de objetos distractores.

(25)

independientes o por su conjunción. Si, como se asume en la teor´ıa de integración de car-acter´ısticas (Treisman y Gelade, 1980), las carcar-acter´ısticas simples pueden ser detectadas en paralelo sin las limitaciones de la atención. Labúsqueda de caracter´ıstica, donde los objetivos están definidos por la variación de una sola de dichas caracter´ısticas, deber´ıa ser afectada muy poco o nada por las variaciones en el número de distractores, causando que el objetivo resalte mucho, dicho efecto sobre el objetivo es conocido como “pop-out”. En este escenario, la interferencia lateral y la agudeza deber´ıan ser los únicos factores que tienden a incremen-tar los tiempos de búsqueda, quizás forzando las fijaciones seriales del ojo. En contraste, se asume que la atención es necasaria para la detección de objetivos que están definidos por una conjunción de propiedades. Tales objetivos deber´ıan por lo tanto ser encontrados sólo después de un escaneo serial.

En la búsqueda de conjunción, el objetivo difiere de los distractores en una única combi-nación de caracter´ısticas; el objetivo no puede ser caracterizado por un solo y único atributo, véase (Verghese, 2003). Un ejemplo de una tarea de búsqueda de conjunción es un objetivo que es una l´ınea vertical brillante entre distractores que son l´ıneas verticales obscuras y l´ıneas inclinadas brillantes. Ni el brillo ni la orientación por si solas definen al objetivo de manera ´

unica.

2.2 Consideraciones neurol´ogicas de la atenci´on visual

El cerebro es el organo más sofisticado en el cuerpo humano; una de sus tareas fundamentales es controlar y administrar las actividades que realizan los organos sensoriales. Los neurologos han dividido el cerebro humano en cuatro lóbulos: frontal, temporal, parietal, y occipital. El lóbulo occipital tiene un interés especial para la comunidad que estudia la visión porque es donde se localiza la corteza visual. En realidad, la corteza visual primaria y las áreas visuales secundarias están especializadas en el procesamiento de la información visual, la localización de objetos, la estimación de la dirección, velocidad y trayectoria de los objetos.

2.2.1 El ojo

(26)

+ +

+

+ +

+

− −

−

− −

−

+

++

+

−−

−

+

a)

b)

−

Figura 1. Campos receptivos de las c´elulas ganglionares. a) Campo receptivo con centro encendido oon-center. b) Campo receptivo con centro apagado ooff-center.

diferentes: los bastones y los conos. Los bastones son los m´as numerosos, alrededor de 120 millones, y son m´as sensibles a la luz que los conos. Sin embargo, no son sensibles al color. Los conos son alrededor de 8 millones y son sensibles al color, existen tres tipos de conos de acuerdo a su sensibilidad al color: sensibles a longitud de onda corta–(o azul), sensibles a longitud de onda media–(o verde), y sensibles a longitud de onda larga–(o rojo) (Boynton, 1979).

Los bastones y los conos están conectados a las células ganglionares via las células bipo-lares. Las células fotorreceptoras y las bipolares producen un potencial graduado, mientras que las células ganglionares producen un potencial de acción transformando la señal analógica en una discreta. El campo receptivo de las células ganglionares es circular y está separado en dos áreas, un área central y un área circundante. Existen dos diferentes tipos de células ganglionares: células con centro encendido (on-center) que responden exitatoriamente a la luz en el centro y las células centro apagado (off-center) que responden inhibitoriamente a la luz en el centro. El área circundante de la región central siempre tiene la caracter´ıstica opuesta (Palmer, 1999), ver figura 1.

2.2.2 Quiasma ´optico

(27)

proveniente de la retina. Los estudios han demostrado que las respuestas neuronales en el NGL pueden ser moduladas por los procesostop-down relacionados con la atenci´on selectiva y las im´agenes mentales (Chen et al., 1998; O’Connoret al., 2002).

2.2.3 Corteza visual primaria

La información que abandona el NGL se dirige a la corteza visual primaria (V1), también conocida como corteza estr´ıada, que es parte de la corteza cerebral y es responsable de proce-sar la información visual. La V1 está localizada en el lóbulo occipital en la parte trasera del cerebro. Las células en V1 tienen campos receptivos alongados con regiones excitatorias e inhibitorias que siempre están separadas por una l´ınea recta o por dos l´ıneas paralelas. En consequencia, las células responden mejor a est´ımulos alongados como barras, bordes, y l´ıneas. A diferencia de las células en etapas más tempranas en la ruta de la información visual, estas células reponden mejor a l´ıneas en movimiento que a l´ıneas estacionarias. Hubel y Wiesel (Hubel y Wiesel, 1962) clasificaron las células en V1 de acuerdo a la complejidad de su respuesta a los est´ımulos visuales y las dividieron en dos clases de células conocidas como simples y complejas. Como su nombre sugiere, los dos tipos difieren en la comple-jidad de su comportamiento, además hacen la razonable suposición de que las células con comportamiento más simple están más cerca a la entrada de la corteza visual (Hubel, 1995). La diferencia entre las células simples y las células en etapas más tempranas radica en la geometr´ıa de las regiones de excitación e inhibición dentro de los campos receptivos. Los campos receptivos de las células en etapas tempranas tienen regiones circulares, consisten en una región, excitatoria o inhibitoria, rodeada por la región opuesta, esto significa que una l´ınea o borde, produce la misma respuesta sin importar como está orientada. Las células corticales son más complicadas, entre mayor sea el traslape entre la región excitatoria y el est´ımulo, mayor será la excitación resultante. De manera que las células simples responden mejor a est´ımulos con una orientación óptima; la respuesta se reduce cuando el est´ımulo está entre los 10 y 20 grados hacia cualquier lado del óptimo, y fuera de ese rango la respuesta decae abruptamente a cero. Entre las células simples, podemos encontrar diferentes geometr´ıas, para cada una de las cuales se encuentran todas las posibles orientaciónes y todas las posibles posiciones en el campo receptivo (Hubel, 1995).

(28)

−

+

−

−−

−

a)

−

+

−

+

−

₋

− −

−

+

−

+

₊

+ +

+

b)

+

++

+

−−

−

c)

d)

Figura 2. Cuatro campos receptivos t´ıpicos de las células simples. El est´ımulo efectivo para estos campos son: a) y b) un borde claro-oscuro que cae en el l´ımite entre las regiones exitatoria (+) e inhibitoria (-). c) una hendidura de luz cubriendo la región exitatoria, y d) una l´ınea obscura cubriendo la región inhibitoria.

sólo dentro de los l´ımites de su campo receptivo. Distinto a las células simples, las células complejas responden a barras estacionarias sin importar donde estén localizadas dentro del campo receptivo, siempre y cuando la orientación de la barra sea la apropiada (Hubel, 1995).

2.2.4 Rutas visuales

(29)

Corteza parietal

MT (V5)

V1

V2 V3

V2

V4

Corteza Inferotemporal ¿Q

U ´E_?

¿D´ON DE?

Figura 3. Ruta dorsal o “D´onde”y ruta ventral o “Qu´e”

de Milner y Goodale (1995), la ruta dorsal también es conocida como ruta del ¿cómo?; mientras que en el trabajo desarrollado por Baluch y Itti (2011), los procesos de la ruta dorsal difieren significativamente con respecto a los de la literatura. La razón de esta discordancia es primeramente que las rutas visuales no están completamente aisladas, existe una densa interconectividad entre las áreas que conforman las rutas ventral y dorsal. Y segundo, que la investigación de la corteza visual comenzó apenas hace algunos años atrás y su funcionalidad todav´ıa no se entiende completamente.

2.3 Modelos psicof´ısicos de atenci´on visual

En el campo de la psicolog´ıa, exiten una gran variedad de modelos de atención visual. Su objetivo es simular datos conductuales y de este modo explicar y entender mejor la percepción humana. Hay modelos descriptivos y modelos que son implementados computacionalmente. Estos últimos están especialmente bien adecuados para la comparación con datos psicológicos obtenidos de experimentos con humanos.

(30)

Etapa de Atenci´on

Mapa de localizaciones

Etapa Preatentiva

Campo Visual

Orientaci´on

Color

Forma

Mapas de

Caracter´ısticas

Combinaci´on de Caracter´ısticas

Figura 4. Diagrama del modelo de la teor´ıa de integraci´on de caracter´ısticas.

modelo de competici´on neuronal descrito en la secci´on 2.3.3.

2.3.1 Teor´ıa de integraci´on de caracter´ısticas de Treisman

A comienzos de los años 80 la teor´ıa de integración de caracter´ısticas de atención visual fue propuesta por Treisman y Gelade (1980). Actualmente, esta teor´ıa es considerada como el paradigma de atención visual más ampliamente aceptado dentro de la comunidad de ciencias cognitivas, ya que es considerada como un paso fundamental para entender el funcionamiento de la atención visual.

Esta teor´ıa afirma que en primer lugar “las caracter´ısticas son registradas temprana-mente, automáticatemprana-mente, y en paralelo a través del campo visual...” conocida como etapa preatentiva, “...mientras que los objetos son identificados de manera separada y solamente en una etapa posterior, la cual requiere enfocar la atención” conocida como etapa de atención, véase (Treisman y Gelade, 1980) y la figura 4. Las caracter´ısticas visuales de la escena están codificadas en lo que ellos llaman dimensiones tales como el color, orientación, movimiento, frecuencia espacial, y brillo, y que son funcionalmente separables, esto quiere decir que son analizadas de manera separada por subsistemas perceptuales funcionalmente independientes, y por caracter´ıstica se refieren a un valor particular de una dimensión como son: verde, vertical, opaco.

(31)

Una de las principales declaraciones de la teor´ıa de integración de caracter´ısticas, es que un objetivo es detectado fácilmente, rápido, y en paralelo (pop-out) si difiere de los distractores en exactamente una caracter´ıstica y los distractores son homogeneos. Si difiere en más de una caracter´ıstica (búsqueda de conjunción) se requiere que la atención resulte en una búsca serial. Por lo tanto, los resultados de los experimentos sugieren que las conjunciones de dos o más caracter´ısticas requieren que la atención se dirija serialmente a cada posición relevante.

2.3.2 Modelo de b´usqueda guiada

El objetivo básico del modelo de búsqueda guiada es explicar y predecir los resultados de experimentos de búsqueda visual. Más generalmente, el modelo búsca explicar nuestra ha-bilidad para encontrar un est´ımulo visual deseado en una escena visual normal y continua (Wolfe, 1994).

En el modelo de integración de caracter´ısticas (Treisman y Gelade, 1980) los procesos paralelos parecen tener muy poca influencia en los subsecuentes procesos seriales. En el modelo estandar de integración de caracter´ısticas, los procesos paralelos pueden identificar objetivos sobre la base de una sóla caracter´ıstica. Sin embargo, si no se encuentra el objetivo, nada de la información que ha sido recolectada es usada por el proceso serial, incluso si esa información fuera útil. Considerese una búsqueda de unaX roja entreXs verdes y 0srojos. El objetivo está definido por una conjunción; por lo tanto, no puede ser localizado por un proceso paralelo. Sin embargo, un proceso paralelo para el color puede diferenciar entre los elementos verdes y rojos. Porque ningún elemento verde puede posiblemente ser una X

roja, parecer´ıa razonable que el proceso paralelo informara al proceso serial las posiciones de todos los elementos verdes de manera que el proceso serial no deperdiciar´ıa tiempo y esfuerzo examinando esos elementos.

Los resultados de los experimentos que realizarón Wolfe et al. (1989) sugieren que la búsqueda visual serial puede ser guiada por información proveniente de un proceso paralelo. En la modificación del modelo de integración de caracter´ısticas de (Wolfe et al., 1989), propusieron que el proceso paralelo gu´ıa la atención de “punto de luz” hacia los objetivos es-perados. Por eso, ellos le llamaron “búsqueda guiada”. Una ventaja del modelo de búsqueda guiada es su habilidad para explicar muchos de los complicados resultados previamente pub-licados como ejemplos de la regla general de la integración de caracter´ısticas.

(32)

es que las conjunciones triples (Quinlan y Humphreys, 1987) deber´ıan ser más fáciles de encontrar que las conjunciones estandar. Si el proceso paralelo puede guiar la búsqueda serial subsecuente, entonces tres fuentes paralelas de gu´ıa deber´ıan ser mejor que dos. El modelo estandar de integración de caracter´ısticas predice una búsqueda serial para este tipo de est´ımulo.

Este modelo asume que el procesamiento inicial del est´ımulo es llevado a cabo en paralelo en todo el campo visual. En alg´un punto se generan representaciones independientes y paralelas para un conjunto limitado de caracter´ısticas visuales b´asicas, estas representaciones son conocidas comomapas de caracter´ısticas y existen tres formas de concebirlos.

1. Podr´ıan haber mapas independientes para cada color, orientaci´on, forma, etc. Por ejemplo, un mapa para el rojo, el azul, vertical, etc.

2. Es posible que existan mapas separados para cada tipo de caracter´ısticas (color, ori-entaci´on, etc.). El modelo guiado sigue esta alternativa.

3. Todas las caracter´ısticas podr´ıan estar representadas en un solo mapa multidimensional.

En la búsqueda visual la identificación de localizaciones es modelada como una activación diferencial de localizaciones en cada mapa de caracter´ısticas. Entre más grande sea la acti-vación en una localización, es más probable que la atención sea dirigida a esa localización. Además, el modelo contempla dos componentes de activación: el dirigido por el est´ımulo, conocido como buttom-up y el dirigido por el sujeto, conocido comotop-down. Finalmente, el efecto global de activación en todos los mapas es obtenido sumando las activaciones para obtener un mapa de activación. El propósito del mapa de activación es dirigir la atención que será situada en el lugar con más alta activación.

2.3.3 Competici´on neuronal para la atenci´on visual selectiva

(33)

Ambos fenómenos, considerados juntos sugieren el siguiente modelo. En algún punto entre la entrada y la respuesta, los objetos en la entrada visual compiten por la limitada capacidad de procesamiento, representación, el análisis, o el control. La competición, sin embargo, favorece la información que es relevante en el momento para el control del comportamiento relevante. El est´ımulo atendido demanda capacidad de procesamiento, mientras que los ignorados no (Desimone y Duncan, 1995).

De acuerdo con la teor´ıa de integración de caracter´ısticas la atención sólo puede ser enfocada en un lugar a la vez, favoreciendo el procesamiento en la corteza visual de las ubicaciones atendidas y reduciendo el de las desatendidas. La atención no es necesaria para la diferenciación de caracter´ısticas simples pero resuelve el problema de la integración poniendo juntas las respuestas de las células que codifican las diferentes caracter´ısticas elementales del objeto atendido. Además, es un mecanismo de escaneo serial y de alta velocidad moviendose de una posición a la siguiente.

En contraste, el modelo de competici´on pone en duda varios de los postulados de la teor´ıa de integraci´on de caracter´ısticas. En su lugar, sugiere las siguientes conclusiones.

La competición está influenciada en parte por mecanismos neurales “bottom-up” que separan a las figuras de su fondo y en parte por mecanismos “top-down” que selecciona objetos de relevancia para el comportamiento actual. Dicha influencia puede ser controlada por muchos est´ımulos, incluyendo la selección de la ubicación espacial, por caracter´ısticas simples del objeto, y por conjunciones complejas de caracter´ısticas.

Los objetos actuan como un todo en la competición neuronal. La construcción de las rep-resentaciones de los objetos hecha de la conjunción de muchas diferentes caracter´ısticas parece ocurrir, en muchos casos, en paralelo a lo largo del campo visual antes de que los objetos individuales sean seleccionados y, por lo tanto, previa a cualquier combinación atencional.

(34)

2.4 Términos biológico-computacionales para la atención visual

En esta sección se discutirán algunos conceptos que son usualmente utilizados por los modelos psicológicos y computacionales de atención y que están soportados por evidencia neurológica. Algunos de estos conceptos computacionales serán introducidos con más detalle en los sigu-ientes cap´ıtulos, pero se discute su correlación ya que a menudo la evidencia neuro-biológica forma la base para estos conceptos.

2.4.1 Mapas de caracter´ısticas

En casi todos los modelos computacionales de atención visual, la entrada es descompuesta en un conjunto demapas de caracter´ısticas topográficos, véase (Ittiet al., 1998; Koch y Ullman, 1985). Todos los mapas de caracter´ısticas alimentan, de una manera puramente “bottom-up”, a un mapa de sobresaliencia maestro, el cual codifica topográficamente la conspiduidad local sobre la escena visual entera.

Según el modelo de la teor´ıa de integración de caracter´ısticas (Treisman y Gelade, 1980), las caracter´ısticas son registradas tempranamente, automáticamente, y en paralelo a través del campo visual, asumiendo que la escena visual está inicialmente codificada en un número de dimensiones separables, tales como color, orientación, brillo, y la dirección del movimiento. Dicha separación es mucho más estricta en los modelos computacionales de lo que el procesamiento en el cerebro humano sugiere, existen diferentes neuronas y áreas cerebrales especializadas en el procesamiento de ciertas caracter´ısticas pero el procesamiento completo está mucho más entrelazado que el propuesto por la mayor´ıa de los modelos. Los des-cubrimientos en psicolog´ıa aseguran que existen una docena de caracter´ısticas básicas como son: orientación, color, movimiento, tamaño, profundidad estereoscópica, asimetr´ıa, brillo y algunos parámetros de forma como la curvatura, intersecciones, y terminaciones de l´ıneas (Julesz, 1984; Treisman y Gormican, 1988; Wolfe, 2000).

Wolfe (1994) dice que existen tres formas de concebir los mapas de caracter´ısticas. La primer forma, utilizada por modelos como el de Koch y Ullman (1985), el de Itti et al.

(35)

artificial propuesta en el presente estudio se basan en esta alternativa. La tercera posibilidad es que todas las caracter´ısticas est´en representadas en un solo mapa multidimensional.

2.4.2 Mecanismo centro-circundante

Lo que mayormente distingue a unos modelos de atención visual de otros es la forma en que hacen la medición computacional de la sobresaliencia. En el que es quizás el modelo de atención más popular, Itti et al. (1998) miden la sobresaliencia simulando los campos receptivos centro-circundante. Los mapas de sobresaliencia en cada dimensión son reorgani-zados en un arreglocentro-circundante que es caracter´ıstico de la organización de los campos receptivos vistos en el sistema visual de los primates (Parkhurst et al., 2002). Este arreglo, el cual es ubicuo a lo largo de las etapas tempranas de la visión biológica, no sólo permite a las células ganglionares transmitir información de cuando las células fotorreceptoras están expuestas a la luz. Sino que su principal función es medir las diferencias entre las tasas de encendido en el centro y en el rededor de los campos receptivos de las células ganglionares. En el mecanismo centro-circundante, la reorganización se logra tomando la diferencia de las caracter´ısticas simples a diferentes escalas que forman una pirámide por cada caracter´ıstica, véase (Gaoet al., 2008). Finalmente, losmapas de caracter´ısticas centro-circundantes o

ma-pas de conspicuidad son combinados a trav´es de las escalas y normalizados dentro de cada

dimensi´on para maximizar las diferencias locales e incrementar el contraste.

2.4.3 Mapa de sobresaliencia

El propósito delmapa de sobresaliencia es representar la conspicuidad o prominencia en cada posición del campo visual con una cantidad escalar y guiar la selección de las localizaciones atendidas, basada en la distribución espacial de la prominencia. Una combinación de los

mapas de caracter´ısticas provee una entrada al mapa de sobresaliencia.

(36)

también conocido por estar involucrado en el control de la atención (Findlay y Walker, 1999), y el campo ocular frontal que juega un rol importante en el control de la atención visual y el movimiento de los ojos (Bichot, 2001). También, algunas áreas neocorticales han sido sugeridas, incluyendo la V1 (Li, 2002), V4 (Mazer y Gallant, 2003), la corteza parietal posterior (Gottlieb, 2007), y el área intraparietal lateral (Taylor y Stein, 1999).

2.4.4 “Bottom-up” y “top-down”

La atenci´on visual es controlada por: factores congnitivos, o “top-down”, tales como conocimiento, expectativas y metas, y factores “bottom-up” que reflejan la estimulaci´on sensorial (Corbetta y Shulman, 2002).

Hoy en d´ıa, los modelos computacionales son en su mayor´ıa modelos “bottom-up” basa-dos en la teor´ıa de integración de caracter´ısticas (Treisman y Gelade, 1980). La atención “bottom-up” esta sujeta a mucho más investigación. Una razón es que los est´ımulos orienta-dos por datos son más fáciles de controlar que el estado mental que involucra conocimiento y expectativas (Frintrop, 2006). De este modo, desde una perspectiva de modelado computa-cional, los factores “top-down” no son una tarea trivial; en otras palabras, las emociones y los deseos son conceptos dificiles de modelar; por lo tanto, este tipo de conceptos cognitivos son todav´ıa desafiantes para las ciencias computacionales.

(37)

2.5 Conclusi´on

En este cap´ıtulo se han revisado los antecedentes importantes en el campo de la atención visual. Se introdujeron varias definiciones que son relevantes en este campo. El paradigma psicof´ısico de la búsqueda visual fue introducido y explicado en detalle. Además, se bosqueja el flujo del procesamiento de la información visual en el cerebro humano y se discute cuales procesos y áreas cerebrales están involucrados en los mecanismos de atención. Después, se introdujeron varios modelos psicof´ısicos de atención visual, los más influyentes son lateor´ıa

de integraci´on de caracter´ısticas de Treisman y Gelade (1980) y el modelo guiado de Wolfe

et al.(1989). Finalmente, se corelacionan estos conceptos por medio de la discusi´on de cu´ales

procesos biológicos corresponden con qué mecanismos en los modelos de atención actuales. Este cap´ıtulo muestra que la investigación de la atención visual es un campo amplia-mente interdisciplinario. Diferentes disciplinas atacan el problema desde diferentes flancos: los psicólogos aprecian al cerebro como una caja negra. En varios experimentos, ellos inves-tigan el comportamiento humano en diferentes tareas y tratan de deducir de los resultados de los experimentos el contenido de la caja negra. El resultado son normalmente teor´ıas psicof´ısicas o modelos. Los neuro-biólogos, en cambio, observan directamente en el cerebro. Con nuevas técnicas como las imágenes por resonancia magnética funcional (fMRI, por sus siglas en inglés) se visualiza cuales áreas del cerebro están activas bajo ciertas condiciones. Los cient´ıficos de la computación usualmente toman lo que consideran útil de los descubrim-ientos psicológicos y biológicos y lo combinan con métodos técnicos para construir y mejorar sistemas para visión por computadora y aplicaciones en robótica.

(38)

Cap´ıtulo 3. Trabajo relacionado y estado del arte de los modelos computacionales de atenci´on visual

El creciente interés en la investigación de la atención visual junto con el creciente poder de las computadoras y su habilidad para realizar complejos sistemas sobre atención visual. En este cap´ıtulo, revisaremos el trabajo más influyente en este campo. En el cap´ıtulo anterior se concideraron modelos de atención visual. Aúnque varios de ellos también han sido im-plementados computacionalmente, su enfoque es sobre el aspecto psicológico de la atención visual más que sobre el aspecto técnico: los modelos en el cap´ıtulo anterior intentan explicar y entender mejor la percepción humana mientras que los sistemas en este cap´ıtulo usual-mente tienen el enfoque de mejorar los sistemas de visión para aplicaciones en visión por computadora. Por supuesto, existen algunos objetivos comunes y hay modelos psicológicos que podr´ıan ser útiles en aplicaciones computacionales y sistemas técnicos muy adecuados para explicar datos psicológicos. En este cap´ıtulo, introduciremos varios de los más impor-tantes modelos sistemas computacionales en la atención visual y que más influenciaron el presente trabajo.

3.1 Modelos computacionales de la atenci´on visual

La atención visual ha sido estudiada desde hace algunas decadas por investigadores de difer-entes disciplinas cient´ıficas como: neuro-biólogos, psicólogos, fisiólogos y en las últimas tres decadas por gente dedicada a la visón por computadora, quienes ven a la atención visual como una manera viable de disminuir la complejidad de varios problemas en el campo de estudio.

(39)

3.1.1 Modelo de atenci´on de Koch y Ullman

El primer modelo de atención visual implementado computacionalmente fue el de Koch y Ullman (1985). En este modelo se asumen que la atención visual selectiva opera durante lo que ellos llamanrepresentación primaria, que es un conjunto de mapas topográficos corticales que codifican el espacio visual. Larepresentación primaria incluye una variedad de diferentes mapas para diferentes caracter´ısticas elementales tales como la orientación, el color, la dis-paridad, y la dirección de movimiento. Para cada posición en estos mapas existe un número de dimensiones, tales como diferentes colores u orientaciones. Las relaciones de vecindad son preservadas en estos mapas; esto quiere decir que posiciones cercanas en la escena visual se proyectan como posiciones cercanas en el mapa. Por otra parte, hay conexiones inhibitorias locales, mediando lainhibición lateral, se producen ya sea en una etapa temprana o dentro de

los mapas de caracter´ısticas. De esta manera, las posiciones que difieren significativamente

de su vecindario son seleccionadas en este nivel.

Dado este esbozo, se plantearon varias preguntas espec´ıficas con respecto a la atenci´on visual selectiva. Al menos tres problemas deben ser resueltos. (1) El problema del

ganador-toma-todo (WTA, por sus siglas en inglés): asegurarse que sólo una posición esté activada,

de las muchas que inicialmente est´an activadas, en cada mapa. (2) El problema de registro

espacial: que es la alineaci´on de los diferentes mapas de caracte´ısticas con respecto a todos

los demás. La combinación de la información de los diferentes mapas de caracter´ısticas o la recuperación de información relevante a una sóla posición presupone una ruta rápida y fiable para atender la misma posición en diferentes mapas de caracter´ısticas. ¿Dónde se encuentra la correlación anatómica de esta ruta? (3) El problema dedesplazamiento: ¿cómo el procesamiento de la atención se desplaza a otra posición?

(40)

secuencial y automática inspeccionando de forma selectiva la información presente en las posiciones conspicuas. El mecanismo descrito por Koch y Ullman (1985) podr´ıa ser usado no sólo para la atención visual, también para ciertas rutinas visuales como seguimiento de contornos, contar objetos, o señalar una posición espec´ıfica.

3.1.2 Modelo de atenci´on “bottom-up” de Itti et al.

El sistema de atención de Ittiet al.(1998), es quizás el modelo neurológicamente plausible más conocido y con más influencia en el campo de las ciencias computacionales. Además, ha sido probado con experimentos con humanos (Peterset al., 2005), también ha sido utilizado para en el reconocimiento de objetos (Bonaiuto y Itti, 2006; Walther et al., 2002) y en problemas de navegación (Chung y Itti, 2002). Por esta razón el sistema que proponemos está basado en la implementación de Ittiet al.(1998) el cual, a su vez, está basado en el modelo de atención “bottom-up” introducido por Koch y Ullman (1985). Esta arquitectura “bottom-up” está diseñada para detectar regiones sobresalientes en una imagen utilizando tres dimensiones básicas: orientación, color e intensidad. En general, el modelo calcula, para cada imágen de entrada, un mapa de sobresaliencia cuyos valores de los pixeles indican la prominencia de las regiones correspondientes en la imagen original. Dicho mapa es el resultado de la combinación de los mapas de conspicuidad obtenidos de cada una de las dimensiones.

C´alculo preatentivo de las caracter´ısticas visuales tempranas

En biolog´ıa, las caracter´ısticas visuales se calculan en la retina, col´ıculo superior, núcleo geniculado lateral y la áreas tempranas de la corteza visual (Suder y Wörgötter, 2000). Y las caracter´ısticas visuales preatentivas se calculan de manera paralela a través del campo visual como lo mencionan Treisman y Gelade (1980). De entre todas las diferentes caracter´ısticas que pueden ser registradas en paralelo, este modelo sólo considera la intensidad, la orientación y el color. A continuación, se explica como se calculan losmapas de caracter´ısticas.

Las caracter´ısticas visuales son extra´ıdas directamente de la imagen de entrada, a color, utilizando distintas escalas espaciales en forma de pirámide obtenidas con la convolución de filtros lineales, i.e., pirámides Gaussianas, que consisten en filtrados sucesivos y com-presiones de la imagen de entrada. Espec´ıficamente, lo que se hace es aplicar un filtro

kf = [15101051]/32 en el dominio de la imagen. Este proceso se repite hasta obtener los 8