Le´
on Felipe Dozal Garc´ıa
y aprobada por el siguiente comit´e
Dr. Gustavo Olague Caballero Director del Comit´e
Dr. Hugo Homero Hidalgo Silva Miembro del Comit´e
Dr. Chernykh Andrey Miembro del Comit´e
Dr. Leonardo Trujillo Miembro del Comit´e
Dra. Ana Isabel Mart´ınez Garc´ıa Coordinador
Posgrado en Ciencias de la Computaci´on
Dr. Jes´us Favela Vara Director
Direcci´on de Estudios de Posgrado
EDUCACI ´
ON SUPERIOR DE
ENSENADA, BAJA CALIFORNIA
MR
Programa de Posgrado en Ciencias
en Ciencias de la Computaci´on
Evoluci´on de una ruta dorsal artificial utilizando programaci´on cerebral para la atenci´on visual.
Tesis
para cubrir parcialmente los requisitos necesarios para obtener el grado de
Doctor en Ciencias
Presenta:
Le´on Felipe Dozal Garc´ıa
Resumen de la tesis de Le´on Felipe Dozal Garc´ıa, presentada como requisito parcial para la obtenci´on del grado de Doctor en Ciencias en Ciencias de la Computaci´on.
Evoluci´on de una ruta dorsal artificial utilizando programaci´on cerebral para la atenci´on visual.
Resumen aprobado por:
Dr. Gustavo Olague Caballero
Director de Tesis
Este trabajo describe la aplicaci´on de una nueva estrategia llamada Programaci´on Cere-bral para la automatizaci´on del dise˜no de soluciones para tareas de atenci´on visual. En particular, la atenci´on visual es conciderada como un factor cr´ıtico cuyo principal meta es dise˜nar una relaci´on entre diferentes propiedades-caracter´ısticas de la escena con el objeto de seleccionar el aspecto m´as adecuado para la tarea en cuesti´on. Este estudio, sigue una tendencia en computaci´on cognitica donde la ruta visual es modelada a trav´es de niveles suce-sivos o capas; la tarea de atenci´on visual se basa en la idea de que varias ´areas del cerebro est´an a cargo de dicha funcionalidad de una manera jer´arquica. De este modo, proponemos un proceso artificial, que emula su contraparte natural, y b´usca estas operaciones complejas en t´erminos de un proceso de optimizaci´on/b´usqueda, el cual es capaz de proveer las mejores soluciones en el espacio de posibles programas de atenci´on visual para un problema dado.
Los resultados obtenidos sobre un banco de pruebas bien conocido confirman que la propuesta es capaz de dise˜nar autom´aticamente programas de atenci´on visual que superan dise˜nos anteriores hechos a mano por expertos en la atenci´on visual, mientras que provee resultados legibles a trav´es de un conjunto de esructuras matem´aticas y computacionales.
Abstract of the thesis presented by Le´on Felipe Dozal Garc´ıa, in partial fulfillment of the requirements of the degree of Doctor in Sciences in Computer Science.
Brain Programming for the Evolution of an Artificial Dorsal Stream
Abstract approved by:
Dr. Gustavo Olague Caballero
Thesis Director
This work describes the application of a new strategy called Brain Programming for automating the design of visual attention tasks. In particular, visual attention is considered as a critical factor whose main goal is to design a relationship between the different properties-features of the scene with the aim of selecting the most suitable aspect for the task at hand. In this study, following a main trend in cognitive computation where the visual pathway is modeled through successive levels or layers; the visual attention task is defined with the idea that several tissues of the brain are in charge of such functionality in a hierarchical way. Thus, we propose that an artificial process, mimicking the natural counterpart, can look for these complex operations in terms of an optimization/search process, which is able to provide the best solutions among the space of possible visual attention programs for a given problem. The results obtained on a well-known test bed confirm that the proposal is able to au-tomatically design visual attention programs that outperform previous man-made designs developed by visual attention experts, while providing readable results through a set of mathematical and computational structures.
Dedicado a mis padres
Clara Luz Garc´ıa Sagarnaga
y
Agradecimientos
Quiero agradecer muy especialmente a mis padres Clara Luz Garc´ıa Sagarnaga y Hugo Dozal Aguayo, por su gran e incesable apoyo, no solo durante la realizaci´on de este trabajo, sino durante toda mi vida. Es su constante presencia la que me inspira a seguir trabajando y avanzando. A mi hermana Tania y a mi cu˜nado Juan Carlos porque siempre tienen sonrisas y palabras de aliento para m´ı, y por toda la ayuda incondicional que me han brindado. A mi sobrina Mar´ıa Elisa que se ha convertido en una gran fuente de aprendizaje e inspiraci´on. A mi abuelita Socorro por su amor, ayuda y ejemplo de fortaleza. A mi t´ıa Ana por todo su cari˜no y apoyo. A todos mis t´ıos y t´ıas por toda su ayuda.
Adem´as quiero agradecer a mi tutor el Dr. Gustavo Olague por haberme guiado y ense˜nado durante el doctorado y a mis compa˜neros Eddie Clemente y Daniel Hernandez por todas sus aportaciones y comentarios.
A mi comit´e de tesis formado por el Dr. Hugo Homero Hidalgo Silva, el Dr. Andrey Chernykh y el Dr. Leonardo Trujillo Reyes.
Al Centro de Investigaci´on Cient´ıfica y de Educaci´on Superior de Ensenada.
Contenido
P´agina
Resumen en espa˜nol ii
Resumen en ingl´es iii
Dedicatoria iv
Agradecimientos v
Lista de figuras viii
Lista de tablas xii
1 Introducci´on 1
1.1 Motivaci´on . . . 1
1.1.1 Motivaci´on biol´ogica . . . 1
1.1.2 Motivaci´on computacional . . . 4
1.2 Alcance . . . 4
1.3 Contribuciones . . . 6
1.4 Organizaci´on del documento . . . 7
2 Fundamentos te´oricos de la atenci´on visual 8 2.1 Conceptos b´asicos de atenci´on visual . . . 8
2.1.1 ¿Qu´e es la atenci´on visual? . . . 8
2.1.2 “Bottom-up” y “top-down” . . . 10
2.1.3 B´usqueda visual . . . 11
2.2 Consideraciones neurol´ogicas de la atenci´on visual . . . 12
2.2.1 El ojo . . . 12
2.2.2 Quiasma ´optico . . . 13
2.2.3 Corteza visual primaria . . . 14
2.2.4 Rutas visuales . . . 15
2.3 Modelos psicof´ısicos de atenci´on visual . . . 16
2.3.1 Teor´ıa de integraci´on de caracter´ısticas de Treisman . . . 17
2.3.2 Modelo de b´usqueda guiada . . . 18
2.3.3 Competici´on neuronal para la atenci´on visual selectiva . . . 19
2.4 T´erminos biol´ogico-computacionales para la atenci´on visual . . . 21
2.4.1 Mapas de caracter´ısticas . . . 21
2.4.2 Mecanismo centro-circundante . . . 22
2.4.3 Mapa de sobresaliencia . . . 22
2.4.4 “Bottom-up” y “top-down” . . . 23
2.5 Conclusi´on . . . 24
3 Trabajo relacionado y estado del arte de los modelos computacionales de atenci´on visual 25 3.1 Modelos computacionales de la atenci´on visual . . . 25
3.1.1 Modelo de atenci´on de Koch y Ullman . . . 26
P´agina
3.1.3 Otros modelos computacionales de atenci´on visual . . . 33
3.2 Conclusi´on . . . 36
4 Evoluci´on de la ruta dorsal artificial 38 4.1 Modelo de la Ruta Dorsal Artificial . . . 38
4.1.1 Adquisici´on de caracter´ısticas visuales y mapas visuales . . . 38
4.2 Algoritmo de Programaci´on Cerebral . . . 44
4.2.1 Representaci´on Gen´etica de la RDA . . . 45
4.2.2 Medida F como Funci´on de Aptitud . . . 48
4.2.3 Operaciones Gen´eticas . . . 52
4.3 Problema de Atenci´on “Top-down” . . . 55
4.3.1 Base de datos de im´agenes . . . 56
4.3.2 Experimentos y resultados . . . 56
4.4 Problema de atenci´on “bottom-Up” . . . 78
4.4.1 Base de datos de im´agenes . . . 79
4.4.2 Correlaci´on como funci´on de aptitud . . . 79
4.4.3 Dimensi´on de Forma . . . 81
4.4.4 Funciones con Constantes . . . 82
4.4.5 Experimentos y Resultados . . . 83
4.4.6 Evoluci´on de RDAs para apuntar la novedad en la escena . . . . 83
5 Concluciones y trabajo futuro 94 5.1 Conclusi´on . . . 94
Lista de figuras
Figura P´agina
1 Campos receptivos de las c´elulas ganglionares. a) Campo receptivo con centro encendido o on-center. b) Campo receptivo con centro apagado o off-center. 13 2 Cuatro campos receptivos t´ıpicos de las c´elulas simples. El est´ımulo efectivo
para estos campos son: a) y b) un borde claro-oscuro que cae en el l´ımite entre las regiones exitatoria (+) e inhibitoria (-). c) una hendidura de luz cubriendo la regi´on exitatoria, y d) una l´ınea obscura cubriendo la regi´on inhibitoria. . 15 3 Ruta dorsal o “D´onde”y ruta ventral o “Qu´e” . . . 16 4 Diagrama del modelo de la teor´ıa de integraci´on de caracter´ısticas. . . 17 5 Modelo de atenci´on biol´ogicamente plausible. . . 28 6 La figura ilustra la correspondencia que existe entre las ´areas de la ruta dorsal
y las etapas del modelo artificial. La idea es emular las transformaciones que sufre la imagen de entrada a lo largo de la ruta de la atenci´on visual. . . 39 7 Este diagrama de flujo muestra el esquema de la ruta dorsal artificial. . . 40 8 Esta figura ilustra la analog´ıa entre el sistema natural y el artificial. La idea
se basa en la evoluci´on de varios operadores matem´aticos, inmersos o encap-sulados dentro de la ruta dorsal artificial, los cuales emulan el funcionamiento de ´areas cerebrales espec´ıficas y que forman parte de lo que llamamos progra-maci´on cerebral. . . 46 9 Ejemplo de la representaci´on de un genotipo. . . 46 10 Diagrama de flujo del algoritmo de Programaci´on Cerebral. . . 49 11 Este diagrama ilustra las regiones en la imagen que se utilizan para calcular
las variables de precisi´on y cobertura. . . 51 12 Esquemas que ilustran las operaciones de mutaci´on a nivel cromos´omico y g´enico. 53 13 Esquemas que ilustran las operaciones de cruzamiento a nivel cromos´omico y
g´enico. . . 54 14 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la
Figura P´agina 15 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para
la base de datos del “Tri´angulo de Advertencia”: 1) gr´afica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) ense˜na la diversidad de la poblaci´on dada por el porcentaje de singularidad de los operadores OV E y
ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y
ICE basada en la cantidad de nodos y su profundidad, respectivamente. . . 59 16 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la
base de datos de “Se˜nales de Tr´afico”: 1) gr´afica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) ense˜na la diversidad de la poblaci´on dada por el porcentaje de singularidad de los operadores OV E y ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y ICE
basada en la cantidad de nodos y su profundidad, respectivamente. . . 60 17 Estas gr´aficas muestran la tasa de detecciones falsas para los mejores
individ-uos a lo largo de las 30 ejecuciones. . . 64 18 Estas gr´aficas muestran las estad´ısticas de la frecuencia de uso de las funciones
y terminales, obtenida de los mejores individuos a lo largo de 30 ejecuciones. 66 19 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del
mejor individuo RDAC14, el cual enfoca correctamente la lata roja en la base
de im´agenes. . . 71 20 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del
mejor individuo RDAT26, el cual enfoca correctamente el tri´angulo de
adver-tencia en la base de im´agenes. . . 72 21 Este diagrama exhibe algunos detalles acerca del funcionamiento interno del
mejor individuo RDAT S22, el cual enfoca correctamente la se˜nal de tr´afico en
la base de im´agenes. . . 74 22 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la
Figura P´agina 23 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para
la base de datos de la “Tri´angulo de Advertencia”: 1) gr´afica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) ense˜na la diversidad de la poblaci´on dada por el porcentaje de singularidad de los operadores OV E y
ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y
ICE basada en la cantidad de nodos y su profundidad, respectivamente. . . 76 24 Estad´ısticas de la Programaci´on Cerebral a lo largo de 30 ejecuciones para la
base de datos de la “Se˜nales de Tr´afico”: 1) gr´afica de aptitud que muestra la media, la mediana y la mejor aptitud. 2) ense˜na la diversidad de la poblaci´on dada por el porcentaje de singularidad de los operadores OV E y ICE, as´ı como por la distancia Euclidiana entre los individuos de la poblaci´on. 3) y 4) exponen la complejidad de las estructuras de los operadores OV E y ICE
basada en la cantidad de nodos y su profundidad, respectivamente. . . 77 25 Procedimiento de correlaci´on. . . 80 26 Prueba de novedad con imagen “bottom-up”. Esta figura muestra la mejor
RDA que fue evolucionada con PC para atender el tri´angulo. . . 84 27 Conjunto de entrenamiento de im´agenes usado por la PC para obtener una
RDA para la atenci´on de la novedad de tama˜no. . . 85 28 Estad´ısticas de la Programaci´on Cerebral a lo largo de la ejecuci´on de 9
exper-imentos para la b´usqueda de la novedad de tama˜no. a) El gr´afico de aptitud muestra la aptitud promedio, mediana y la mejor aptitud, b) La diversidad de la poblaci´on muestra el porcentaje de unicidad de los operadores OV Es
y ICE as´ı como la distancia Euclideana entre los individuos de la poblaci´on, c) y d) Muestran la complejidad de la estructura de los operadores OV Es y
ICE basados en el n´umero de nodos y niveles respectivamente. . . 86 29 Resultados de la mejorRDAtamano˜ obtenida despu´es de 9 ejecuciones durante
la etapa de prueba. . . 87 30 Ejemplo de la funcionalidad de la mejor RDAtamano˜ aplicada sobre una imagen. 88
31 Conjunto de im´agenes de entrenamiento usado por la PC para obtener una
RDA para la atenci´on de la novedad de ausencia. . . 89 32 Estad´ısticas de la Programaci´on Cerebral durante la ejecuci´on de 10
experi-mentos para la b´usqueda de espacios vac´ıos. a) La gr´afica de la aptitud muestra la mejor aptitud y la aptitud media y mediana, b) la diversidad de la poblaci´on muestra el porcentaje de unicidad de los operadores OV Es y ICE as´ı como la distancia Euclideana entre las aptitudes de los individuos de la poblaci´on, c) y d) muestran la complejidad de la estructura de los operadores OV Es y
Figura P´agina 33 Resultados de la mejor RDAausencia a lo largo de 10 ejecuciones durante la
Lista de tablas
Tabla P´agina
1 Funciones FO y terminales TO aplicadas con el operador evolucionado
OV EO. . . 47
2 Funciones FC y terminales TC utilizados por el operador evolucionado
OV EC . . . 48
3 Funciones FIC y terminales TIC utilizadas por el operador ICE. . . 48
4 Valores iniciales para el algoritmo de PC . . . 55 5 Esta tabla muestra la tasa de detecciones falsas ocurridas antes de
en-contrar el objetivo (media ±desviaci´on est´andar). . . 62 6 Estas tablas muestran la selecci´on de 6 de las 30 mejoresRDAC
clasifi-cadas de acuerdo a su informaci´on estructural. . . 67 7 Estas tablas muestran la selecci´on de 6 de las 30 mejoresRDAT
clasifi-cadas de acuerdo a su informaci´on estructural. . . 68 8 Estas tablas muestran la selecci´on de 4 de las 30 mejoresRDAT S
clasi-ficadas de acuerdo a su informaci´on estructural. . . 69 9 Esta tabla muestra la mejorRDAT S obtenida durante los experimentos
de la primera y segunda fase. . . 78 10 Estas tablas muestran una selecci´on de individuos que son iguales o
similares a las soluciones mostradas en las Tablas 6, 7 y 8. . . 78 11 Conjunto de funciones FF y terminales TF utilizadas por el operador
EV OF. . . 82
12 Conjunto de funciones Fk con un operando constante k y que son
uti-lizadas por los operadores OV EO,OV EC, OV EF y ICE. . . 83
13 Esta Tabla muestra la mejorRDAT ri´angulo obtenida durante los
experi-mentos. . . 84 14 Esta tabla muestra la mejor RDAtama˜no obtenida durante los
experi-mentos. . . 87 15 Esta tabla muestra la mejor RDAausencia obtenida durante los
1.1 Motivaci´on
La presente investigaci´on trata de un mecanismo biol´ogico conocido como atenci´on visual, este mecanismo ha sido objeto de inter´es para los cient´ıficos dentro del ´area de la visi´on por computadora ya que la atenci´on visual, computacionalmente hablando, podr´ıa reducir considerablemente la dificultad de tareas como el reconocimiento de objetos. En el ´ambito de las ciencias computacionales, el estudio de la atenci´on visual se vuelve multidisciplinario debido a las concideraciones biol´ogicas y computacionales que abarca. Por esta raz´on, la motivaci´on de este estudio proviene de diferentes disciplinas. A continuaci´on se presentan las dos principales corrientes que motivar´on este trabajo.
1.1.1 Motivaci´on biol´ogica
En el pasado, la idea de que los observadores humanos constru´ıan una representaci´on com-pleta de su campo visual, estaba ampliamente extendida (Feldman, 1985; Trehub, 1991). Esta creencia ha sido ampliamente refutada por una gran cantidad de investigaci´on. La atenci´on visual es sin lugar a dudas una de los m´as importantes mecanismos en el sistema visual, porque el cerebro, o las ´areas visuales corticales, no son capaces de procesar toda la informaci´on presente en el campo visual entero. Existen dos fen´omenos b´asicos que de-finen el problema de atenci´on visual. El primer fen´omeno b´asico es la limitada capacidad del cerebro para procesar la informaci´on visual. En un momento dado, s´olo una peque˜na cantidad de informaci´on disponible en la retina puede ser procesada y utilizada en el control del comportamiento. El segundo fen´omeno b´asico es la selectividad, la habilidad de filtrar informaci´on no necesaria o indeseable y enfocar aquella que es ´util o requerida (Desimone y Duncan, 1995).
Con respecto al procesamiento de la informaci´on visual, existen mecanismos de bajo nivel para la extracci´on de caracter´ısticas que actuan en paralelo sobre el campo visual entero para proveer los est´ımulos “bottom-up” de lo m´as destacado en la escena. Despu´es, la atenci´on se enfoca secuencialmente en las ´areas sobresalientes de la imagen para analizarlas con m´as detalle (Treisman y Gelade, 1980; Koch y Ullman, 1985). Julesz (1984) ha mostrado en sus estudios de discriminadores de texturas, que s´olo un conjunto limitado de caracter´ısticas elementales, llamadas textones, puede ser detectado en paralelo. Dichas caracter´ısticas que pueden ser detectadas en paralelo son el color, la orientaci´on de bordes y ciertos par´ametros de forma como la curvatura, entre otras.
Un problema surge de la detecci´on de diferentes caracter´ısticas, y es la combinaci´on de dichas caracter´ısticas, tales como el color y la orientaci´on, en un sola representaci´on de sobre-saliencia. Esto se vuelve complejo porque las caracter´ısticas provienen de diferentes modali-dades visuales. La complejidad se incrementa cuando se observa a un objeto en particular y es necesario filtrar informaci´on para enfatizar las caracter´ısticas del objeto deseado.
Para un posterior an´alisis de la informaci´on visual, como es el reconocimiento de objetos o la realizaci´on de actividades visuomotoras, es necesario enfocar la atenci´on sobre una regi´on del campo visual. De acuerdo con lateor´ıa de integraci´on de caracter´ısticas las propiedades de la posici´on atendida son puestas juntas en una representaci´on central, por lo que la atenci´on visual sirve como un “pegamento” que integra las caracter´ısticas que estaban inicialmente separadas en objetos unitarios (Treisman y Gelade, 1980). En el mismo sentido, Posner
et al. (1980) concluyeron que la atenci´on visual opera “como un punto de luz que mejora la
detecci´on de eventos en su proximidad”.
La atenci´on visual ha sido estudiada desde hace varias decadas por investigadores de diferentes disciplinas cient´ıficas como neur´ologos, psic´ologos, fisi´ologos, y en las ´ultimas tres decadas por gente dedicada a la visi´on por computadora, la cual ve en la atenci´on visual una manera factible para disminuir la complejidad de diversos problemas en el campo de estudio. Neurol´ogicamente hablando, existen al menos 30 ´areas en la corteza visual. Estas ´areas estan organizadas en dos rutas principales de procesamiento visual, ambas comienzan en la corteza visual primaria V1. La ruta ventral se dirige a la corteza inferotemporal y es importante para el reconocimiento de objetos; mientras que la ruta dorsal se dirige a la corteza parietal posterior y es importante para la percepci´on espacial y el desempe˜no visuomotor, en otras palabras, est´a a cargo de la atenci´on visual.
del cerebro. En los primates est´a intimamente ligada a la selecci´on natural de mecanismos visuales espec´ıficos (Barton, 1998). De hecho, el sistema visual binocular ha evolucionado para adaptarse al ambiente; i.e. es m´as f´acil para un depredador con visi´on estereosc´opica esquivar el camuflaje de la presa, esto se puede conseguir si consideramos que la presa ca-muflajeada est´a parada en un plano distinto al del fondo. La detecci´on de la presa en dicho caso ser´ıa m´as dif´ıcil para un organismo con visi´on monocular (Julesz, 1984). La ventaja del depredador el cual puede burlar el camuflaje es suficiente para incrementar su valor de super-vivencia. Debido al importante rol de la visi´on en la evoluci´on del cerebro, nos enfocaremos en el sistema visual humano desde un punto de vista funcional y evolutivo.
Los sistemas visuales de diferentes especies exhiben un notable nivel de diversidad. Estos sistemas reflejan las variadas respuestas a colores de diferentes ambientes. La visi´on tiene profundos efectos en la evoluci´on de los organismos, afectando su supervivencia a trav´es de comportamientos como, apareamiento, b´usqueda de comida, y evasi´on de depredadores. ¿C´omo modifican su visi´on los vertebrados para adaptarse a varios ambientes? Esta pregunta sobre la evoluci´on de los vertebrados est´a intimamente relacionada a la fototransducci´on (Yokoyama, 2002). Adem´as, los fotorreceptores entre las especies son diversos y ofrecen un gran potencial para la adaptaci´on evolutiva. Nosotros usamos este conocimiento para evolucionar artificialmente partes espec´ıficas de las rutas dorsales artificiales con el objetivo de que estas realicen tareas de atenci´on visual.
1.1.2 Motivaci´on computacional
Una gran cantidad de informaci´on es percibida a cada momento, mucha m´as de la que puede ser procesada eficientemente por el cerebro humano. Sin embargo, la detecci´on y el re-conocimiento de objetos usualmente se realiza con un m´ınimo de esfuerzo. En contraste, en visi´on por computadora la detecci´on y el reconocimiento de objetos son unos de los proble-mas m´as dif´ıciles (Forsyth y Ponce, 2003). Existen varios sisteproble-mas sofisticados para tareas especializadas como la detecci´on de caras (Viola y Jones, 2004) o peatones (Papageorgiou
et al., 1998), pero desarrollar un sistema general capaz de igualar la habilidad humana de
reconocer miles de objetos desde diferentes puntos de vista, bajo condiciones de iluminaci´on variables y con oclusiones parciales parece estar lejos todav´ıa. Sugeriere, por lo tanto, que se puede mejorar el rendimiento de los sistemas computacionales con la b´usqueda de inspiraci´on en los sistemas biol´ogicos y simular sus mecanismos. El cerebro es la prueba de que resolver la tarea es posible.
Uno de los mecanismos que hace a los humanos tan efectivos para actuar en la vida diaria es la habilidad de la atenci´on visual. La informaci´on relevante extra´ıda es dirigida a ´areas m´as altas del cerebro donde procesos complejos tales como el reconocimiento de objetos toman lugar. Restringir estos procesos a subconjunto limitado de los datos sensoriales aumenta su eficiencia.
En visi´on por computadora, la detecci´on de objetos y el reconocimiento es un campo de gran inter´es. Las aplicaciones de la visi´on por computadora van desde la video vigilancia, monitoreo de tr´afico, sistemas de asistencia para conductores, e inspecci´on industrial hasta la interacci´on entre computadora y humano, recuperaci´on de im´agenes en bibliotecas digi-tales y an´alisis de im´agenes medicas. En rob´otica, la detecci´on de obst´aculos, manipulaci´on de objetos, creaci´on de mapas sem´anticos, y la detecci´on de puntos de referencia para la navegaci´on.
1.2 Alcance
por medio de la imitaci´on de dos tareas principales (Treisman y Gelade, 1980).
• Adquisici´on, en esta etapa, las caracter´ısticas son capturadas tempranamente, au-tom´aticamente y en parallelo a lo largo del campo visual, usando receptores visuales. Dichos receptores est´an especializados para reaccionar a propiedades espec´ıficas de la escena tales como la orientaci´on, el color, el brillo y el movimiento. Despu´es, la infor-maci´on de los receptores es transmitida y procesada en diferentes ´areas del cerebro.
• Integraci´on, en esta etapa, las caracter´ısticas visuales separadas que est´an presentes en el ambiente con combinadas para percidir la regi´on m´as prominente mientras que se b´usca atender los objetos de inter´es dentro de la escena.
En este trabajo, la atenci´on visual es vista como el producto de un proceso de opti-mizaci´on, donde los factores “bottom-up” y “top-down” son integrados para producir este fen´omeno b´asico ´unico. As´ı, como en la atenci´on visual biol´ogica, el algoritmo se compone de dos tareas que son usadas en el ciclo de percepci´on y acci´on. La primer tarea, relacionada con la percepci´on, es atribuible a la limitada capacidad de procesamiento del sistema visual; mientras que la segunda funci´on relacionada con la acci´on es una consequencia de la selec-tividad o habilidad de filtrar informaci´on visual no deseada. En este sentido, se dice que la selectividad de atenci´on visual est´a controlada por factores “bottom-up” y “top-down” (Desimone y Duncan, 1995; Corbetta y Shulman, 2002). Sin embargo, en este trabajo se da un enfasis a la habilidad de dise˜nar programas de atenci´on visual bajo un ´unico marco de optimizaci´on (Dozal et al., 2012). Es por esta raz´on que en esta investigaci´on la atenci´on visual es estudiada como un ´unico proceso resultado de un ´unico mecanismo dise˜nado para obedecer un prop´osito general, el cual podr´ıa estar hecho de diferentes metas particulares pretendiendo dise˜nar una relaci´on entre el observador y la escena. En particular, este tra-bajo detalla la aplicaci´on de la metodolog´ıa propuesta para la soluci´on de problemas de tipo “top-down” que han sido previamente abordados en la literatura y los cuales han sido usados aqu´ı como punto de referencia para comparar nuestra propuesta con cuatro algoritmos en el estado del arte Itti y Koch (2001).
deber´an ser b´uscadas en el espacio de posibles programas de atenci´on visual. Segundo, la integraci´on de las mejores caracter´ısticas visuales en un solo mapa de sobresaliencia, lo cual es visto como una tarea dif´ıcil debido a que las diferentes dimensiones visuales producen un problema combinatorial. Finalmente, tenemos el problema de la formulaci´on de la atenci´on visual en t´erminos de un proceso de optimizaci´on/b´usqueda que b´usca una RDA capaz de atender un objetivo dado. En este estudio, se illustrar´a c´omo un enfoque evolutivo permite abordar estos problemas por medio de la implementaci´on de una estrategia de programaci´on cerebral.
1.3 Contribuciones
Esta monograf´ıa cient´ıfica presenta un nuevo enfoque para la detecci´on de objetos y la b´usqueda en im´agenes orientada a metas. Este trabajo est´a basado en el muy conocido y am-pliamente aceptado sistema de atenci´on “bottom-up” de Ittiet al.(1998). Esta arquitectura es evolucionada y mejorada para lidiar con factores “top-down” y realizar una atenci´on vi-sual orientada a metas. Adem´as, la evoluci´on tambi´en le permiti´o a dicha estructura realizar tareas “bottom-up” que anteriormente no hab´ıan sido realizadas.
El presente estudio hace las siguientes contribuciones.
• Primero, el dise˜no autom´atico de rutas dorsales artificiales es explicado, donde el prob-lema esta formulado en t´erminos de un enfoque de optimizaci´on/b´usqueda. Esta expli-caci´on extiende las anteriores de Dozal et al. (2012, 2013) y Olague et al. (2014).
• Segundo, una nueva estrategia llamada programaci´on cerebral basada principalmente en la programaci´on gen´etica (GP) (Koza, 1992) es introducida. El enfoque sigue un paradigma jer´arquico desarrollado dentro de la comunidad de neurociencias y com-putaci´on en combinaci´on con la idea de que funciones especiales, en la forma de pro-gramas matem´aticos y computacionales, pueden ser artificialmente evolucionados para resolver al problema de la atenci´on visual. De hecho, el enfoque propuesto es capaz de dise˜nar programas competitivos que retan a los dise˜nos de espertos humanos de acuerdo a los resultados obtenidos y utilizando pruebas estandar.
• Cuarto, la incorporaci´on de la dimensi´on de forma, llevada a cabo mediante operaciones morfol´ogicas, es una contribuci´on original a la investigaci´on de atenci´on visual.
• Finalmente, el desempe˜no de cada experimento se describe en las secci´ones 4.3 y 4.4 seguidos de un an´alisis de las mejores soluciones. De la misma manera, las estructuras finales de las mejores rutas dorsales artificiales se describen junto con algunos detalles acerca su funcionamiento interno. Adem´as, el art´ıculo presenta resultados que dan un entendimiento estad´ıstico acerca de las din´amicas y el desempe˜no general del sistema evolutivo.
1.4 Organizaci´on del documento
Cap´ıtulo 2. Fundamentos te´oricos de la atenci´on visual
En este cap´ıtulo se presenta una breve revisi´on de los fundamentos te´oricos de la atenci´on visual. El t´ermino atenci´on es com´un en el lenguaje diario y es familiar para todos. Sin embargo, es necesario aclarar y definir el t´ermino propiamente. Ya que la atenci´on visual es un concepto de percepci´on humana, es importante entender el proceso visual subyacente en el cerebro y saber acerca de los descubrimientos psicol´ogicos y neuro-biol´ogicos en este campo.
En este cap´ıtulo, primero, en la secci´on 2.1, se describen diferentes conceptos de lo que se entiende por atenci´on. La diversidad de conceptos existentes evidenc´ıa lo dif´ıcil que es su campo de estudio. Despu´es, en la secci´on 2.2, se discuten los procesos neuronales involucrados en el procesamiento visual y de atenci´on en el cerebro humano, con el objetivo de entenderlos mejor. A continuaci´on, se introducen algunos modelos psicof´ısicos de la atenci´on visual que forman la base para muchos modelos de atenci´on computacionales actuales (secci´on 2.3). Finalmente, en la secci´on 2.4 se discuten algunos conceptos neuro-biol´ogicos de atenci´on visual que se utilizan com´unmente tanto en los modelos psicof´ısicos como en los computacionales. Conclu´ımos este cap´ıtulo con una discusi´on en la secci´on 2.5.
2.1 Conceptos b´asicos de atenci´on visual
En esta secci´on, se descuten varios conceptos relacionados con atenci´on visual, necesarios para el mejor entendimiento del resto de este documento. Primero, se reviza y define lo que es la atenci´on visual, despu´es se introdusen los conceptos de “bottom-up” y “top-down”, y finalmente, se explica el paradigma de b´usqueda visual, tan utilizado en la investigaci´on de la atenci´on visual.
2.1.1 ¿Qu´e es la atenci´on visual?
atenci´on visual como una manera factible para reducir la complejidad del procesamiento de la informaci´on visual (Tsotsos, 1990; Frintrop et al., 2010; Wischnewski et al., 2010; Taylor y Cutsuridis, 2011; Neokleous et al., 2011). Recientemente, una disciplina conocida como visi´on cognitiva (Vernon, 2008; Nagel, 2003) fue creada de la combinaci´on de la visi´on por computadora y ´areas de investigaci´on cognitivas. Por consiguiente, se dice que los sistemas de visi´on cognitiva deber´ıan ser capaces de dedicarse al comportamiento dirigido a metas, mien-tras que se adaptan robustamente a cambios inesperados en el campo visual, y deber´ıan tener la habilidad de anticipar la ocurrencia de objetos o eventos; v´ease (Vernon, 2008). Adem´as, la atenci´on visual es considerada un problema cr´ıtico en la visi´on cognitiva (Tsotsos, 2006). Debido a la importancia del mecanismo de atenci´on visual, muchas definiciones diferentes han sido formuladas. A continuaci´on, se resumen algunas de esas ideas. Al principio de los 80’s Posner et al. (1980), propusieron que la atenci´on visual podr´ıa ser entendida en terminos de un “punto de luz” que mejora la eficiencia de la detecci´on de eventos dentro de su haz. M´as tarde, Treisman y Gelade (1980), compararon la atenci´on con un “pegamento”, el cual integra las caracter´ısticas, inicialmente separadas, en objetos unitarios. Entonces, en la misma decada, Koch y Ullman (1985) describieron la atenci´on visual como una habilidad la cual permite a la creatura dirigir su vista r´apidamente hacia el objeto de inter´es en el campo visual. Despu´es, dos diferentes propuestas fueron desarrolladas. A mediados de los a˜nos 90, Desimone y Duncan (1995) introdujeron la atenci´on visual como una propiedad que emerge del procesamiento visual, que es visto como el producto de muchos mecanismos neuronales trabajando para resolver el problema de la competici´on por los recursos y control del comportamiento. Finalmente, Wolfe (2000) explica que la atenci´on es un “habilitador” m´as que un actor. En otras palabras, en lugar de decir que la atenci´on de alguna manera identifica un objeto, es mejor decir que la atenci´on habilita al proceso de reconocimiento de objetos para que trabaje sobre una sola cosa a la vez. Por consiguiente, en este trabajo, despu´es de considerar trabajos previos, introducimos una nueva definici´on de antenci´on visual que consiste en una relaci´on funcional que filtra la informaci´on visual de acuerdo con la tarea en cuestion.
La atenci´on visual es un proceso que dise˜na una relaci´on entre las diferentes
2.1.2 “Bottom-up” y “top-down”
Hoy en d´ıa, las explicaciones cl´asicas de la atenci´on visual est´an de acuerdo con la idea de que est´a influenciada por factores “bottom-up” y “top-down”. Algunos trabajos explican la existencia de dos sistemas neuronales involucrados y que interactuan en el control de la atenci´on visual, v´ease (Yarbus, 1967; James, 1950; Desimone y Duncan, 1995; Egeth y Yantis, 1997; Corbetta y Shulman, 2002; Underwood, 2009). Como resultado, la atenci´on visual es usualmente estudiada como dos propuestas separadas enfocandose en los procesos “bottom-up” y “top-down” (James, 1950).
En la literatura dice que la atenci´on visual reactiva o “bottom-up” depende enteramente del est´ımulo; i.e. la novedad y lo inesperado. Adem´as est´a relacionada con la atenci´on involuntaria, la cual es usualmente comparada con la idea del “punto de luz”. Esta met´afora ha sido utilizada por Posner et al. (1980) para explicar que la atenci´on visual opera “como un punto de luz el cual mejora la detecci´on de eventos es su proximidad”. Para Wolfe (1994) la activaci´on “bottom-up” es una medida de que tan inusual es un objeto en su contexto presente. La fuerza de la activaci´on “bottom-up” en una posici´on est´a basado en las diferencias entre el objeto y los objetos en el vecindario de su localizaci´on. No depende del conocimiento del sujeto o de una tarea de b´usqueda espec´ıfica. Las diferencias se refieren a las diferencias en el espacio de la caracter´ıstica relevante, por ejemplo la diferencia angular entre l´ıneas en el espacio de la orientaci´on. Un modelo completo requerir´ıa un entendimiento de las m´etricas de cada espacio de caracter´ısticas.
Actualmente, una de las mejores y m´as faciles maneras de implementar un conjunto de pruebas es estudiar la atenci´on “bottom-up” en terminos de la b´usqueda visual. Com´unmente, la tarea exploratoria es estudiada experimentalmente usando un conjunto de im´agenes que contienen estimulos visuales exigentes que son presentados a un observador. Por cada imagen hay un objeto de inter´es u objetivo que es diferente del resto.
caracter´ısticas, lo cual forza al observador a realizar un escaneo de la escena.
El fen´omeno visual “top-down”, es usualmente estudiado en psicof´ısica a trav´es de los llamados “experimentos con se˜nales”. Este tipo de experimentos consisten en presentar una se˜nal o pista que gu´ıe la atenci´on del observador hacia el objetivo. De esta manera, se dice que las se˜nales pueden indicar en d´onde est´a el objetivo, como en el caso de una flecha apuntando hacia el objetivo, o pueden contestar qu´e es el objeto por medio de la b’usqueda de las similitudes entre una figura, o una descripci´on escrita, y el objetivo, v´ease (Frintrop, 2006).
2.1.3 B´usqueda visual
A la tarea de encontrar un objetivo entre varios distractores se le conoce generalmente como
b´usqueda visual, t´ıpicamente hay un solo objetivo que difiere de los distractores en una o m´as
caracter´ısticas. Adem´as, ha sido uno de los paradigmas m´as productivos para el estudio del desarrollo de la atenci´on visual. En el paradigma de la b´usqueda visual el sujeto b´usca un objetivo entre un conjunto de objetos distractores. Dos m´etodos son usados com´unmente. En el que puede ser llamado elm´etodo del porcentaje correcto, el experimentador presenta breve-mente un arreglo de objetos seguidos de una m´ascara durante un intervalo inter-est´ımulos (IIE), v´ease (Wolfe, 1994). El sujeto hace una elecci´on forzada y responde “s´ı”, si el objetivo est´a presente, o “no”, si est´a ausente, el porcentaje correcto es medido como una funci´on del IIE. El n´umero total de objetos (tama˜no del conjunto) var´ıa. Si una tarea puede ser realizada con mucha exactitud incluso con IIEs cortos, y si la funci´on IIE × porcentaje correcto no cambia con el tama˜no del conjunto, entonces esto es interpretado como una demostraci´on de que todos los objetos han sido procesados en paralelo, en este caso se le llama b´usqueda
paralela. Si conjuntos m´as grandes requieren IIEs m´as largos para alcanzar el mismo
por-centaje correcto que conjuntos m´as peque˜nos, esto es interpretado como demostraci´on de que un proceso con limitada capacidad es requerido para la tarea de b´usqueda, en cuyo caso se le llama b´usqueda serial (Bergen y Julesz, 1983).
El segundo m´etodo mide el tiempo de reacci´on (TR) como una funci´on del tama˜no del conjunto y es el m´as utilizado en investigaciones recientes. La b´usqueda es llamada paralela
cuando el tiempo de la b´usqueda es independiente del n´umero de objetos distractores, o es llamada serial cuando el tiempo de b´usqueda se incrementa con el n´umero de objetos distractores.
independientes o por su conjunci´on. Si, como se asume en la teor´ıa de integraci´on de car-acter´ısticas (Treisman y Gelade, 1980), las carcar-acter´ısticas simples pueden ser detectadas en paralelo sin las limitaciones de la atenci´on. Lab´usqueda de caracter´ıstica, donde los objetivos est´an definidos por la variaci´on de una sola de dichas caracter´ısticas, deber´ıa ser afectada muy poco o nada por las variaciones en el n´umero de distractores, causando que el objetivo resalte mucho, dicho efecto sobre el objetivo es conocido como “pop-out”. En este escenario, la interferencia lateral y la agudeza deber´ıan ser los ´unicos factores que tienden a incremen-tar los tiempos de b´usqueda, quiz´as forzando las fijaciones seriales del ojo. En contraste, se asume que la atenci´on es necasaria para la detecci´on de objetivos que est´an definidos por una conjunci´on de propiedades. Tales objetivos deber´ıan por lo tanto ser encontrados s´olo despu´es de un escaneo serial.
En la b´usqueda de conjunci´on, el objetivo difiere de los distractores en una ´unica combi-naci´on de caracter´ısticas; el objetivo no puede ser caracterizado por un solo y ´unico atributo, v´ease (Verghese, 2003). Un ejemplo de una tarea de b´usqueda de conjunci´on es un objetivo que es una l´ınea vertical brillante entre distractores que son l´ıneas verticales obscuras y l´ıneas inclinadas brillantes. Ni el brillo ni la orientaci´on por si solas definen al objetivo de manera ´
unica.
2.2 Consideraciones neurol´ogicas de la atenci´on visual
El cerebro es el organo m´as sofisticado en el cuerpo humano; una de sus tareas fundamentales es controlar y administrar las actividades que realizan los organos sensoriales. Los neurologos han dividido el cerebro humano en cuatro l´obulos: frontal, temporal, parietal, y occipital. El l´obulo occipital tiene un inter´es especial para la comunidad que estudia la visi´on porque es donde se localiza la corteza visual. En realidad, la corteza visual primaria y las ´areas visuales secundarias est´an especializadas en el procesamiento de la informaci´on visual, la localizaci´on de objetos, la estimaci´on de la direcci´on, velocidad y trayectoria de los objetos.
2.2.1 El ojo
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
− −
−
−
− −
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
+
+
+
+
+
++
+
+
+
+
+
−−
−
−
−
−
−
−
−
−
+
a)
b)
−
−
−
−
Figura 1. Campos receptivos de las c´elulas ganglionares. a) Campo receptivo con centro encendido oon-center. b) Campo receptivo con centro apagado ooff-center.
diferentes: los bastones y los conos. Los bastones son los m´as numerosos, alrededor de 120 millones, y son m´as sensibles a la luz que los conos. Sin embargo, no son sensibles al color. Los conos son alrededor de 8 millones y son sensibles al color, existen tres tipos de conos de acuerdo a su sensibilidad al color: sensibles a longitud de onda corta–(o azul), sensibles a longitud de onda media–(o verde), y sensibles a longitud de onda larga–(o rojo) (Boynton, 1979).
Los bastones y los conos est´an conectados a las c´elulas ganglionares via las c´elulas bipo-lares. Las c´elulas fotorreceptoras y las bipolares producen un potencial graduado, mientras que las c´elulas ganglionares producen un potencial de acci´on transformando la se˜nal anal´ogica en una discreta. El campo receptivo de las c´elulas ganglionares es circular y est´a separado en dos ´areas, un ´area central y un ´area circundante. Existen dos diferentes tipos de c´elulas ganglionares: c´elulas con centro encendido (on-center) que responden exitatoriamente a la luz en el centro y las c´elulas centro apagado (off-center) que responden inhibitoriamente a la luz en el centro. El ´area circundante de la regi´on central siempre tiene la caracter´ıstica opuesta (Palmer, 1999), ver figura 1.
2.2.2 Quiasma ´optico
proveniente de la retina. Los estudios han demostrado que las respuestas neuronales en el NGL pueden ser moduladas por los procesostop-down relacionados con la atenci´on selectiva y las im´agenes mentales (Chen et al., 1998; O’Connoret al., 2002).
2.2.3 Corteza visual primaria
La informaci´on que abandona el NGL se dirige a la corteza visual primaria (V1), tambi´en conocida como corteza estr´ıada, que es parte de la corteza cerebral y es responsable de proce-sar la informaci´on visual. La V1 est´a localizada en el l´obulo occipital en la parte trasera del cerebro. Las c´elulas en V1 tienen campos receptivos alongados con regiones excitatorias e inhibitorias que siempre est´an separadas por una l´ınea recta o por dos l´ıneas paralelas. En consequencia, las c´elulas responden mejor a est´ımulos alongados como barras, bordes, y l´ıneas. A diferencia de las c´elulas en etapas m´as tempranas en la ruta de la informaci´on visual, estas c´elulas reponden mejor a l´ıneas en movimiento que a l´ıneas estacionarias. Hubel y Wiesel (Hubel y Wiesel, 1962) clasificaron las c´elulas en V1 de acuerdo a la complejidad de su respuesta a los est´ımulos visuales y las dividieron en dos clases de c´elulas conocidas como simples y complejas. Como su nombre sugiere, los dos tipos difieren en la comple-jidad de su comportamiento, adem´as hacen la razonable suposici´on de que las c´elulas con comportamiento m´as simple est´an m´as cerca a la entrada de la corteza visual (Hubel, 1995). La diferencia entre las c´elulas simples y las c´elulas en etapas m´as tempranas radica en la geometr´ıa de las regiones de excitaci´on e inhibici´on dentro de los campos receptivos. Los campos receptivos de las c´elulas en etapas tempranas tienen regiones circulares, consisten en una regi´on, excitatoria o inhibitoria, rodeada por la regi´on opuesta, esto significa que una l´ınea o borde, produce la misma respuesta sin importar como est´a orientada. Las c´elulas corticales son m´as complicadas, entre mayor sea el traslape entre la regi´on excitatoria y el est´ımulo, mayor ser´a la excitaci´on resultante. De manera que las c´elulas simples responden mejor a est´ımulos con una orientaci´on ´optima; la respuesta se reduce cuando el est´ımulo est´a entre los 10 y 20 grados hacia cualquier lado del ´optimo, y fuera de ese rango la respuesta decae abruptamente a cero. Entre las c´elulas simples, podemos encontrar diferentes geometr´ıas, para cada una de las cuales se encuentran todas las posibles orientaci´ones y todas las posibles posiciones en el campo receptivo (Hubel, 1995).
−
−
−
−
−
−
−
−
−
−
−
−
+
+
+
+
+
+
+
+
+
+
+
+
−
−
−−
−
−
a)
−
−
−
−
−
−
−
−
−
−
−
+
+
+
+
−
+
+
−
−
−
−
−
−
−
− −
−
−
−
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
−
+
+
+
+
+
+
+
+ +
+
+
+
b)
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
−−
−
−
−
−
c)
d)
Figura 2. Cuatro campos receptivos t´ıpicos de las c´elulas simples. El est´ımulo efectivo para estos campos son: a) y b) un borde claro-oscuro que cae en el l´ımite entre las regiones exitatoria (+) e inhibitoria (-). c) una hendidura de luz cubriendo la regi´on exitatoria, y d) una l´ınea obscura cubriendo la regi´on inhibitoria.
s´olo dentro de los l´ımites de su campo receptivo. Distinto a las c´elulas simples, las c´elulas complejas responden a barras estacionarias sin importar donde est´en localizadas dentro del campo receptivo, siempre y cuando la orientaci´on de la barra sea la apropiada (Hubel, 1995).
2.2.4 Rutas visuales
Corteza parietal
MT (V5)
V1
V2 V3
V2
V4
Corteza Inferotemporal ¿Q
U ´E?
¿D´ON DE?
Figura 3. Ruta dorsal o “D´onde”y ruta ventral o “Qu´e”
de Milner y Goodale (1995), la ruta dorsal tambi´en es conocida como ruta del ¿c´omo?; mientras que en el trabajo desarrollado por Baluch y Itti (2011), los procesos de la ruta dorsal difieren significativamente con respecto a los de la literatura. La raz´on de esta discordancia es primeramente que las rutas visuales no est´an completamente aisladas, existe una densa interconectividad entre las ´areas que conforman las rutas ventral y dorsal. Y segundo, que la investigaci´on de la corteza visual comenz´o apenas hace algunos a˜nos atr´as y su funcionalidad todav´ıa no se entiende completamente.
2.3 Modelos psicof´ısicos de atenci´on visual
En el campo de la psicolog´ıa, exiten una gran variedad de modelos de atenci´on visual. Su objetivo es simular datos conductuales y de este modo explicar y entender mejor la percepci´on humana. Hay modelos descriptivos y modelos que son implementados computacionalmente. Estos ´ultimos est´an especialmente bien adecuados para la comparaci´on con datos psicol´ogicos obtenidos de experimentos con humanos.
Etapa de Atenci´on
Mapa de localizaciones
Etapa Preatentiva
Campo Visual
Orientaci´on
Color
Forma
Mapas de
Caracter´ısticas
Combinaci´on de Caracter´ısticas
Figura 4. Diagrama del modelo de la teor´ıa de integraci´on de caracter´ısticas.
modelo de competici´on neuronal descrito en la secci´on 2.3.3.
2.3.1 Teor´ıa de integraci´on de caracter´ısticas de Treisman
A comienzos de los a˜nos 80 la teor´ıa de integraci´on de caracter´ısticas de atenci´on visual fue propuesta por Treisman y Gelade (1980). Actualmente, esta teor´ıa es considerada como el paradigma de atenci´on visual m´as ampliamente aceptado dentro de la comunidad de ciencias cognitivas, ya que es considerada como un paso fundamental para entender el funcionamiento de la atenci´on visual.
Esta teor´ıa afirma que en primer lugar “las caracter´ısticas son registradas temprana-mente, autom´aticatemprana-mente, y en paralelo a trav´es del campo visual...” conocida como etapa preatentiva, “...mientras que los objetos son identificados de manera separada y solamente en una etapa posterior, la cual requiere enfocar la atenci´on” conocida como etapa de atenci´on, v´ease (Treisman y Gelade, 1980) y la figura 4. Las caracter´ısticas visuales de la escena est´an codificadas en lo que ellos llaman dimensiones tales como el color, orientaci´on, movimiento, frecuencia espacial, y brillo, y que son funcionalmente separables, esto quiere decir que son analizadas de manera separada por subsistemas perceptuales funcionalmente independientes, y por caracter´ıstica se refieren a un valor particular de una dimensi´on como son: verde, vertical, opaco.
Una de las principales declaraciones de la teor´ıa de integraci´on de caracter´ısticas, es que un objetivo es detectado f´acilmente, r´apido, y en paralelo (pop-out) si difiere de los distractores en exactamente una caracter´ıstica y los distractores son homogeneos. Si difiere en m´as de una caracter´ıstica (b´usqueda de conjunci´on) se requiere que la atenci´on resulte en una b´usca serial. Por lo tanto, los resultados de los experimentos sugieren que las conjunciones de dos o m´as caracter´ısticas requieren que la atenci´on se dirija serialmente a cada posici´on relevante.
2.3.2 Modelo de b´usqueda guiada
El objetivo b´asico del modelo de b´usqueda guiada es explicar y predecir los resultados de experimentos de b´usqueda visual. M´as generalmente, el modelo b´usca explicar nuestra ha-bilidad para encontrar un est´ımulo visual deseado en una escena visual normal y continua (Wolfe, 1994).
En el modelo de integraci´on de caracter´ısticas (Treisman y Gelade, 1980) los procesos paralelos parecen tener muy poca influencia en los subsecuentes procesos seriales. En el modelo estandar de integraci´on de caracter´ısticas, los procesos paralelos pueden identificar objetivos sobre la base de una s´ola caracter´ıstica. Sin embargo, si no se encuentra el objetivo, nada de la informaci´on que ha sido recolectada es usada por el proceso serial, incluso si esa informaci´on fuera ´util. Considerese una b´usqueda de unaX roja entreXs verdes y 0srojos. El objetivo est´a definido por una conjunci´on; por lo tanto, no puede ser localizado por un proceso paralelo. Sin embargo, un proceso paralelo para el color puede diferenciar entre los elementos verdes y rojos. Porque ning´un elemento verde puede posiblemente ser una X
roja, parecer´ıa razonable que el proceso paralelo informara al proceso serial las posiciones de todos los elementos verdes de manera que el proceso serial no deperdiciar´ıa tiempo y esfuerzo examinando esos elementos.
Los resultados de los experimentos que realizar´on Wolfe et al. (1989) sugieren que la b´usqueda visual serial puede ser guiada por informaci´on proveniente de un proceso paralelo. En la modificaci´on del modelo de integraci´on de caracter´ısticas de (Wolfe et al., 1989), propusieron que el proceso paralelo gu´ıa la atenci´on de “punto de luz” hacia los objetivos es-perados. Por eso, ellos le llamaron “b´usqueda guiada”. Una ventaja del modelo de b´usqueda guiada es su habilidad para explicar muchos de los complicados resultados previamente pub-licados como ejemplos de la regla general de la integraci´on de caracter´ısticas.
es que las conjunciones triples (Quinlan y Humphreys, 1987) deber´ıan ser m´as f´aciles de encontrar que las conjunciones estandar. Si el proceso paralelo puede guiar la b´usqueda serial subsecuente, entonces tres fuentes paralelas de gu´ıa deber´ıan ser mejor que dos. El modelo estandar de integraci´on de caracter´ısticas predice una b´usqueda serial para este tipo de est´ımulo.
Este modelo asume que el procesamiento inicial del est´ımulo es llevado a cabo en paralelo en todo el campo visual. En alg´un punto se generan representaciones independientes y paralelas para un conjunto limitado de caracter´ısticas visuales b´asicas, estas representaciones son conocidas comomapas de caracter´ısticas y existen tres formas de concebirlos.
1. Podr´ıan haber mapas independientes para cada color, orientaci´on, forma, etc. Por ejemplo, un mapa para el rojo, el azul, vertical, etc.
2. Es posible que existan mapas separados para cada tipo de caracter´ısticas (color, ori-entaci´on, etc.). El modelo guiado sigue esta alternativa.
3. Todas las caracter´ısticas podr´ıan estar representadas en un solo mapa multidimensional.
En la b´usqueda visual la identificaci´on de localizaciones es modelada como una activaci´on diferencial de localizaciones en cada mapa de caracter´ısticas. Entre m´as grande sea la acti-vaci´on en una localizaci´on, es m´as probable que la atenci´on sea dirigida a esa localizaci´on. Adem´as, el modelo contempla dos componentes de activaci´on: el dirigido por el est´ımulo, conocido como buttom-up y el dirigido por el sujeto, conocido comotop-down. Finalmente, el efecto global de activaci´on en todos los mapas es obtenido sumando las activaciones para obtener un mapa de activaci´on. El prop´osito del mapa de activaci´on es dirigir la atenci´on que ser´a situada en el lugar con m´as alta activaci´on.
2.3.3 Competici´on neuronal para la atenci´on visual selectiva
Ambos fen´omenos, considerados juntos sugieren el siguiente modelo. En alg´un punto entre la entrada y la respuesta, los objetos en la entrada visual compiten por la limitada capacidad de procesamiento, representaci´on, el an´alisis, o el control. La competici´on, sin embargo, favorece la informaci´on que es relevante en el momento para el control del comportamiento relevante. El est´ımulo atendido demanda capacidad de procesamiento, mientras que los ignorados no (Desimone y Duncan, 1995).
De acuerdo con la teor´ıa de integraci´on de caracter´ısticas la atenci´on s´olo puede ser enfocada en un lugar a la vez, favoreciendo el procesamiento en la corteza visual de las ubicaciones atendidas y reduciendo el de las desatendidas. La atenci´on no es necesaria para la diferenciaci´on de caracter´ısticas simples pero resuelve el problema de la integraci´on poniendo juntas las respuestas de las c´elulas que codifican las diferentes caracter´ısticas elementales del objeto atendido. Adem´as, es un mecanismo de escaneo serial y de alta velocidad moviendose de una posici´on a la siguiente.
En contraste, el modelo de competici´on pone en duda varios de los postulados de la teor´ıa de integraci´on de caracter´ısticas. En su lugar, sugiere las siguientes conclusiones.
La competici´on est´a influenciada en parte por mecanismos neurales “bottom-up” que separan a las figuras de su fondo y en parte por mecanismos “top-down” que selecciona objetos de relevancia para el comportamiento actual. Dicha influencia puede ser controlada por muchos est´ımulos, incluyendo la selecci´on de la ubicaci´on espacial, por caracter´ısticas simples del objeto, y por conjunciones complejas de caracter´ısticas.
Los objetos actuan como un todo en la competici´on neuronal. La construcci´on de las rep-resentaciones de los objetos hecha de la conjunci´on de muchas diferentes caracter´ısticas parece ocurrir, en muchos casos, en paralelo a lo largo del campo visual antes de que los objetos individuales sean seleccionados y, por lo tanto, previa a cualquier combinaci´on atencional.
2.4 T´erminos biol´ogico-computacionales para la atenci´on visual
En esta secci´on se discutir´an algunos conceptos que son usualmente utilizados por los modelos psicol´ogicos y computacionales de atenci´on y que est´an soportados por evidencia neurol´ogica. Algunos de estos conceptos computacionales ser´an introducidos con m´as detalle en los sigu-ientes cap´ıtulos, pero se discute su correlaci´on ya que a menudo la evidencia neuro-biol´ogica forma la base para estos conceptos.
2.4.1 Mapas de caracter´ısticas
En casi todos los modelos computacionales de atenci´on visual, la entrada es descompuesta en un conjunto demapas de caracter´ısticas topogr´aficos, v´ease (Ittiet al., 1998; Koch y Ullman, 1985). Todos los mapas de caracter´ısticas alimentan, de una manera puramente “bottom-up”, a un mapa de sobresaliencia maestro, el cual codifica topogr´aficamente la conspiduidad local sobre la escena visual entera.
Seg´un el modelo de la teor´ıa de integraci´on de caracter´ısticas (Treisman y Gelade, 1980), las caracter´ısticas son registradas tempranamente, autom´aticamente, y en paralelo a trav´es del campo visual, asumiendo que la escena visual est´a inicialmente codificada en un n´umero de dimensiones separables, tales como color, orientaci´on, brillo, y la direcci´on del movimiento. Dicha separaci´on es mucho m´as estricta en los modelos computacionales de lo que el procesamiento en el cerebro humano sugiere, existen diferentes neuronas y ´areas cerebrales especializadas en el procesamiento de ciertas caracter´ısticas pero el procesamiento completo est´a mucho m´as entrelazado que el propuesto por la mayor´ıa de los modelos. Los des-cubrimientos en psicolog´ıa aseguran que existen una docena de caracter´ısticas b´asicas como son: orientaci´on, color, movimiento, tama˜no, profundidad estereosc´opica, asimetr´ıa, brillo y algunos par´ametros de forma como la curvatura, intersecciones, y terminaciones de l´ıneas (Julesz, 1984; Treisman y Gormican, 1988; Wolfe, 2000).
Wolfe (1994) dice que existen tres formas de concebir los mapas de caracter´ısticas. La primer forma, utilizada por modelos como el de Koch y Ullman (1985), el de Itti et al.
artificial propuesta en el presente estudio se basan en esta alternativa. La tercera posibilidad es que todas las caracter´ısticas est´en representadas en un solo mapa multidimensional.
2.4.2 Mecanismo centro-circundante
Lo que mayormente distingue a unos modelos de atenci´on visual de otros es la forma en que hacen la medici´on computacional de la sobresaliencia. En el que es quiz´as el modelo de atenci´on m´as popular, Itti et al. (1998) miden la sobresaliencia simulando los campos receptivos centro-circundante. Los mapas de sobresaliencia en cada dimensi´on son reorgani-zados en un arreglocentro-circundante que es caracter´ıstico de la organizaci´on de los campos receptivos vistos en el sistema visual de los primates (Parkhurst et al., 2002). Este arreglo, el cual es ubicuo a lo largo de las etapas tempranas de la visi´on biol´ogica, no s´olo permite a las c´elulas ganglionares transmitir informaci´on de cuando las c´elulas fotorreceptoras est´an expuestas a la luz. Sino que su principal funci´on es medir las diferencias entre las tasas de encendido en el centro y en el rededor de los campos receptivos de las c´elulas ganglionares. En el mecanismo centro-circundante, la reorganizaci´on se logra tomando la diferencia de las caracter´ısticas simples a diferentes escalas que forman una pir´amide por cada caracter´ıstica, v´ease (Gaoet al., 2008). Finalmente, losmapas de caracter´ısticas centro-circundantes o
ma-pas de conspicuidad son combinados a trav´es de las escalas y normalizados dentro de cada
dimensi´on para maximizar las diferencias locales e incrementar el contraste.
2.4.3 Mapa de sobresaliencia
El prop´osito delmapa de sobresaliencia es representar la conspicuidad o prominencia en cada posici´on del campo visual con una cantidad escalar y guiar la selecci´on de las localizaciones atendidas, basada en la distribuci´on espacial de la prominencia. Una combinaci´on de los
mapas de caracter´ısticas provee una entrada al mapa de sobresaliencia.
tambi´en conocido por estar involucrado en el control de la atenci´on (Findlay y Walker, 1999), y el campo ocular frontal que juega un rol importante en el control de la atenci´on visual y el movimiento de los ojos (Bichot, 2001). Tambi´en, algunas ´areas neocorticales han sido sugeridas, incluyendo la V1 (Li, 2002), V4 (Mazer y Gallant, 2003), la corteza parietal posterior (Gottlieb, 2007), y el ´area intraparietal lateral (Taylor y Stein, 1999).
2.4.4 “Bottom-up” y “top-down”
La atenci´on visual es controlada por: factores congnitivos, o “top-down”, tales como conocimiento, expectativas y metas, y factores “bottom-up” que reflejan la estimulaci´on sensorial (Corbetta y Shulman, 2002).
Hoy en d´ıa, los modelos computacionales son en su mayor´ıa modelos “bottom-up” basa-dos en la teor´ıa de integraci´on de caracter´ısticas (Treisman y Gelade, 1980). La atenci´on “bottom-up” esta sujeta a mucho m´as investigaci´on. Una raz´on es que los est´ımulos orienta-dos por datos son m´as f´aciles de controlar que el estado mental que involucra conocimiento y expectativas (Frintrop, 2006). De este modo, desde una perspectiva de modelado computa-cional, los factores “top-down” no son una tarea trivial; en otras palabras, las emociones y los deseos son conceptos dificiles de modelar; por lo tanto, este tipo de conceptos cognitivos son todav´ıa desafiantes para las ciencias computacionales.
2.5 Conclusi´on
En este cap´ıtulo se han revisado los antecedentes importantes en el campo de la atenci´on visual. Se introdujeron varias definiciones que son relevantes en este campo. El paradigma psicof´ısico de la b´usqueda visual fue introducido y explicado en detalle. Adem´as, se bosqueja el flujo del procesamiento de la informaci´on visual en el cerebro humano y se discute cuales procesos y ´areas cerebrales est´an involucrados en los mecanismos de atenci´on. Despu´es, se introdujeron varios modelos psicof´ısicos de atenci´on visual, los m´as influyentes son lateor´ıa
de integraci´on de caracter´ısticas de Treisman y Gelade (1980) y el modelo guiado de Wolfe
et al.(1989). Finalmente, se corelacionan estos conceptos por medio de la discusi´on de cu´ales
procesos biol´ogicos corresponden con qu´e mecanismos en los modelos de atenci´on actuales. Este cap´ıtulo muestra que la investigaci´on de la atenci´on visual es un campo amplia-mente interdisciplinario. Diferentes disciplinas atacan el problema desde diferentes flancos: los psic´ologos aprecian al cerebro como una caja negra. En varios experimentos, ellos inves-tigan el comportamiento humano en diferentes tareas y tratan de deducir de los resultados de los experimentos el contenido de la caja negra. El resultado son normalmente teor´ıas psicof´ısicas o modelos. Los neuro-bi´ologos, en cambio, observan directamente en el cerebro. Con nuevas t´ecnicas como las im´agenes por resonancia magn´etica funcional (fMRI, por sus siglas en ingl´es) se visualiza cuales ´areas del cerebro est´an activas bajo ciertas condiciones. Los cient´ıficos de la computaci´on usualmente toman lo que consideran ´util de los descubrim-ientos psicol´ogicos y biol´ogicos y lo combinan con m´etodos t´ecnicos para construir y mejorar sistemas para visi´on por computadora y aplicaciones en rob´otica.
Cap´ıtulo 3. Trabajo relacionado y estado del arte de los modelos computacionales de atenci´on visual
El creciente inter´es en la investigaci´on de la atenci´on visual junto con el creciente poder de las computadoras y su habilidad para realizar complejos sistemas sobre atenci´on visual. En este cap´ıtulo, revisaremos el trabajo m´as influyente en este campo. En el cap´ıtulo anterior se concideraron modelos de atenci´on visual. A´unque varios de ellos tambi´en han sido im-plementados computacionalmente, su enfoque es sobre el aspecto psicol´ogico de la atenci´on visual m´as que sobre el aspecto t´ecnico: los modelos en el cap´ıtulo anterior intentan explicar y entender mejor la percepci´on humana mientras que los sistemas en este cap´ıtulo usual-mente tienen el enfoque de mejorar los sistemas de visi´on para aplicaciones en visi´on por computadora. Por supuesto, existen algunos objetivos comunes y hay modelos psicol´ogicos que podr´ıan ser ´utiles en aplicaciones computacionales y sistemas t´ecnicos muy adecuados para explicar datos psicol´ogicos. En este cap´ıtulo, introduciremos varios de los m´as impor-tantes modelos sistemas computacionales en la atenci´on visual y que m´as influenciaron el presente trabajo.
3.1 Modelos computacionales de la atenci´on visual
La atenci´on visual ha sido estudiada desde hace algunas decadas por investigadores de difer-entes disciplinas cient´ıficas como: neuro-bi´ologos, psic´ologos, fisi´ologos y en las ´ultimas tres decadas por gente dedicada a la vis´on por computadora, quienes ven a la atenci´on visual como una manera viable de disminuir la complejidad de varios problemas en el campo de estudio.
3.1.1 Modelo de atenci´on de Koch y Ullman
El primer modelo de atenci´on visual implementado computacionalmente fue el de Koch y Ullman (1985). En este modelo se asumen que la atenci´on visual selectiva opera durante lo que ellos llamanrepresentaci´on primaria, que es un conjunto de mapas topogr´aficos corticales que codifican el espacio visual. Larepresentaci´on primaria incluye una variedad de diferentes mapas para diferentes caracter´ısticas elementales tales como la orientaci´on, el color, la dis-paridad, y la direcci´on de movimiento. Para cada posici´on en estos mapas existe un n´umero de dimensiones, tales como diferentes colores u orientaciones. Las relaciones de vecindad son preservadas en estos mapas; esto quiere decir que posiciones cercanas en la escena visual se proyectan como posiciones cercanas en el mapa. Por otra parte, hay conexiones inhibitorias locales, mediando lainhibici´on lateral, se producen ya sea en una etapa temprana o dentro de
los mapas de caracter´ısticas. De esta manera, las posiciones que difieren significativamente
de su vecindario son seleccionadas en este nivel.
Dado este esbozo, se plantearon varias preguntas espec´ıficas con respecto a la atenci´on visual selectiva. Al menos tres problemas deben ser resueltos. (1) El problema del
ganador-toma-todo (WTA, por sus siglas en ingl´es): asegurarse que s´olo una posici´on est´e activada,
de las muchas que inicialmente est´an activadas, en cada mapa. (2) El problema de registro
espacial: que es la alineaci´on de los diferentes mapas de caracte´ısticas con respecto a todos
los dem´as. La combinaci´on de la informaci´on de los diferentes mapas de caracter´ısticas o la recuperaci´on de informaci´on relevante a una s´ola posici´on presupone una ruta r´apida y fiable para atender la misma posici´on en diferentes mapas de caracter´ısticas. ¿D´onde se encuentra la correlaci´on anat´omica de esta ruta? (3) El problema dedesplazamiento: ¿c´omo el procesamiento de la atenci´on se desplaza a otra posici´on?
secuencial y autom´atica inspeccionando de forma selectiva la informaci´on presente en las posiciones conspicuas. El mecanismo descrito por Koch y Ullman (1985) podr´ıa ser usado no s´olo para la atenci´on visual, tambi´en para ciertas rutinas visuales como seguimiento de contornos, contar objetos, o se˜nalar una posici´on espec´ıfica.
3.1.2 Modelo de atenci´on “bottom-up” de Itti et al.
El sistema de atenci´on de Ittiet al.(1998), es quiz´as el modelo neurol´ogicamente plausible m´as conocido y con m´as influencia en el campo de las ciencias computacionales. Adem´as, ha sido probado con experimentos con humanos (Peterset al., 2005), tambi´en ha sido utilizado para en el reconocimiento de objetos (Bonaiuto y Itti, 2006; Walther et al., 2002) y en problemas de navegaci´on (Chung y Itti, 2002). Por esta raz´on el sistema que proponemos est´a basado en la implementaci´on de Ittiet al.(1998) el cual, a su vez, est´a basado en el modelo de atenci´on “bottom-up” introducido por Koch y Ullman (1985). Esta arquitectura “bottom-up” est´a dise˜nada para detectar regiones sobresalientes en una imagen utilizando tres dimensiones b´asicas: orientaci´on, color e intensidad. En general, el modelo calcula, para cada im´agen de entrada, un mapa de sobresaliencia cuyos valores de los pixeles indican la prominencia de las regiones correspondientes en la imagen original. Dicho mapa es el resultado de la combinaci´on de los mapas de conspicuidad obtenidos de cada una de las dimensiones.
C´alculo preatentivo de las caracter´ısticas visuales tempranas
En biolog´ıa, las caracter´ısticas visuales se calculan en la retina, col´ıculo superior, n´ucleo geniculado lateral y la ´areas tempranas de la corteza visual (Suder y W¨org¨otter, 2000). Y las caracter´ısticas visuales preatentivas se calculan de manera paralela a trav´es del campo visual como lo mencionan Treisman y Gelade (1980). De entre todas las diferentes caracter´ısticas que pueden ser registradas en paralelo, este modelo s´olo considera la intensidad, la orientaci´on y el color. A continuaci´on, se explica como se calculan losmapas de caracter´ısticas.
Las caracter´ısticas visuales son extra´ıdas directamente de la imagen de entrada, a color, utilizando distintas escalas espaciales en forma de pir´amide obtenidas con la convoluci´on de filtros lineales, i.e., pir´amides Gaussianas, que consisten en filtrados sucesivos y com-presiones de la imagen de entrada. Espec´ıficamente, lo que se hace es aplicar un filtro
kf = [15101051]/32 en el dominio de la imagen. Este proceso se repite hasta obtener los 8