2.5 Conclusi´on
4.1.1 Adquisici´on de caracter´ısticas visuales y mapas visuales
En el sistema visual de los primates la informaci´on visual sigue un camino a trav´es de la retina, el n´ucleo geniculado lateral (NGL), y las ´areas visuales corticales, ver (Suder y W¨org¨otter, 2000). Mecanismos de bajo nivel son aplicados durante la extracci´on de caracter´ısticas y act´uan en paralelo sobre el campo visual completo para proveer los est´ımulos de las regiones prominentes de la imagen, ver (Treisman y Gelade, 1980; Koch y Ullman, 1985).
En este sentido, Treisman y Gelade (1980) utilizan el t´ermino dimensi´on para referirse a un rango completo de est´ımulos el cual es analizado separadamente por un subsistema per- ceptual funcionalmente independiente, y concaracter´ıstica se refieren a un valor particular de una dimensi´on. As´ı, color y orientaci´on son dimensiones y rojo y vertical son caracter´ısticas. Tambi´en, Julesz (1984) ha mostrado que existe un conjunto de micro-estructuras, que ´el llam´otextons, que son detectadas en paralelo en una etapa pre-atentiva. Entre lostextons se encuentran rect´angulos, elipses, segmentos de l´ıneas con colores, orientaci´ones angulares, y ancho y largo espec´ıficos. A continuaci´on, algunas definiciones b´asicas son introducidas para mejor entendimiento de la estrategia completa.
Imagen como grafo de la funci´on. Deje af ser una funci´onf :U ⊂R2 → R. El grafo o imagen I def es el subconjunto de R3 que consiste de los puntos
MO(·) MI=R+G3+B f(MI(·), MO(·), MC(·)) MC(·) Fα(p, r) =(1+(αα·p)+·(rp·)r) Funci´on de aptitud Quiero una soda!
Tego sed.
Figura 6. La figura ilustra la correspondencia que existe entre las ´areas de la ruta dorsal y las etapas del modelo artificial. La idea es emular las transformaciones que sufre la imagen de entrada a lo largo de la ruta de la atenci´on visual.
(x, y, f(x, y)), en el cual el par ordenado (x, y) es un punto enU yf(x, y) es el valor en ese punto. Simb´olicamente, la imagen I ={(x, y, f(x, y))∈R3|(x, y)∈U}.
Esta definici´on se basa en en el hecho de que la escena es percibida a trav´es de una c´amara hecha de un arreglo bidimensional de sensores que mide la cantidad de luz que inside en ellos. Por lo tanto, las im´agenes son el resultado de la impresi´on de las variaciones de la intensidad de la luz a lo largo del plano bidimensional. En este trabajo, una imagenI obtenida con una c´amara est´a definida como un grafo de una funci´on; ya que es un concepto matem´atico es ´
util para representar las variaciones de luz en la escena. Adem´as, esta definici´on nos ayuda a entender la entrada inicial al modelo, basado en la funcionalidad, de la RDA. En el presente trabajo, se afirma que las diferentes ´areas del cerebro realizan una funci´on que puede ser imitada, en el caso de los cerebros digitales, por un conjunto de estructuras matem´aticas y computacionales; y en este trabajo con el objetivo de replicar una RDA.
En consecuencia, las im´agenes de color digitales est´an compuestas de tres bandas en diferentes longitudes de luz, las bandas son la roja, verde y azul, conocidas como espacio RGB. Es posible transformar una imagen representada en el espacio RGB a otros espacios de color como el CMYK y el HSV. De esta manera, definimos la entrada como un conjunto de im´agenes Icolor = {Ir, Ig,Ib, Ic,Im,Iy,Ik,Ih que proveen una representaci´on inicial de la
Mapas Visuales Caracter´ısticas Visuales y Extracci´on de Conspicuidad Mapas de C´omputo de los Caracter´ısticas y Combinaci´on de Mapa de Sobresaliencia No S´ı Inicio Entrada:Icolor Salida:P roto-objeto /*Define el conjunto de dimensiones
l={O, C, Int}
Orientaci´on, Color e Intensidad*/
Por cadad∈lhacer
Sid=Int
/*Mapas de Conspicuidad*/
Fin ciclo
/*Pixel m´as sobresaliente*/
/*Calcular Proto-objeto*/ P roto-objeto=propagaci´on(ganador)
regresaP roto-objeto
Fin
/*Filtro Gaussiano con submuestreo de 9 niveles*/ M Vd=OV Ed(Icolor) M Vd=Ir+I3g+Ib
Pd=Piramide Gaussiana(M Vd, σ= 1)
M Cd=Centro Circundante(Pd)
ganador=wta(M SO)
M SO=ICE(M Cl)
escena. Despu´es, la imagen de entrada Icolor es transformada por unos operadores visuales
(OV) que recrean el proceso de adquisici´on de caracter´ısticas en la RDA. Cada operador est´a definido como sigue:
OVd:Icolor →M Vd (12)
donde el dominio de la funci´on es Icolor, y el codominio de esta operaci´on es un mapa visual
(M Vd), en cuyo caso, los valores de los pixeles representan la prominencia de las carac-
ter´ısticas de cada dimensi´on d∈ {O, C, Int}, que son la orientaci´on, el color y la intensidad respectivamente. Durante la implementaci´on del algoritmo de la RDA, como se muestra en la figura 7 dentro del cuadro azul, las caracter´ısticas se extraen secuencialmente una dimensi´on a la vez aplicando elOVd respectivo. Dichas dimensiones se detallan a continuaci´on.
Orientaci´on
La extracci´on de la informaci´on de orientaci´on en el sistema visual ocurre por la acci´on de las c´elulas simples y complejas presentes en la corteza visual primaria (V1) as´ı como en el ´area V2, dichas c´elulas son sensibles a la orientaci´on de los est´ımulos visuales, para m´as detalle leer la secci´on 2.2. Este proceso permite la descomposici´on de la imagen en un conjunto de peque˜nos segmentos lineales a diferentes orentaciones y escalas, ver (Hubel y Wiesel, 1959). Desde una perspectiva computacional el operadorOVO que extrae o rechaza aristas, presentes
en la imagen, con el fin de identificar un objetivo determinado, se define como sigue:
OVO:Icolor →M VO (13)
Color
En los humanos, las c´elulas fotoreceptoras conocidas como conos, la cuales est´an localizadas en la retina, son las encargadas de codificar el color. De esta manera, la visi´on del color se lleva a cabo a trav´es de tres tipos de mol´eculas fotosensibles: las de longitud de onda corta o sensibles al azul, las de longitud de onda media o sensibles al verde, y las de longitud de onda larga o sensibles al rojo; ver Boynton (1979). En el sistema visual natural, el color amarillo es un caso especial porque no es percibido por los conos; sino por las c´elulas ganglionares. Adem´as, es bien sabido que en varias ´areas de la corteza visual existen c´elulas que responden a los est´ımulos de color en las ´areas V1, V2, y V4.
De la misma manera que OVO, el resultado es un mapa visual M VC que contiene la
prominencia de color. El OVC se define a continuaci´on:
OVC :Icolor →M VC (14)
Intensidad
La intensidad es una magnitud que indica la cantidad de luz que inside en el dispositivo fotosensible. Fisiol´ogicamente, los humanos poseen c´elulas ganglionares especializadas para registrar la intensidad. En general, cada c´elula ganglionar tiene un campo receptivo circular que responde a la intensidad de luz que inside en ellas. Para obtener la intensidad se aplica un sencilla f´ormula:
M VInt =
Ir+Ig+Ib
3 (15)
dondeIr,Ig y Ib son las bandas de la imagen roja, verde y azul en el espacio de color RGB.
El resultado de esta operaci´on es un mapa visual M VInt que se calcula directamente con
los valores de los pixeles obtenidos por el CCD, y el cual representa la intensidad de la luz definida en la f´ormula anterior.
Aunque la extracci´on de las caracter´ısticas visuales puede ser realizada en paralelo, en la implementaci´on del algoritmo de la RDA que se muestra en la figura 7, en el cuadro azul, se utiliza un ciclo “for” para adquirir cada dimension. Durante un ciclo, el operador OVd
se aplica a la entrada Icolor; adem´as, se calcula el mapa de conspicuidad de la dimension
procesada. En la siguiente secci´on se explica el c´omputo de los mapas de conspicuidad.
C´omputo de los Mapas de Conspicuidad
Una vez que los MVs se obtienen, el siguiente paso es el c´omputo de los mapas de con- spicuidad (MC). Los MCs son obtenidos por medio de un funci´on que se aplica para simular el funcionamiento de los campos receptivos centro-circundante, ver secci´on 2.2. En este caso, la estructura natural permite a las c´elulas ganglionares transmitir la informaci´on una vez que las c´elulas fotoreceptoras han sido expuestas a la luz. Sin embargo, su principal tarea es medir las diferencias entre las tasas de encendido en el centro (c) y el ´area circundante (s)
de las c´elulas ganglionares. Es este estudio, losM Cs se obtienen de la misma forma que en el modelo propuesto por Walther y Koch (2006). Por lo tanto, la funci´on centro-circundante se define de la siguiente manera:
Centro Circundante:M Vdα →M Cd ∀ d∈ {O, C, Int} y α∈A (16)
donde A = {1,2, ...,9}; y M Vα
d es una pir´amide con nueve escalas α obtenidas aplicando
un filtro Gaussiano a cada uno de los MVs, ver figura 7, cuadro azul. La funci´on centro- circundante est´a compuesta de dos operaciones definidas a continuaci´on. Primero, se realiza una sustracci´on entre escalas que resulta en una pir´amideM Vω
d ; donde el valor de un pixel
se incrementa cuando el contraste entre sus vecinos en diferentes escalas se vuelve mayor. As´ı, la sustracci´on entre escalas se define como sigue:
M Vdω =N(|M Vdc M Vds|) ∀ d∈ {O, C, Int}
donde N(·) es un operador de normalizaci´on, c= {3,4,5} y s ={c+ 3, c+ 4}. N´otese que por cada escala de c existen dos escalas en s; donde c, s⊂ A. Adem´as, el resultado final es una pir´amide con seis niveles ω ={1,2, ...,6} calculados a trav´es de seis sustracciones entre escalas. Despu´es, se realiza una operaci´on sumatoria entre escalas ⊕ en la pir´amide M Vω d
de cada dimensi´on para obtener todos los mapas de conspicuidad M Cd. Esto se escribe de
la siguiente manera:
M Cd =N(⊕6ω=1M Vdω) ∀ d∈ {O, C, Int} (17)
En este punto, tenemos un MC normalizado por cada dimensi´on. Una vez que la adquisici´on de caracter´ısticas y el proceso centro-circundante ha terminado, cuando el ciclo “for” termina, ver figura 7, el algoritmo de RDA combina los MCs en un solo mapa de sobresaliencia como se explica a continuaci´on.
Combinaci´on de Caracter´ısticas y el Mapa de Sobresaliencia
El proceso de combinaci´on de caracter´ısticas es la fusi´on de todos o algunos de los mapas de conspicuidad M Cs, los cuales son proyectados en un solo mapa con informaci´on de sobre- saliencia con el objetivo de determinar la ubicaci´on en el campo visual a la que la atenci´on
es dirigida en un momento dado. Las ubicaci´ones resaltadas en el mapa de sobresaliencia (M S) forman un conjunto de regiones sobresalientes. Anatomicamente, no se sabe en d´onde est´a localizado el MS en el cerebro. Sin embargo, Koch y Ullman (1985) propusieron como hip´otesis la posibilidad de que el M S reside en el n´ucleo geniculado lateral, o en la corteza estriada (V1). Otros autores han propuesto diferentes ´areas del cerebro como candidatas para hospedar alM S; por ejemplo: el n´ucleo tal´amico y las regiones del pulvinar propuestas en (Robinson y Petersen, 1992), o en la V1 como se describe en (Li, 2002), o en la ´area V4 como se explica en (Mazer y Gallant, 2003), incluso en la corteza parietal posterior detallado en (Gottlieb, 2007); o finalmente, en la ´area lateral intraparietal como se ilustra en (Taylor y Stein, 1999).
La integraci´on de caracter´ısticas es un proceso dif´ıcil porque losM Csson parte de modali- dades visuales diferentes y no relacionadas trabajando a nivel del sistema sensorial. Adem´as, en la comunidad de neurociencias una descripci´on clara de como el cerebro hace tal inte- graci´on todav´ıa es objeto de discusi´on. De hecho, como mencionamos anteriormente, los factores bottom-up y top-down son de mayor importancia considerando el ´exito y cumplim- iento del proceso de atenci´on visual. De manera que el principal criterio que gu´ıa la b´usqueda de la m´as adecuada combinaci´on de caracter´ısticas deber´ıa estar definido de acuerdo con la tarea en cuesti´on. Por lo tanto, la integraci´on de caracter´ısticas es realizada por un operador
IC como se muestra a continuaci´on:
IC :M Cd →M S ∀ d∈ {O, C, Int} (18)
Despu´es de que la integraci´on de caracter´ısticas se lleva a cabo, se utiliza una red tipo “el ganador se lleva todo” (WTA, del ingl´es Winner Takes All) para calcular el pixel m´as sobresaliente, llamado “ganador”, delM S resultante; entonces, la regi´on alrededor del pixel ganador, conocida como proto-objeto, se delimita usando una funci´on de propagaci´on. El proto-objeto, indica la localizaci´on de las regiones m´as prominentes dentro de la imagen original, ver Rensink (2000a,b). La etapa de integraci´on de caracter´ısticas se muestra en la figura 7, cuadro verde.