Adquisici´on de caracter´ısticas visuales y mapas visuales

2.5 Conclusi´on

4.1.1 Adquisici´on de caracter´ısticas visuales y mapas visuales

En el sistema visual de los primates la información visual sigue un camino a través de la retina, el núcleo geniculado lateral (NGL), y las áreas visuales corticales, ver (Suder y Wörgötter, 2000). Mecanismos de bajo nivel son aplicados durante la extracción de caracter´ısticas y actúan en paralelo sobre el campo visual completo para proveer los est´ımulos de las regiones prominentes de la imagen, ver (Treisman y Gelade, 1980; Koch y Ullman, 1985).

En este sentido, Treisman y Gelade (1980) utilizan el término dimensión para referirse a un rango completo de est´ımulos el cual es analizado separadamente por un subsistema per- ceptual funcionalmente independiente, y concaracter´ıstica se refieren a un valor particular de una dimensión. As´ı, color y orientación son dimensiones y rojo y vertical son caracter´ısticas. También, Julesz (1984) ha mostrado que existe un conjunto de micro-estructuras, que él llamótextons, que son detectadas en paralelo en una etapa pre-atentiva. Entre lostextons se encuentran rectángulos, elipses, segmentos de l´ıneas con colores, orientaciónes angulares, y ancho y largo espec´ıficos. A continuación, algunas definiciones básicas son introducidas para mejor entendimiento de la estrategia completa.

Imagen como grafo de la funci´on. Deje af ser una funci´onf :U ⊂R2 → R. El grafo o imagen I def es el subconjunto de R3 que consiste de los puntos

MO(·) MI=R+G3+B f(MI(·), MO(·), MC(·)) MC(·) Fα(p, r) =(1+₍_αα_·_p)₊·(_rp·₎r) Funci´on de aptitud Quiero una soda!

Tego sed.

Figura 6. La figura ilustra la correspondencia que existe entre las ´areas de la ruta dorsal y las etapas del modelo artificial. La idea es emular las transformaciones que sufre la imagen de entrada a lo largo de la ruta de la atenci´on visual.

(x, y, f(x, y)), en el cual el par ordenado (x, y) es un punto enU yf(x, y) es el valor en ese punto. Simb´olicamente, la imagen I ={(x, y, f(x, y))∈R3|(x, y)∈U}.

Esta definición se basa en en el hecho de que la escena es percibida a través de una cámara hecha de un arreglo bidimensional de sensores que mide la cantidad de luz que inside en ellos. Por lo tanto, las imágenes son el resultado de la impresión de las variaciones de la intensidad de la luz a lo largo del plano bidimensional. En este trabajo, una imagenI obtenida con una cámara está definida como un grafo de una función; ya que es un concepto matemático es ´

util para representar las variaciones de luz en la escena. Además, esta definición nos ayuda a entender la entrada inicial al modelo, basado en la funcionalidad, de la RDA. En el presente trabajo, se afirma que las diferentes áreas del cerebro realizan una función que puede ser imitada, en el caso de los cerebros digitales, por un conjunto de estructuras matemáticas y computacionales; y en este trabajo con el objetivo de replicar una RDA.

En consecuencia, las imágenes de color digitales están compuestas de tres bandas en diferentes longitudes de luz, las bandas son la roja, verde y azul, conocidas como espacio RGB. Es posible transformar una imagen representada en el espacio RGB a otros espacios de color como el CMYK y el HSV. De esta manera, definimos la entrada como un conjunto de imágenes Icolor = {Ir, Ig,Ib, Ic,Im,Iy,Ik,Ih que proveen una representación inicial de la

Mapas Visuales Caracter´ısticas Visuales y Extracción de Conspicuidad Mapas de Cómputo de los Caracter´ısticas y Combinación de Mapa de Sobresaliencia No S´ı Inicio Entrada:Icolor Salida:P roto-objeto /*Define el conjunto de dimensiones

l={O, C, Int}

Orientaci´on, Color e Intensidad*/

Por cadad∈lhacer

Sid=Int

/*Mapas de Conspicuidad*/

Fin ciclo

/*Pixel m´as sobresaliente*/

/*Calcular Proto-objeto*/ P roto-objeto=propagaci´on(ganador)

regresaP roto-objeto

Fin

/*Filtro Gaussiano con submuestreo de 9 niveles*/ M Vd=OV Ed(Icolor) M Vd=Ir+I3g+Ib

Pd=Piramide Gaussiana(M Vd, σ= 1)

M Cd=Centro Circundante(Pd)

ganador=wta(M SO)

M SO=ICE(M Cl)

escena. Despu´es, la imagen de entrada Icolor es transformada por unos operadores visuales

(OV) que recrean el proceso de adquisici´on de caracter´ısticas en la RDA. Cada operador est´a definido como sigue:

OVd:Icolor →M Vd (12)

donde el dominio de la funci´on es Icolor, y el codominio de esta operaci´on es un mapa visual

(M Vd), en cuyo caso, los valores de los pixeles representan la prominencia de las carac-

ter´ısticas de cada dimensión d∈ {O, C, Int}, que son la orientación, el color y la intensidad respectivamente. Durante la implementación del algoritmo de la RDA, como se muestra en la figura 7 dentro del cuadro azul, las caracter´ısticas se extraen secuencialmente una dimensión a la vez aplicando elOVd respectivo. Dichas dimensiones se detallan a continuación.

Orientaci´on

La extracción de la información de orientación en el sistema visual ocurre por la acción de las células simples y complejas presentes en la corteza visual primaria (V1) as´ı como en el área V2, dichas células son sensibles a la orientación de los est´ımulos visuales, para más detalle leer la sección 2.2. Este proceso permite la descomposición de la imagen en un conjunto de pequeños segmentos lineales a diferentes orentaciones y escalas, ver (Hubel y Wiesel, 1959). Desde una perspectiva computacional el operadorOVO que extrae o rechaza aristas, presentes

en la imagen, con el fin de identificar un objetivo determinado, se define como sigue:

OVO:Icolor →M VO (13)

Color

En los humanos, las células fotoreceptoras conocidas como conos, la cuales están localizadas en la retina, son las encargadas de codificar el color. De esta manera, la visión del color se lleva a cabo a través de tres tipos de moléculas fotosensibles: las de longitud de onda corta o sensibles al azul, las de longitud de onda media o sensibles al verde, y las de longitud de onda larga o sensibles al rojo; ver Boynton (1979). En el sistema visual natural, el color amarillo es un caso especial porque no es percibido por los conos; sino por las células ganglionares. Además, es bien sabido que en varias áreas de la corteza visual existen células que responden a los est´ımulos de color en las áreas V1, V2, y V4.

De la misma manera que OVO, el resultado es un mapa visual M VC que contiene la

prominencia de color. El OVC se define a continuaci´on:

OVC :Icolor →M VC (14)

Intensidad

La intensidad es una magnitud que indica la cantidad de luz que inside en el dispositivo fotosensible. Fisiológicamente, los humanos poseen células ganglionares especializadas para registrar la intensidad. En general, cada célula ganglionar tiene un campo receptivo circular que responde a la intensidad de luz que inside en ellas. Para obtener la intensidad se aplica un sencilla fórmula:

M VInt =

Ir+Ig+Ib

3 (15)

dondeIr,Ig y Ib son las bandas de la imagen roja, verde y azul en el espacio de color RGB.

El resultado de esta operaci´on es un mapa visual M VInt que se calcula directamente con

los valores de los pixeles obtenidos por el CCD, y el cual representa la intensidad de la luz definida en la f´ormula anterior.

Aunque la extracci´on de las caracter´ısticas visuales puede ser realizada en paralelo, en la implementaci´on del algoritmo de la RDA que se muestra en la figura 7, en el cuadro azul, se utiliza un ciclo “for” para adquirir cada dimension. Durante un ciclo, el operador OVd

se aplica a la entrada Icolor; adem´as, se calcula el mapa de conspicuidad de la dimension

procesada. En la siguiente secci´on se explica el c´omputo de los mapas de conspicuidad.

C´omputo de los Mapas de Conspicuidad

Una vez que los MVs se obtienen, el siguiente paso es el cómputo de los mapas de conspicuidad (MC). Los MCs son obtenidos por medio de un función que se aplica para simular el funcionamiento de los campos receptivos centro-circundante, ver sección 2.2. En este caso, la estructura natural permite a las células ganglionares transmitir la información una vez que las células fotoreceptoras han sido expuestas a la luz. Sin embargo, su principal tarea es medir las diferencias entre las tasas de encendido en el centro (c) y el área circundante (s)

de las c´elulas ganglionares. Es este estudio, losM Cs se obtienen de la misma forma que en el modelo propuesto por Walther y Koch (2006). Por lo tanto, la funci´on centro-circundante se define de la siguiente manera:

Centro Circundante:M V_dα →M Cd ∀ d∈ {O, C, Int} y α∈A (16)

donde A = _{1,2, ...,9_}; y M Vα

d es una pir´amide con nueve escalas α obtenidas aplicando

un filtro Gaussiano a cada uno de los MVs, ver figura 7, cuadro azul. La función centro- circundante está compuesta de dos operaciones definidas a continuación. Primero, se realiza una sustracción entre escalas que resulta en una pirámideM Vω

d ; donde el valor de un pixel

se incrementa cuando el contraste entre sus vecinos en diferentes escalas se vuelve mayor. As´ı, la sustracci´on entre escalas se define como sigue:

M V_dω =N(|M V_dc M V_ds|) ∀ d∈ {O, C, Int}

donde N(_·) es un operador de normalización, c= _{3,4,5_} y s =_{c+ 3, c+ 4_}. Nótese que por cada escala de c existen dos escalas en s; donde c, s⊂ A. Además, el resultado final es una pirámide con seis niveles ω ={1,2, ...,6} calculados a través de seis sustracciones entre escalas. Después, se realiza una operación sumatoria entre escalas ⊕ en la pirámide M Vω d

de cada dimensi´on para obtener todos los mapas de conspicuidad M Cd. Esto se escribe de

la siguiente manera:

M Cd =N(⊕6ω=1M Vdω) ∀ d∈ {O, C, Int} (17)

En este punto, tenemos un MC normalizado por cada dimensión. Una vez que la adquisición de caracter´ısticas y el proceso centro-circundante ha terminado, cuando el ciclo “for” termina, ver figura 7, el algoritmo de RDA combina los MCs en un solo mapa de sobresaliencia como se explica a continuación.

Combinaci´on de Caracter´ısticas y el Mapa de Sobresaliencia

El proceso de combinación de caracter´ısticas es la fusión de todos o algunos de los mapas de conspicuidad M Cs, los cuales son proyectados en un solo mapa con información de sobresaliencia con el objetivo de determinar la ubicación en el campo visual a la que la atención

es dirigida en un momento dado. Las ubicaciónes resaltadas en el mapa de sobresaliencia (M S) forman un conjunto de regiones sobresalientes. Anatomicamente, no se sabe en dónde está localizado el MS en el cerebro. Sin embargo, Koch y Ullman (1985) propusieron como hipótesis la posibilidad de que el M S reside en el núcleo geniculado lateral, o en la corteza estriada (V1). Otros autores han propuesto diferentes áreas del cerebro como candidatas para hospedar alM S; por ejemplo: el núcleo talámico y las regiones del pulvinar propuestas en (Robinson y Petersen, 1992), o en la V1 como se describe en (Li, 2002), o en la área V4 como se explica en (Mazer y Gallant, 2003), incluso en la corteza parietal posterior detallado en (Gottlieb, 2007); o finalmente, en la área lateral intraparietal como se ilustra en (Taylor y Stein, 1999).

La integración de caracter´ısticas es un proceso dif´ıcil porque losM Csson parte de modali- dades visuales diferentes y no relacionadas trabajando a nivel del sistema sensorial. Además, en la comunidad de neurociencias una descripción clara de como el cerebro hace tal inte- gración todav´ıa es objeto de discusión. De hecho, como mencionamos anteriormente, los factores bottom-up y top-down son de mayor importancia considerando el éxito y cumplim- iento del proceso de atención visual. De manera que el principal criterio que gu´ıa la búsqueda de la más adecuada combinación de caracter´ısticas deber´ıa estar definido de acuerdo con la tarea en cuestión. Por lo tanto, la integración de caracter´ısticas es realizada por un operador

IC como se muestra a continuaci´on:

IC :M Cd →M S ∀ d∈ {O, C, Int} (18)

Después de que la integración de caracter´ısticas se lleva a cabo, se utiliza una red tipo “el ganador se lleva todo” (WTA, del inglés Winner Takes All) para calcular el pixel más sobresaliente, llamado “ganador”, delM S resultante; entonces, la región alrededor del pixel ganador, conocida como proto-objeto, se delimita usando una función de propagación. El proto-objeto, indica la localización de las regiones más prominentes dentro de la imagen original, ver Rensink (2000a,b). La etapa de integración de caracter´ısticas se muestra en la figura 7, cuadro verde.

In document Evolución de una ruta dorsal artificial utilizando programación cerebral para la atención visualBrain programming for the evolution of an artificial dorsal stream (página 51-57)