Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de

4. Corteza visual artificial

4.2. Modelo computacional

4.2.1. Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de

Esta etapa es basada en el modelo psicol ´ogico de la atenci ´on visual propuesto por Treisman y Gelade (1980), el cual ha sido implementado computacionalmente por algu- nos autores como Itti y Koch (2001); Ullman et al. (2002); Dozal et al. (2014). El primer

paso consiste en adquirir la imagen con una c ´amara, cuya contraparte natural es la retina. Aqu´ı, el sistema considera una imagen a color en el modelo RGB, dicha imagen es transformada a los modelos de color CMYK y HSV, ver figura 14. De esta forma, para el procesamiento de la imagen se consideran los m ´ultiples canales de color, para lo cual se define el conjunto Icolor = {Ir, Ig, Ib, Ic, Im, Iy, Ik, Ih, Is, Iv}, en donde cada elemento

corresponde a las componentes de colorrojo, verde, azul, cian, magenta, amarillo, negro, matiz, saturaci ´on, y valor de cada modelo. As´ı, los elementos de Icolor son la entrada a

cuatro operadores visuales (OV), que se aplican de forma independiente y con el objetivo de enfatizar y extraer propiedades espec´ıficas del objeto como: color, orientaci ón, forma e intensidad, a cada una de estas propiedades se denominar á dimensi ón. Estas transfor- maciones son inspiradas en el proceso de extracci ón de caracter´ısticas de la informaci ón visual llevada a cabo en el cerebro (Treisman y Gelade, 1980). Con lo cual, al aplicar los

OV se generan lo que llamamos mapas visuales (M V), uno por cada dimensi ón, ver figura 14. Contrariamente a anteriores modelos biol ógicamente plausibles, en donde estos operadores est án basados puramente en el conocimiento neurocient´ıfico, e implementa- dos bajo un paradigma dirigido por datos; en este trabajo se propone construir dichos operadores con un conjunto de operaciones dentro de una estructura computacional, de esta forma, la analog´ıa solo se centrar á en la funcionalidad del operador y no en como este sea construido.

4.2.1.1. Caracter´ısticas de la im ´agen como flujos de informaci ´on independientes

En este algoritmo, se define unOV a lo largo de cuatro dimensiones: color (C), orientaci ´on (O), forma (F) e intensidad (Int); con lo cual,OV esta dado como sigue:

OVd:Icolor →M Vd;

donde la entrada del operador visual puede ser uno o varios elementos deIcolor; la salida

corresponde a un mapa visual (V Md) y d es la dimenci ´on, d ∈ {C, S, O, Int}, ver figura

14. As´ı cada operador se calcula secuencialmente y genera un mapa visual para cada dimensi ´on; las propiedades de cada uno de estos operadores se explican a continuaci ´on.

4.2.1.2. Mapas visuales

Mapa visual de color. El fin de aplicar el operador visual de color (OVC) es obtener

las regiones m ás prominentes de las propiedades de color de la imagen. En el sistema natural esta operaci ón se lleva a cabo en la retina, donde las oponencias de color son estimadas y despu és procesadas por las áreas V1, V2 y V4 del cerebro (Kalanit y Malach, 2004). El mapeo en el modelo computacional del OVC se define

como sigue:

OVC :Icolor →M VC . (2)

donde M VC es el mapa visual de color. El OVC se construye a partir de una com-

posici ón de funciones de m últiples operadores que se muestran en la tabla 6. Cabe mencionar que dentro de estos operadores se considera el c álculo de las oponencias de color, propuesto por Walther y Koch (2006), y el operador complemento, donde la imagen de salida es el resultado de restar al valor m áximo que puede to- mar un pixel de la imagen el valor de cada pixel de la imagen de entrada.

Mapa visual de forma. El m étodo por el cual se extrae la informaci ón sobre la forma del objeto en la imagen, se logra a trav és de utilizar la informaci ón morfol ógica del objeto. En la naturaleza dicha funcionalidad se lleva a cabo en áreas del cerebro como V2 y el área de la corteza temporal (Corbetta et al., 1990; Ito y Komatsu, 2004; Heydtet al., 1984; Plebe, 2006; Hegd é y Essen, 2000). Computacionalmente, este operador se define como sigue:

OVF :Icolor →M VF . (3)

donde M VF es el mapa visual de forma que contiene la informaci ´on que es promi-

nente para el an álisis de la silueta del objeto. De esta manera, se proponen funciones compuestas de los cuatro operadores b ásicos de la morfolog´ıa matem ática

Salida:Etiqueta Entrada:Icolor Inicio For eachddo For end MCd=resize(P_d(Qjd)) MMd=P k i=1(OVM Mi(MCd)) Adquisici´on y Transformaci´on de Caracter´ısticas No S´ı Procedimiento Centro-Entorno

C´alculo de Mapas Mentales

d={O, C, F, Int}

MVInt= Ir

+Ig+_Ib 3 /* Construir un Mapa Visual

por cada dimensi´on */

MVd=OVd(Icolor)

/* Construir el Mapa Visual de Intensidad */

Pdσ=Gaussian Pyramid(MVd, σ= 1)

/* Construir una pir´amide Gaussiana de 8 niveles */ Forma (F) e Intensidad (Int) como sus elementos */ las caracter´ısticas de Orientaci´on (O), Color (C), /* Definir un conjuntodcon

Qj_d=Pσ=⌊ j+9 2 ⌋+1 d −P σ=⌊j+22 ⌋+1 d Ifd=Int

Figura 14: Representaci ón esquem ática del algoritmo computacional para la adquisici ón y transfor-

maci ´on de datos, en este caso la entrada es una imagen a color y su salida es un conjunto de mapas

conocidos como: erosi ´on, dilataci ´on, apertura y cerradura; ver tabla 7. A partir de estos cuatro operadores se pueden crear funciones complejas conocidas como: hit- or-miss, skeleton, perimeter, top-hat and bottom-hat; por mencionar algunas (Gon- zalez y Woods, 2002).

Mapa visual de orientaci ´on. Las caracter´ısticas de orientaci ´on son determinadas por detectores de bordes y esquinas aplicadas a una imagen. Estos operadores (OVO)

emulan la funcionalidad de las c ´elulas simples y complejas presentes en la corteza visual primaria (Hubel y Wiesel, 1959; Hubel, 1982). Y son definidas como sigue:

OVO:Icolor →M VO . (4)

donde M VO corresponde al mapa visual de las caracter´ısticas de orientaci ´on. De

esta forma, el valor de cada pixel en elM VO indica su relevancia en la propiedad de

orientaci ´on. Los OVO son una composici ´on de las funciones mostradas en la tabla

5, entre las cuales se proponen la derivada Gaussiana propuesta por Young et al.

(2001), y el filtro de suavizado Gaussiano con σ={1,2}.

Mapa Visual de Intensidad. Finalmente la medida de intensidad corresponde a la cantidad de luz percibida por un dispositivo fotosensitivo. En los humanos, la intensidad es medida por c ´elulas ganglionares especializadas en la retina (Desimone y Duncan, 1995; Treisman y Gelade, 1980). Para emular esta funcionalidad se define la siguiente formulaci ´on:

M VInt =

Ir+Ig+Ib

3 ,

donde Ir, Ig e Ib son las bandas de color roja, verde y azul de la imagen, yM VInt

es el mapa visual de la intensidad (Milanese, 1993; Itti et al., 1998; Walther y Koch, 2007).

4.2.1.3. Relaci ´on centro-entorno y mapas conspicuos

El m étodo de centro-entorno est á basado en la funcionalidad de las c élulas ganglionares que se encuentran en la retina y en el n úcleo lateral geniculado, donde la excitaci ón de estas c élulas depende de la diferencia de sus entradas, las cuales corresponden a est´ımulos dados por el centro y el entorno de su campo receptivo. Computacionalmente, se persigue el objetivo de realzar las zonas que brinden la mayor informaci ón de cada mapa visual. De esta forma, se generan un mapa conspicuo (M C) por dimensi ón siguiendo el modelo de Walther y Koch (2006). Esta subrutina consiste de dos pasos, en el primero se crea una estructura llamada pir ámide de escalas que consiste de nueve niveles,Pσ

d = {Pσ=0

d , Pdσ=1, Pdσ=2, Pdσ=3, . . . , Pdσ=8}; donde cada nivel se calcula aplicando un filtro de

suavizado Gausiano. As´ı, su salida se muestrea obteniendo una imagen de la mitad del tama ño de la imagen de entrada. Dicho proceso se repite recursivamente ocho veces para obtener los nueve niveles de la pir ámide. En un segundo paso se calcula un diferencia entre los niveles de la pir ámide como sigue:

Qj_d=Pσ=bj+92 c+1

d −P

σ=bj+22 c+1

d ,

donde se crea una nueva pir ´amide de 6 niveles, es decir, j = _{1,2, . . . ,6_}. Para llevar a cabo la diferencia entre los niveles de Pσ

d, se escala el nivel de menor tama ˜no a la di-

mensi ón del nivel de mayor tama ño y se realiza la resta entre estos. Una vez obtenida la pir ámideQj_d, cada nivel se normaliza y se escala a la dimensi ón del mapa visualM Vduti-

lizando una interpolaci ón polinomial. Entonces, los 6 niveles son combinados en un único mapa a trav és de una sumatoria, con lo cual se construye un mapa conspicuo,M C, por cada dimensi ón.

In document Reconocimiento de objetos en una escena bajo el paradigma del cómputo evolutivo y la corteza visualObject recognition under the paradigm of evolutionary computation and visual cortex (página 53-58)