4. Corteza visual artificial
4.2. Modelo computacional
4.2.1. Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de
Esta etapa es basada en el modelo psicol ´ogico de la atenci ´on visual propuesto por Treisman y Gelade (1980), el cual ha sido implementado computacionalmente por algu- nos autores como Itti y Koch (2001); Ullman et al. (2002); Dozal et al. (2014). El primer
paso consiste en adquirir la imagen con una c ´amara, cuya contraparte natural es la reti- na. Aqu´ı, el sistema considera una imagen a color en el modelo RGB, dicha imagen es transformada a los modelos de color CMYK y HSV, ver figura 14. De esta forma, para el procesamiento de la imagen se consideran los m ´ultiples canales de color, para lo cual se define el conjunto Icolor = {Ir, Ig, Ib, Ic, Im, Iy, Ik, Ih, Is, Iv}, en donde cada elemento
corresponde a las componentes de colorrojo, verde, azul, cian, magenta, amarillo, negro, matiz, saturaci ´on, y valor de cada modelo. As´ı, los elementos de Icolor son la entrada a
cuatro operadores visuales (OV), que se aplican de forma independiente y con el objetivo de enfatizar y extraer propiedades espec´ıficas del objeto como: color, orientaci ´on, forma e intensidad, a cada una de estas propiedades se denominar ´a dimensi ´on. Estas transfor- maciones son inspiradas en el proceso de extracci ´on de caracter´ısticas de la informaci ´on visual llevada a cabo en el cerebro (Treisman y Gelade, 1980). Con lo cual, al aplicar los
OV se generan lo que llamamos mapas visuales (M V), uno por cada dimensi ´on, ver fi- gura 14. Contrariamente a anteriores modelos biol ´ogicamente plausibles, en donde estos operadores est ´an basados puramente en el conocimiento neurocient´ıfico, e implementa- dos bajo un paradigma dirigido por datos; en este trabajo se propone construir dichos operadores con un conjunto de operaciones dentro de una estructura computacional, de esta forma, la analog´ıa solo se centrar ´a en la funcionalidad del operador y no en como este sea construido.
4.2.1.1. Caracter´ısticas de la im ´agen como flujos de informaci ´on independientes
En este algoritmo, se define unOV a lo largo de cuatro dimensiones: color (C), orien- taci ´on (O), forma (F) e intensidad (Int); con lo cual,OV esta dado como sigue:
OVd:Icolor →M Vd;
donde la entrada del operador visual puede ser uno o varios elementos deIcolor; la salida
corresponde a un mapa visual (V Md) y d es la dimenci ´on, d ∈ {C, S, O, Int}, ver figura
14. As´ı cada operador se calcula secuencialmente y genera un mapa visual para cada dimensi ´on; las propiedades de cada uno de estos operadores se explican a continuaci ´on.
4.2.1.2. Mapas visuales
Mapa visual de color. El fin de aplicar el operador visual de color (OVC) es obtener
las regiones m ´as prominentes de las propiedades de color de la imagen. En el sistema natural esta operaci ´on se lleva a cabo en la retina, donde las oponencias de color son estimadas y despu ´es procesadas por las ´areas V1, V2 y V4 del cerebro (Kalanit y Malach, 2004). El mapeo en el modelo computacional del OVC se define
como sigue:
OVC :Icolor →M VC . (2)
donde M VC es el mapa visual de color. El OVC se construye a partir de una com-
posici ´on de funciones de m ´ultiples operadores que se muestran en la tabla 6. Cabe mencionar que dentro de estos operadores se considera el c ´alculo de las oponen- cias de color, propuesto por Walther y Koch (2006), y el operador complemento, donde la imagen de salida es el resultado de restar al valor m ´aximo que puede to- mar un pixel de la imagen el valor de cada pixel de la imagen de entrada.
Mapa visual de forma. El m ´etodo por el cual se extrae la informaci ´on sobre la forma del objeto en la imagen, se logra a trav ´es de utilizar la informaci ´on morfol ´ogica del objeto. En la naturaleza dicha funcionalidad se lleva a cabo en ´areas del cerebro como V2 y el ´area de la corteza temporal (Corbetta et al., 1990; Ito y Komatsu, 2004; Heydtet al., 1984; Plebe, 2006; Hegd ´e y Essen, 2000). Computacionalmente, este operador se define como sigue:
OVF :Icolor →M VF . (3)
donde M VF es el mapa visual de forma que contiene la informaci ´on que es promi-
nente para el an ´alisis de la silueta del objeto. De esta manera, se proponen fun- ciones compuestas de los cuatro operadores b ´asicos de la morfolog´ıa matem ´atica
Salida:Etiqueta Entrada:Icolor Inicio For eachddo For end MCd=resize(Pd(Qjd)) MMd=P k i=1(OVM Mi(MCd)) Adquisici´on y Transformaci´on de Caracter´ısticas No S´ı Procedimiento Centro-Entorno
C´alculo de Mapas Mentales
1
d={O, C, F, Int}
MVInt= Ir
+Ig+Ib 3 /* Construir un Mapa Visual
por cada dimensi´on */
MVd=OVd(Icolor)
/* Construir el Mapa Visual de Intensidad */
Pdσ=Gaussian Pyramid(MVd, σ= 1)
/* Construir una pir´amide Gaussiana de 8 niveles */ Forma (F) e Intensidad (Int) como sus elementos */ las caracter´ısticas de Orientaci´on (O), Color (C), /* Definir un conjuntodcon
Qjd=Pσ=⌊ j+9 2 ⌋+1 d −P σ=⌊j+22 ⌋+1 d Ifd=Int
Figura 14: Representaci ´on esquem ´atica del algoritmo computacional para la adquisici ´on y transfor-
maci ´on de datos, en este caso la entrada es una imagen a color y su salida es un conjunto de mapas
conocidos como: erosi ´on, dilataci ´on, apertura y cerradura; ver tabla 7. A partir de estos cuatro operadores se pueden crear funciones complejas conocidas como: hit- or-miss, skeleton, perimeter, top-hat and bottom-hat; por mencionar algunas (Gon- zalez y Woods, 2002).
Mapa visual de orientaci ´on. Las caracter´ısticas de orientaci ´on son determinadas por detectores de bordes y esquinas aplicadas a una imagen. Estos operadores (OVO)
emulan la funcionalidad de las c ´elulas simples y complejas presentes en la corteza visual primaria (Hubel y Wiesel, 1959; Hubel, 1982). Y son definidas como sigue:
OVO:Icolor →M VO . (4)
donde M VO corresponde al mapa visual de las caracter´ısticas de orientaci ´on. De
esta forma, el valor de cada pixel en elM VO indica su relevancia en la propiedad de
orientaci ´on. Los OVO son una composici ´on de las funciones mostradas en la tabla
5, entre las cuales se proponen la derivada Gaussiana propuesta por Young et al.
(2001), y el filtro de suavizado Gaussiano con σ={1,2}.
Mapa Visual de Intensidad. Finalmente la medida de intensidad corresponde a la cantidad de luz percibida por un dispositivo fotosensitivo. En los humanos, la inten- sidad es medida por c ´elulas ganglionares especializadas en la retina (Desimone y Duncan, 1995; Treisman y Gelade, 1980). Para emular esta funcionalidad se define la siguiente formulaci ´on:
M VInt =
Ir+Ig+Ib
3 ,
donde Ir, Ig e Ib son las bandas de color roja, verde y azul de la imagen, yM VInt
es el mapa visual de la intensidad (Milanese, 1993; Itti et al., 1998; Walther y Koch, 2007).
4.2.1.3. Relaci ´on centro-entorno y mapas conspicuos
El m ´etodo de centro-entorno est ´a basado en la funcionalidad de las c ´elulas gangliona- res que se encuentran en la retina y en el n ´ucleo lateral geniculado, donde la excitaci ´on de estas c ´elulas depende de la diferencia de sus entradas, las cuales corresponden a est´ımulos dados por el centro y el entorno de su campo receptivo. Computacionalmente, se persigue el objetivo de realzar las zonas que brinden la mayor informaci ´on de cada ma- pa visual. De esta forma, se generan un mapa conspicuo (M C) por dimensi ´on siguiendo el modelo de Walther y Koch (2006). Esta subrutina consiste de dos pasos, en el primero se crea una estructura llamada pir ´amide de escalas que consiste de nueve niveles,Pσ
d = {Pσ=0
d , Pdσ=1, Pdσ=2, Pdσ=3, . . . , Pdσ=8}; donde cada nivel se calcula aplicando un filtro de
suavizado Gausiano. As´ı, su salida se muestrea obteniendo una imagen de la mitad del tama ˜no de la imagen de entrada. Dicho proceso se repite recursivamente ocho veces pa- ra obtener los nueve niveles de la pir ´amide. En un segundo paso se calcula un diferencia entre los niveles de la pir ´amide como sigue:
Qjd=Pσ=bj+92 c+1
d −P
σ=bj+22 c+1
d ,
donde se crea una nueva pir ´amide de 6 niveles, es decir, j = {1,2, . . . ,6}. Para llevar a cabo la diferencia entre los niveles de Pσ
d, se escala el nivel de menor tama ˜no a la di-
mensi ´on del nivel de mayor tama ˜no y se realiza la resta entre estos. Una vez obtenida la pir ´amideQjd, cada nivel se normaliza y se escala a la dimensi ´on del mapa visualM Vduti-
lizando una interpolaci ´on polinomial. Entonces, los 6 niveles son combinados en un ´unico mapa a trav ´es de una sumatoria, con lo cual se construye un mapa conspicuo,M C, por cada dimensi ´on.