5. M ´etodos
5.3. Corteza visual artificial version 2
Al analizar visualmente los resultados de los experimentos sobre el conjunto de datos de GRAZ, los cuales se basan en el modelo de la CVA y el paradigma de la programaci ´on cerebral, se puede observar que en ocasiones las regiones que se resaltan en la imagen quedan un poco dispersas; adem ´as de que ocasionalmente en algunas im ´agenes las regiones se concentran en los bordes. De esta forma se considera que es conveniente estudiar el procedimiento mediante el cual el vector descriptor toma la informaci ´on rele- vante para poder clasificar la imagen; ya que el vector descriptor est ´a compuesto de los n valores m ´aximos de los mapas mentales y no necesariamente son puntos contiguos en la imagen. La Figura 28 contiene ejemplos de las regiones resaltadas por el descrip- tor en algunas im ´agenes de los conjuntos de datos de GRAZ y que ejemplifican lo dicho anteriormente.
En el trabajo de Clemente et al. (2013) y Olague et al. (2014a), donde se realizaron experimentos sobre la base de datos de Caltech-5, lo anterior no representaba un pro- blema, ya que aunque los valores del descriptor pudieran quedar un poco dispersos en la imagen, por lo general siguen siendo parte del objeto que se desea clasificar. Esto suce- de debido a que en la base de datos de Caltech-5 los objetos de las clases est ´an en el plano principal y abarcan un gran porcentaje del tama ˜no total de la imagen. En contraste, en los conjuntos de datos de GRAZ el objeto a clasificar deja de estar mayoritariamente en el plano principal y en casi todos los casos solo abarca un peque ˜no porcentaje del ta- ma ˜no total de la imagen. Esto nos lleva a plantearnos la cuesti ´on de si se puede mejorar el rendimiento del algoritmo si se modifica un poco la forma en que se obtiene el vector descriptor de la imagen, de tal manera que ´este no se obtenga de regiones dispersas, sino de una sola regi ´on.
Esta idea surge en parte de un procedimiento utilizado en los trabajos de Olagueet al. (2014b) y Dozalet al.(2014) donde se aborda el problema de la atenci ´on visual mediante la implementaci ´on del modelo de la ruta dorsal artificial. Las primeras etapas de su mo- delo funcionan de manera similar a las del modelo de la CVA. En su modelo despu ´es de obtener los mapas visuales, y generar los mapas conspicuos, se obtiene un mapa de pro- minencia, el cual es el resultado de aplicar una funci ´on de integraci ´on de caracter´ısticas
Figura 28: Ejemplos de los resultados utilizando la CVA donde los puntos del descriptor se encuen- tran dispersos en la imagen.
que une a los mapas conspicuos tomando la informaci ´on m ´as prominente. Esta funci ´on se aplica mediante el m ´etodo WTA, el cual selecciona el pixel m ´as sobresaliente en el mapa de prominencia y posteriormente se aplica una funci ´on de propagaci ´on alrededor de la regi ´on del pixel m ´as sobresaliente, para generar lo que se conoce comoproto-objeto. El uso del m ´etodo WTA y el proceso para generar el proto-objeto mediante una funci ´on de propagaci ´on, se realiza con el prop ´osito de encontrar una sola regi ´on, buscando enfocar la mirada mediante la atenci ´on visual en esa regi ´on de la imagen. Esto ´ultimo es similar al problema que estamos enfrentando al estudiar la implementaci ´on de la CVA para resolver el problema de clasificaci ´on de objetos con las bases de datos de GRAZ.
Partiendo de esta idea, se realiza la propuesta de una segunda versi ´on de la CVA con el objetivo de lograr un mejor desempe ˜no del algoritmo para el problema de los conjuntos de datos de GRAZ. Dicha propuesta consiste en modificar la manera en que se obtienen los valores del descriptor; de tal forma que los puntos del descriptor queden ubicados en una sola regi ´on.
Adem ´as, una vez ubicada una regi ´on en la imagen, se propone guiar de nuevo a la funci ´on de propagaci ´on en base a los puntos sobresalientes por cada dimensi ´on asociada a la regi ´on seleccionada. Esto ´ultimo tiene el prop ´osito de obtener los valores del vector
descriptor asociados a los mapas visuales, ya que de cierta forma se supone que son di- chos mapas los que proporcionan m ´as informaci ´on ´util para el clasificador. A continuaci ´on se detallan las modificaciones realizadas en la etapa de descripci ´on de la CVA.
5.3.1. Modificaci ´on de la etapa de descripci ´on de la CVA
Los primeros pasos de la CVA, hasta llegar a la obtenci ´on de los mapas mentales, se realizan de la misma manera que en los trabajos de Clementeet al.(2013) y Olagueet al. (2014a). Una vez que se obtienen los mapas mentales, cada uno de ellos se normaliza mediante una interpolaci ´on lineal en el rango de 0 a 1; ver Ecuaci ´on (23). Estos nuevos mapas mentales normalizados se integran en un mapa de prominencia mediante una sumatoria como se indica en la Ecuaci ´on (24) y de manera resumida en la Ecuaci ´on (25).
MMd= MMd−min(MMd) max(MMd)−min(MMd) . (23) MP =MMO+MMC+MMF +MMI. (24) MP = k X i=1 (MMd), (25)
dondedes la dimensi ´on yk representa la cardinalidad de las cuatro dimensiones que se consideran (orientaci ´on, color, forma e intensidad).
Habiendo obtenido el mapa de prominencia, se obtienen las coordenadas del valor m ´aximo y se almacenan en un vector coordenadas. Despu ´es, se aplica una funci ´on de propagaci ´on que consiste en un proceso iterativo donde se buscan las coordenadas del punto con el valor m ´aximo de entre todos los vecinos de los puntos guardados hasta el momento en el vector de coordenadas, y se almacenan las nuevas coordenadas en la siguiente posici ´on disponible del vector. Una vez realizado este procesonveces, la salida ser ´a un vector de coordenadas que representa a una regi ´on en la imagen de tama ˜no n pixeles. Esta regi ´on sirve para obtener la informaci ´on de los mapas visuales que confor- mar ´a los valores del nuevo vector descriptor. En cada mapa visual se selecciona el pixel
con el valor m ´aximo dentro de la regi ´on obtenida y se genera una funci ´on de propagaci ´on para obtener los valores correspondientes a una regi ´on de tama ˜non/4. Para finalizar, se concatenan los puntos que corresponden a los valores seleccionados por cada dimen- si ´on, para obtener el descriptor de tama ˜non. Lo anterior se puede representar mediante el Algoritmo 2 y se puede vizualizar en la Figura 29.
Esta nueva forma de obtener el descriptor genera un cambio en los resultados ob- tenidos de los experimentos sobre los conjuntos de datos de GRAZ. De esta forma, se alcanza un mejor rendimiento como se puede observar posteriormente en el Cap´ıtulo 6. As´ı, se confirma la hip ´otesis planteada de que el rendimiento mejora al generar el vector descriptor de la imagen a partir de los valores obtenidos de una sola regi ´on de la imagen.
En adelante a esta nueva versi ´on de la CVA, donde se incluye la modificaci ´on de la etapa de descripci ´on, se manejar ´a con la abreviatura CVA2 con el fin de distinguirla de la CVA original propuesta en los trabajos de Clementeet al.(2013) y Olagueet al.(2014a).
Algoritmo 2:DESCRIPTOR 2
Entrada:MP, MVd ⊲ /*Mapa de prominencia y arreglo con los mapas
visuales*/
Salida:coordenadasd, v ⊲ /*Coordenadas de las regiones para cada mapa
visual y vector descriptor*/
1 coordenadas[1]←coordMaxVal(MP)
2 MP[coordenadas[1].x, coordenadas[1].y]←0
3 para i←2hastan incrementar1
4 coordenadas[i]←coordMaxValVecino(MP, coordenadas) 5 MP[coordenadas[i].x, coordenadas[i].y]←0
6 fin
7 para cadaMVd
8 coordenadasd[1]←coordMaxValReg(MVd, coordenadas) 9 vd[1]←obtenerVal(MVd, coordenadasd[1])
10 MVd[coordenadasd[i].x, coordenadasd[i].y]←0
11 para i←2hastan/4incrementar1
12 coordenadasd[i]←coordMaxValVecino(MVd, coordenadasd) 13 vd[i]←obtenerVal(MVd, coordenadasd[i]) 14 MVd[coordenadasd[i].x, coordenadasd[i].y]←0 15 v ←concat(v, vd) 16 fin 17 fin 18 devolvercoordenadasd, v
Mapa Conspicuo Mapa Conspicuo
I a en a Color
Mapa Conspicuo Mapa Conspicuo de
de Color de or a de Intensidad
de Forma (MCF
prominencia
MP = MMC + MMO + MMF + MMInt
MVC= OVC(Icol or) MVO= OVO(Icol or) MVF= OVF(Icol or) MVI nt= ( Ir+ Ig+ Ib 3 ) M MC= (OVM M k(MCC)) (OVM M k(MCO)) M MF= M MO= M MI nt= (OVM M k(MCF)) (OVM M k(MCI nt))
Región de la imagén para obtener el vector descriptor
Mapa Visual Mapa Visual Mapa Visual Mapa Visual
de Color (MCC) Orient aci´on (MCO) de I nt ensidad (MCI nt)
de Orient aci´on OVM M 2(MCO) OVM M 3(MCF) OVM M k(MCI nt) OVM M 1(MCC) M Vect or Descript or = ( 1, ..., n) )
Figura 29: Flujo de la informaci ´on visual para la CVA2. Inicialmente se sigue el flujo propuesto en la CVA, al concatenar los mapas visuales se obtiene el valor m ´aximo con el fin de aplicar una funci ´on de propagaci ´on a su alrededor y en base a esta regi ´on se extrae la informaci ´on de los mapas visuales para formar el descriptor.