Corteza visual artificial version 2 - Clasificación de objetos en imágenes naturales utilizando

5. M ´etodos

5.3. Corteza visual artificial version 2

Al analizar visualmente los resultados de los experimentos sobre el conjunto de datos de GRAZ, los cuales se basan en el modelo de la CVA y el paradigma de la programaci ón cerebral, se puede observar que en ocasiones las regiones que se resaltan en la imagen quedan un poco dispersas; adem ás de que ocasionalmente en algunas im ágenes las regiones se concentran en los bordes. De esta forma se considera que es conveniente estudiar el procedimiento mediante el cual el vector descriptor toma la informaci ón rele- vante para poder clasificar la imagen; ya que el vector descriptor est á compuesto de los n valores m áximos de los mapas mentales y no necesariamente son puntos contiguos en la imagen. La Figura 28 contiene ejemplos de las regiones resaltadas por el descriptor en algunas im ágenes de los conjuntos de datos de GRAZ y que ejemplifican lo dicho anteriormente.

En el trabajo de Clemente et al. (2013) y Olague et al. (2014a), donde se realizaron experimentos sobre la base de datos de Caltech-5, lo anterior no representaba un problema, ya que aunque los valores del descriptor pudieran quedar un poco dispersos en la imagen, por lo general siguen siendo parte del objeto que se desea clasificar. Esto suce- de debido a que en la base de datos de Caltech-5 los objetos de las clases est án en el plano principal y abarcan un gran porcentaje del tama ño total de la imagen. En contraste, en los conjuntos de datos de GRAZ el objeto a clasificar deja de estar mayoritariamente en el plano principal y en casi todos los casos solo abarca un peque ño porcentaje del tama ño total de la imagen. Esto nos lleva a plantearnos la cuesti ón de si se puede mejorar el rendimiento del algoritmo si se modifica un poco la forma en que se obtiene el vector descriptor de la imagen, de tal manera que éste no se obtenga de regiones dispersas, sino de una sola regi ón.

Esta idea surge en parte de un procedimiento utilizado en los trabajos de Olagueet al. (2014b) y Dozalet al.(2014) donde se aborda el problema de la atenci ón visual mediante la implementaci ón del modelo de la ruta dorsal artificial. Las primeras etapas de su modelo funcionan de manera similar a las del modelo de la CVA. En su modelo despu és de obtener los mapas visuales, y generar los mapas conspicuos, se obtiene un mapa de prominencia, el cual es el resultado de aplicar una funci ón de integraci ón de caracter´ısticas

Figura 28: Ejemplos de los resultados utilizando la CVA donde los puntos del descriptor se encuen- tran dispersos en la imagen.

que une a los mapas conspicuos tomando la informaci ón m ás prominente. Esta funci ón se aplica mediante el m étodo WTA, el cual selecciona el pixel m ás sobresaliente en el mapa de prominencia y posteriormente se aplica una funci ón de propagaci ón alrededor de la regi ón del pixel m ás sobresaliente, para generar lo que se conoce comoproto-objeto. El uso del m étodo WTA y el proceso para generar el proto-objeto mediante una funci ón de propagaci ón, se realiza con el prop ósito de encontrar una sola regi ón, buscando enfocar la mirada mediante la atenci ón visual en esa regi ón de la imagen. Esto último es similar al problema que estamos enfrentando al estudiar la implementaci ón de la CVA para resolver el problema de clasificaci ón de objetos con las bases de datos de GRAZ.

Partiendo de esta idea, se realiza la propuesta de una segunda versi ón de la CVA con el objetivo de lograr un mejor desempe ño del algoritmo para el problema de los conjuntos de datos de GRAZ. Dicha propuesta consiste en modificar la manera en que se obtienen los valores del descriptor; de tal forma que los puntos del descriptor queden ubicados en una sola regi ón.

Adem ás, una vez ubicada una regi ón en la imagen, se propone guiar de nuevo a la funci ón de propagaci ón en base a los puntos sobresalientes por cada dimensi ón asociada a la regi ón seleccionada. Esto último tiene el prop ósito de obtener los valores del vector

descriptor asociados a los mapas visuales, ya que de cierta forma se supone que son di- chos mapas los que proporcionan m ás informaci ón útil para el clasificador. A continuaci ón se detallan las modificaciones realizadas en la etapa de descripci ón de la CVA.

5.3.1. Modificaci ´on de la etapa de descripci ´on de la CVA

Los primeros pasos de la CVA, hasta llegar a la obtenci ón de los mapas mentales, se realizan de la misma manera que en los trabajos de Clementeet al.(2013) y Olagueet al. (2014a). Una vez que se obtienen los mapas mentales, cada uno de ellos se normaliza mediante una interpolaci ón lineal en el rango de 0 a 1; ver Ecuaci ón (23). Estos nuevos mapas mentales normalizados se integran en un mapa de prominencia mediante una sumatoria como se indica en la Ecuaci ón (24) y de manera resumida en la Ecuaci ón (25).

MMd= MMd−min(MMd) max(MMd)−min(MMd) . (23) MP =MMO+MMC+MMF +MMI. (24) MP = k X i=1 (MMd), (25)

dondedes la dimensi ´on yk representa la cardinalidad de las cuatro dimensiones que se consideran (orientaci ´on, color, forma e intensidad).

Habiendo obtenido el mapa de prominencia, se obtienen las coordenadas del valor m áximo y se almacenan en un vector coordenadas. Despu és, se aplica una funci ón de propagaci ón que consiste en un proceso iterativo donde se buscan las coordenadas del punto con el valor m áximo de entre todos los vecinos de los puntos guardados hasta el momento en el vector de coordenadas, y se almacenan las nuevas coordenadas en la siguiente posici ón disponible del vector. Una vez realizado este procesonveces, la salida ser á un vector de coordenadas que representa a una regi ón en la imagen de tama ño n pixeles. Esta regi ón sirve para obtener la informaci ón de los mapas visuales que confor- mar á los valores del nuevo vector descriptor. En cada mapa visual se selecciona el pixel

con el valor m áximo dentro de la regi ón obtenida y se genera una funci ón de propagaci ón para obtener los valores correspondientes a una regi ón de tama ñon/4. Para finalizar, se concatenan los puntos que corresponden a los valores seleccionados por cada dimensi ón, para obtener el descriptor de tama ñon. Lo anterior se puede representar mediante el Algoritmo 2 y se puede vizualizar en la Figura 29.

Esta nueva forma de obtener el descriptor genera un cambio en los resultados obtenidos de los experimentos sobre los conjuntos de datos de GRAZ. De esta forma, se alcanza un mejor rendimiento como se puede observar posteriormente en el Cap´ıtulo 6. As´ı, se confirma la hip ´otesis planteada de que el rendimiento mejora al generar el vector descriptor de la imagen a partir de los valores obtenidos de una sola regi ´on de la imagen.

En adelante a esta nueva versi ón de la CVA, donde se incluye la modificaci ón de la etapa de descripci ón, se manejar á con la abreviatura CVA2 con el fin de distinguirla de la CVA original propuesta en los trabajos de Clementeet al.(2013) y Olagueet al.(2014a).

Algoritmo 2:DESCRIPTOR 2

Entrada:MP, MVd ⊲ /*Mapa de prominencia y arreglo con los mapas

visuales*/

Salida:coordenadasd, v ⊲ /*Coordenadas de las regiones para cada mapa

visual y vector descriptor*/

1 coordenadas[1]←coordMaxVal(MP)

2 MP[coordenadas[1].x, coordenadas[1].y]←0

3 para i←2hastan incrementar1

4 coordenadas[i]←coordMaxValVecino(MP, coordenadas) 5 MP[coordenadas[i].x, coordenadas[i].y]←0

6 fin

7 para cadaMV_d

8 coordenadas_d[1]←coordMaxValReg(MV_d, coordenadas) 9 vd[1]←obtenerVal(MVd, coordenadasd[1])

10 MV_d[coordenadas_d[i].x, coordenadas_d[i].y]←0

11 para i←2hastan/4incrementar1

12 coordenadasd[i]←coordMaxValVecino(MVd, coordenadasd) 13 v_d[i]←obtenerVal(MV_d, coordenadas_d[i]) 14 MV_d[coordenadas_d[i].x, coordenadas_d[i].y]←0 15 v ←concat(v, vd) 16 fin 17 fin 18 devolvercoordenadasd, v

Mapa Conspicuo Mapa Conspicuo

I a en a Color

Mapa Conspicuo Mapa Conspicuo de

de Color de or a de Intensidad

de Forma (MCF

prominencia

MP = MMC + MMO + MMF + MMInt

MVC= OVC(Icol or) MVO= OVO(Icol or) MVF= OVF(Icol or) MVI nt= ( Ir+ Ig+ Ib 3 ) M MC= (OVM M k(MCC)) (OVM M k(MCO)) M MF= M MO= M MI nt= (OVM M k(MCF)) (OVM M k(MCI nt))

Región de la imagén para obtener el vector descriptor

Mapa Visual Mapa Visual Mapa Visual Mapa Visual

de Color (MCC) Orient aci´on (MCO) de I nt ensidad (MCI nt)

de Orient aci´on OVM M 2(MCO) OVM M 3(MCF) OVM M k(MCI nt) OVM M 1(MCC) M Vect or Descript or = ( 1, ..., n) )

Figura 29: Flujo de la informaci ón visual para la CVA2. Inicialmente se sigue el flujo propuesto en la CVA, al concatenar los mapas visuales se obtiene el valor m áximo con el fin de aplicar una funci ón de propagaci ón a su alrededor y en base a esta regi ón se extrae la informaci ón de los mapas visuales para formar el descriptor.

In document Clasificación de objetos en imágenes naturales utilizando el paradigma de la programación cerebral con un enfoque multiobjetivoObject classi?cation in natural images using the brain programming paradigm with a multi-objective approach. (página 106-111)