• No se han encontrado resultados

5. M ´etodos

5.3. Corteza visual artificial version 2

Al analizar visualmente los resultados de los experimentos sobre el conjunto de datos de GRAZ, los cuales se basan en el modelo de la CVA y el paradigma de la programaci ´on cerebral, se puede observar que en ocasiones las regiones que se resaltan en la imagen quedan un poco dispersas; adem ´as de que ocasionalmente en algunas im ´agenes las regiones se concentran en los bordes. De esta forma se considera que es conveniente estudiar el procedimiento mediante el cual el vector descriptor toma la informaci ´on rele- vante para poder clasificar la imagen; ya que el vector descriptor est ´a compuesto de los n valores m ´aximos de los mapas mentales y no necesariamente son puntos contiguos en la imagen. La Figura 28 contiene ejemplos de las regiones resaltadas por el descrip- tor en algunas im ´agenes de los conjuntos de datos de GRAZ y que ejemplifican lo dicho anteriormente.

En el trabajo de Clemente et al. (2013) y Olague et al. (2014a), donde se realizaron experimentos sobre la base de datos de Caltech-5, lo anterior no representaba un pro- blema, ya que aunque los valores del descriptor pudieran quedar un poco dispersos en la imagen, por lo general siguen siendo parte del objeto que se desea clasificar. Esto suce- de debido a que en la base de datos de Caltech-5 los objetos de las clases est ´an en el plano principal y abarcan un gran porcentaje del tama ˜no total de la imagen. En contraste, en los conjuntos de datos de GRAZ el objeto a clasificar deja de estar mayoritariamente en el plano principal y en casi todos los casos solo abarca un peque ˜no porcentaje del ta- ma ˜no total de la imagen. Esto nos lleva a plantearnos la cuesti ´on de si se puede mejorar el rendimiento del algoritmo si se modifica un poco la forma en que se obtiene el vector descriptor de la imagen, de tal manera que ´este no se obtenga de regiones dispersas, sino de una sola regi ´on.

Esta idea surge en parte de un procedimiento utilizado en los trabajos de Olagueet al. (2014b) y Dozalet al.(2014) donde se aborda el problema de la atenci ´on visual mediante la implementaci ´on del modelo de la ruta dorsal artificial. Las primeras etapas de su mo- delo funcionan de manera similar a las del modelo de la CVA. En su modelo despu ´es de obtener los mapas visuales, y generar los mapas conspicuos, se obtiene un mapa de pro- minencia, el cual es el resultado de aplicar una funci ´on de integraci ´on de caracter´ısticas

Figura 28: Ejemplos de los resultados utilizando la CVA donde los puntos del descriptor se encuen- tran dispersos en la imagen.

que une a los mapas conspicuos tomando la informaci ´on m ´as prominente. Esta funci ´on se aplica mediante el m ´etodo WTA, el cual selecciona el pixel m ´as sobresaliente en el mapa de prominencia y posteriormente se aplica una funci ´on de propagaci ´on alrededor de la regi ´on del pixel m ´as sobresaliente, para generar lo que se conoce comoproto-objeto. El uso del m ´etodo WTA y el proceso para generar el proto-objeto mediante una funci ´on de propagaci ´on, se realiza con el prop ´osito de encontrar una sola regi ´on, buscando enfocar la mirada mediante la atenci ´on visual en esa regi ´on de la imagen. Esto ´ultimo es similar al problema que estamos enfrentando al estudiar la implementaci ´on de la CVA para resolver el problema de clasificaci ´on de objetos con las bases de datos de GRAZ.

Partiendo de esta idea, se realiza la propuesta de una segunda versi ´on de la CVA con el objetivo de lograr un mejor desempe ˜no del algoritmo para el problema de los conjuntos de datos de GRAZ. Dicha propuesta consiste en modificar la manera en que se obtienen los valores del descriptor; de tal forma que los puntos del descriptor queden ubicados en una sola regi ´on.

Adem ´as, una vez ubicada una regi ´on en la imagen, se propone guiar de nuevo a la funci ´on de propagaci ´on en base a los puntos sobresalientes por cada dimensi ´on asociada a la regi ´on seleccionada. Esto ´ultimo tiene el prop ´osito de obtener los valores del vector

descriptor asociados a los mapas visuales, ya que de cierta forma se supone que son di- chos mapas los que proporcionan m ´as informaci ´on ´util para el clasificador. A continuaci ´on se detallan las modificaciones realizadas en la etapa de descripci ´on de la CVA.

5.3.1. Modificaci ´on de la etapa de descripci ´on de la CVA

Los primeros pasos de la CVA, hasta llegar a la obtenci ´on de los mapas mentales, se realizan de la misma manera que en los trabajos de Clementeet al.(2013) y Olagueet al. (2014a). Una vez que se obtienen los mapas mentales, cada uno de ellos se normaliza mediante una interpolaci ´on lineal en el rango de 0 a 1; ver Ecuaci ´on (23). Estos nuevos mapas mentales normalizados se integran en un mapa de prominencia mediante una sumatoria como se indica en la Ecuaci ´on (24) y de manera resumida en la Ecuaci ´on (25).

MMd= MMd−min(MMd) max(MMd)−min(MMd) . (23) MP =MMO+MMC+MMF +MMI. (24) MP = k X i=1 (MMd), (25)

dondedes la dimensi ´on yk representa la cardinalidad de las cuatro dimensiones que se consideran (orientaci ´on, color, forma e intensidad).

Habiendo obtenido el mapa de prominencia, se obtienen las coordenadas del valor m ´aximo y se almacenan en un vector coordenadas. Despu ´es, se aplica una funci ´on de propagaci ´on que consiste en un proceso iterativo donde se buscan las coordenadas del punto con el valor m ´aximo de entre todos los vecinos de los puntos guardados hasta el momento en el vector de coordenadas, y se almacenan las nuevas coordenadas en la siguiente posici ´on disponible del vector. Una vez realizado este procesonveces, la salida ser ´a un vector de coordenadas que representa a una regi ´on en la imagen de tama ˜no n pixeles. Esta regi ´on sirve para obtener la informaci ´on de los mapas visuales que confor- mar ´a los valores del nuevo vector descriptor. En cada mapa visual se selecciona el pixel

con el valor m ´aximo dentro de la regi ´on obtenida y se genera una funci ´on de propagaci ´on para obtener los valores correspondientes a una regi ´on de tama ˜non/4. Para finalizar, se concatenan los puntos que corresponden a los valores seleccionados por cada dimen- si ´on, para obtener el descriptor de tama ˜non. Lo anterior se puede representar mediante el Algoritmo 2 y se puede vizualizar en la Figura 29.

Esta nueva forma de obtener el descriptor genera un cambio en los resultados ob- tenidos de los experimentos sobre los conjuntos de datos de GRAZ. De esta forma, se alcanza un mejor rendimiento como se puede observar posteriormente en el Cap´ıtulo 6. As´ı, se confirma la hip ´otesis planteada de que el rendimiento mejora al generar el vector descriptor de la imagen a partir de los valores obtenidos de una sola regi ´on de la imagen.

En adelante a esta nueva versi ´on de la CVA, donde se incluye la modificaci ´on de la etapa de descripci ´on, se manejar ´a con la abreviatura CVA2 con el fin de distinguirla de la CVA original propuesta en los trabajos de Clementeet al.(2013) y Olagueet al.(2014a).

Algoritmo 2:DESCRIPTOR 2

Entrada:MP, MVd ⊲ /*Mapa de prominencia y arreglo con los mapas

visuales*/

Salida:coordenadasd, v ⊲ /*Coordenadas de las regiones para cada mapa

visual y vector descriptor*/

1 coordenadas[1]←coordMaxVal(MP)

2 MP[coordenadas[1].x, coordenadas[1].y]←0

3 para i←2hastan incrementar1

4 coordenadas[i]←coordMaxValVecino(MP, coordenadas) 5 MP[coordenadas[i].x, coordenadas[i].y]←0

6 fin

7 para cadaMVd

8 coordenadasd[1]←coordMaxValReg(MVd, coordenadas) 9 vd[1]←obtenerVal(MVd, coordenadasd[1])

10 MVd[coordenadasd[i].x, coordenadasd[i].y]←0

11 para i←2hastan/4incrementar1

12 coordenadasd[i]←coordMaxValVecino(MVd, coordenadasd) 13 vd[i]←obtenerVal(MVd, coordenadasd[i]) 14 MVd[coordenadasd[i].x, coordenadasd[i].y]←0 15 v ←concat(v, vd) 16 fin 17 fin 18 devolvercoordenadasd, v

Mapa Conspicuo Mapa Conspicuo

I a en a Color

Mapa Conspicuo Mapa Conspicuo de

de Color de or a de Intensidad

de Forma (MCF

prominencia

MP = MMC + MMO + MMF + MMInt

MVC= OVC(Icol or) MVO= OVO(Icol or) MVF= OVF(Icol or) MVI nt= ( Ir+ Ig+ Ib 3 ) M MC= (OVM M k(MCC)) (OVM M k(MCO)) M MF= M MO= M MI nt= (OVM M k(MCF)) (OVM M k(MCI nt))

Región de la imagén para obtener el vector descriptor

Mapa Visual Mapa Visual Mapa Visual Mapa Visual

de Color (MCC) Orient aci´on (MCO) de I nt ensidad (MCI nt)

de Orient aci´on OVM M 2(MCO) OVM M 3(MCF) OVM M k(MCI nt) OVM M 1(MCC) M Vect or Descript or = ( 1, ..., n) )

Figura 29: Flujo de la informaci ´on visual para la CVA2. Inicialmente se sigue el flujo propuesto en la CVA, al concatenar los mapas visuales se obtiene el valor m ´aximo con el fin de aplicar una funci ´on de propagaci ´on a su alrededor y en base a esta regi ´on se extrae la informaci ´on de los mapas visuales para formar el descriptor.

Documento similar