Modelos computacionales - Reconocimiento de objetos en una escena bajo el paradigma del cómputo

2. Fundamentos

2.3. Modelos computacionales

En el siglo XX, con el arrivo de las computadoras digitales varios trabajos han inten- tado emular la funcionalidad de la corteza visual humana, con el prop ósito de desarrollar tareas como el reconocimiento de objetos, atenci ón visual y la detecci ón de objetos. En esta secci ón se da una lista de los trabajos m ás relevantes en el estado del arte los cuales son biol ógicamente inspirados en estas ideas.

Desde un punto de vista computacional, el primer trabajo que desarrolla un algorit- mo bioinspirado en la corteza visual con el objetivo del reconocimiento de objetos fue Fukushima (1980), quien propuso un modelo por medio de redes neuronales llamado Neocognitron. Su trabajo est á inspirado en el modelo jer árquico descrito por Hubel y Wie- sel (1959, 1962). Esta estructura est á representada por una red neuronal que consiste de una capa de entrada, seguida de una serie de estructuras modulares llamdas c élulas S y c élulas C, haciendo referencia a las c élulas simples y complejas. Esta idea imita las caracter´ısticas de las c élulas hipercomplejas de orden inferior y superior. En la pr áctica este modelo es capaz de reconocer letras y n úmeros considerando cambios de posici ón.

Hummel y Biederman (1992), proponen una red neuronal tomando encuenta las ideas propuestas por Biederman (1987), En este trabajo se realiza una descripci ón estructural de un objeto a partir de la conjunci ón de los atributos que los componen (partes y rela- ciones). Dentro de este mismo enfoque Ullman y Soloviev (1999), plantea que la uni ón de m últiples fragmentos de la imagen, llamados patrones visuales, pueden traslaparse y construir una descripci ón del objeto; este enfoque es utilizado para reconocer objetos complejos no importando la traslaci ón de éste en la imagen y despues es mejorado por Ullmanet al.(2002). Sobre esta l´ınea de investigaci ón Riesenhuber y Poggio (1999), introducen una arquitectura jer árquica con etapas similares propuestas en el modelo Neo- cognitron, pero con la diferencia de incluir la operaci ónmax, como un mejor modelo de las c élulas complejas, en lugar de emplear una sumatoria lineal; de igual forma se em- plea la correlaci ón de peque ños segmentos de la imagen llamados “parches” en lugar de una red neuronal. Este m étodo fue puesto a prueba al reconocer im ágenes artificiales de

sujetapapeles, obteniendo buenos resultados a ún bajo la variaci ón de posici ón. En trabajos como los propuestos por Serreet al.(2005); Mutch y Lowe (2008), este modelo es mejorado para clasificar im ágenes complejas, alcanzando un alto desempe ño sobre las mismas; en estos trabajos se propone la creaci ón de un diccionario universal de caracter´ısticas, el cual es una colecci ón de parches utilizados para construir la descripci ón de la imagen. As´ı, varios trabajos como Kimet al.(2013); Wersing y K örner (2003); Ghodrati

et al.(2012), han sugerido el como optimizar el n úmero de parches en el diccionario universal y el como proponer metodolog´ıas para mejorar la descripci ón del objeto siguiendo este modelo jer árquico.

Durante el mismo periodo de tiempo, surgen varios sistemas computacionales imitando la atenci ón visual, los cuales est án basados en la estructura jer árquica de la teor´ıa de la integraci ón de caracter´ısticas propuesta por Treisman y Gelade (1980). El primer modelo es sugerido por Koch y Ullman (1985), donde dadas las localidades en el espacio visual que difieren de su entorno con respecto a alguna caracter´ıstica elemental como la orientaci ón, color o movimiento son dirigidos a su correspondiente “mapa de caracter´ısti- cas”. Estos mapas son combinados en un “mapa de sobresaliencia”, el cual codifica a las regiones conspicuas de la escena visual. Despu és una red neuronal llamada “el ganador lo toma todo” (Winner-Take-All), selecciona la regi ón mas conspicua a una representaci ón central, ver figura 7.

Despu és, Milanese (1993), propone un modelo de atenci ón visual basado en los modelos de Koch y Ullman (1985) y Wolfe et al. (1989), en el cual usa una serie de ope- radores para calcular caracter´ısticas como: 16 diferentes orientaciones, informaci ón de curvatura local y dos oponencias de color, rojo-verde y azul-amarillo. Estas operaciones definen sus mapas de caracter´ısticas, a los cuales es aplicado unoperador conspicuo, el cual es inspirado en el proceso de excitaci ón e inhibici ón de los est´ımulos en las c élulas de la corteza visual. Este proceso generalmente es llamado comomecanismo de centro periferia, el cual es aplicado para definir los “mapas conspicuos”, donde dicho t érmino es usado para denotar la prominencia de las caracter´ısticas. Finalmente estos mapas

WTA Mapas de sobresaliencia Mapa de características central Representación

Figura 7: Modelo computacional de la atenci ´on visual propuesto por Koch y Ullman (1985).

conspicuos son integrados en un mapa de sobresaliencia por medio de un proceso de re- lajaci ón que identifica un peque ño n úmero de regiones convexas. A lo largo de esta l´ınea de investigaci ón, Tsotsoset al. (1995), modela la atenci ón visual a trav és de un proceso jer árquico de el ganador toma todo.

Ittiet al. (1998), proponen un modelo de atenci ón visual, que en la actualidad es am- pliamente utilizado, dado que este modelo recopila las ideas de propuestas por Koch y Ullman (1985) y Milanese (1993). La principal contribuci ón es la implementaci ón de con- ceptos te óricos para aplicaciones en escenas del mundo real, Itti y Koch (2001). En este sentido, ellos implementan el c álculo de una pir ámide de im ágenes por cada dimensi ón y de esta forma obtener mapas de caracter´ısticas de intensidad, orientaci ón y color. Esta t écnica permite la detecci ón de caracter´ısticas en diferentes escalas y entonces aplican el mecanismo de centro periferia, donde se realiza una substracci ón entre los diferentes niveles de la pir ámide. Esta metodolog´ıa ha sido empleada y mejorada por varios autores como Cutsuridis (2009), quien propuso un modelo cognitivo para explicar como varias áreas del cerebro trabajan en conjunto en el an álisis de una escena. Kootstraet al.

(2011), propone el uso de caracter´ısticas de la simetr´ıa local como un predictor de la mi- rada en im ágenes complejas. Finalmente, Marat et al. (2013), sugiere un nuevo modelo que combina caracter´ısticas de bajo nivel (informaci ón de orientaci ón, frecuencia espa-

cial y amplitud de movimiento) y caracter´ısticas de alto nivel con el objetivo de reconocer rostros y medir el movimiento de los ojos en un video.

N ótese que los trabajos anteriormente expuestos se han dividido en dos rubros, los primeros dedicados al reconocimiento de objetos en inspirados en el proceso de informaci ón llevado en la ruta ventral y los segundos imitando la atenci ón visual inspirada en los procesos de la ruta dorsal. Sin embargo, existen algunos trabajos que tratan de integrar ambos enfoques. Por ejemplo, Fukushima (1987) implementa una red neuronal jer árqui- ca que desarolla una atenci ón selectiva para el reconocimiento de objetos. En este caso, cuando varios patrones se presentan simult áneamente, el modelo realiza una atenci ón selectiva en cada uno de ellos, segmentando a cada uno del resto y realizando el reconocimiento de objetos de manera separada. Olshausen et al. (1993) define un modelo computacional biol ógicamente plausible que combina el mecanismo de la atenci ón y el proceso del reconocimiento para objetos en escalas y posiciones diversas. Waltheret al.

(2002) retoma el modelo propuesto por Itti y Koch (2001) y lo incorpora en una de las etapas del modelo HMAX propuesto por Riesenhuber y Poggio (1999); en este modelo se sigue todo el proceso de la atenci ón visual y al final, el mapa de sobresaliencia es la entrada a la capa S2 del modelo HMAX, el cual construir á el descriptor del objeto para su posterior reconocimiento. Este esquema fue probado en im ágenes artificiales de sujetapapeles y luego fue mejorado e implementado para la clasificaci ón de im ágenes complejas a fin de realizar tareas de atenci ón de arriba-abajo (Walther y Koch, 2007). En el trabajo propuesto por Rapantzikos et al.(2011) se utiliza la combinaci ón de “pala- bras visuales”, para establecer modelos visuales de sobresaliencia; los cuales se aplican para construir representaciones vol úmetricas de un objeto utilizadas en una secuencia de video. Finalmente, en trabajos como Heinke y Humphreys (2003); Heinke y Backhaus (2011) es aplicado un modelo llamado SAIM con el objetivo de realizar una b úsqueda visual; en una primera etapa este modelo selecciona el objeto dentro de la imagen y subsecuentemente se lleva a cabo la etapa de identificaci ón por medio de t écnicas de correlaci ón de patrones.

En base a los trabajos anteriormente expuestos y con motivaci ón en las teor´ıas propuestas por las neurociencias, se ha enmarcado el presente trabajo de investigaci ón. De esta forma en el cap´ıtulo siguiente se desarrolla un primer modelo computacional que retoma los trabajos de Riesenhuber y Poggio (1999) y su inspiraci ón en la teor´ıa de la ruta ventral y el modelo de Hubel y Wiesel (1959, 1962).

In document Reconocimiento de objetos en una escena bajo el paradigma del cómputo evolutivo y la corteza visualObject recognition under the paradigm of evolutionary computation and visual cortex (página 35-40)