2. Fundamentos
2.3. Modelos computacionales
En el siglo XX, con el arrivo de las computadoras digitales varios trabajos han inten- tado emular la funcionalidad de la corteza visual humana, con el prop ´osito de desarrollar tareas como el reconocimiento de objetos, atenci ´on visual y la detecci ´on de objetos. En esta secci ´on se da una lista de los trabajos m ´as relevantes en el estado del arte los cuales son biol ´ogicamente inspirados en estas ideas.
Desde un punto de vista computacional, el primer trabajo que desarrolla un algorit- mo bioinspirado en la corteza visual con el objetivo del reconocimiento de objetos fue Fukushima (1980), quien propuso un modelo por medio de redes neuronales llamado Neocognitron. Su trabajo est ´a inspirado en el modelo jer ´arquico descrito por Hubel y Wie- sel (1959, 1962). Esta estructura est ´a representada por una red neuronal que consiste de una capa de entrada, seguida de una serie de estructuras modulares llamdas c ´elulas S y c ´elulas C, haciendo referencia a las c ´elulas simples y complejas. Esta idea imita las caracter´ısticas de las c ´elulas hipercomplejas de orden inferior y superior. En la pr ´actica este modelo es capaz de reconocer letras y n ´umeros considerando cambios de posici ´on.
Hummel y Biederman (1992), proponen una red neuronal tomando encuenta las ideas propuestas por Biederman (1987), En este trabajo se realiza una descripci ´on estructural de un objeto a partir de la conjunci ´on de los atributos que los componen (partes y rela- ciones). Dentro de este mismo enfoque Ullman y Soloviev (1999), plantea que la uni ´on de m ´ultiples fragmentos de la imagen, llamados patrones visuales, pueden traslaparse y construir una descripci ´on del objeto; este enfoque es utilizado para reconocer obje- tos complejos no importando la traslaci ´on de ´este en la imagen y despues es mejorado por Ullmanet al.(2002). Sobre esta l´ınea de investigaci ´on Riesenhuber y Poggio (1999), introducen una arquitectura jer ´arquica con etapas similares propuestas en el modelo Neo- cognitron, pero con la diferencia de incluir la operaci ´onmax, como un mejor modelo de las c ´elulas complejas, en lugar de emplear una sumatoria lineal; de igual forma se em- plea la correlaci ´on de peque ˜nos segmentos de la imagen llamados “parches” en lugar de una red neuronal. Este m ´etodo fue puesto a prueba al reconocer im ´agenes artificiales de
sujetapapeles, obteniendo buenos resultados a ´un bajo la variaci ´on de posici ´on. En tra- bajos como los propuestos por Serreet al.(2005); Mutch y Lowe (2008), este modelo es mejorado para clasificar im ´agenes complejas, alcanzando un alto desempe ˜no sobre las mismas; en estos trabajos se propone la creaci ´on de un diccionario universal de carac- ter´ısticas, el cual es una colecci ´on de parches utilizados para construir la descripci ´on de la imagen. As´ı, varios trabajos como Kimet al.(2013); Wersing y K ¨orner (2003); Ghodrati
et al.(2012), han sugerido el como optimizar el n ´umero de parches en el diccionario uni- versal y el como proponer metodolog´ıas para mejorar la descripci ´on del objeto siguiendo este modelo jer ´arquico.
Durante el mismo periodo de tiempo, surgen varios sistemas computacionales imitan- do la atenci ´on visual, los cuales est ´an basados en la estructura jer ´arquica de la teor´ıa de la integraci ´on de caracter´ısticas propuesta por Treisman y Gelade (1980). El primer modelo es sugerido por Koch y Ullman (1985), donde dadas las localidades en el espacio visual que difieren de su entorno con respecto a alguna caracter´ıstica elemental como la orientaci ´on, color o movimiento son dirigidos a su correspondiente “mapa de caracter´ısti- cas”. Estos mapas son combinados en un “mapa de sobresaliencia”, el cual codifica a las regiones conspicuas de la escena visual. Despu ´es una red neuronal llamada “el ganador lo toma todo” (Winner-Take-All), selecciona la regi ´on mas conspicua a una representa- ci ´on central, ver figura 7.
Despu ´es, Milanese (1993), propone un modelo de atenci ´on visual basado en los mo- delos de Koch y Ullman (1985) y Wolfe et al. (1989), en el cual usa una serie de ope- radores para calcular caracter´ısticas como: 16 diferentes orientaciones, informaci ´on de curvatura local y dos oponencias de color, rojo-verde y azul-amarillo. Estas operaciones definen sus mapas de caracter´ısticas, a los cuales es aplicado unoperador conspicuo, el cual es inspirado en el proceso de excitaci ´on e inhibici ´on de los est´ımulos en las c ´elulas de la corteza visual. Este proceso generalmente es llamado comomecanismo de centro periferia, el cual es aplicado para definir los “mapas conspicuos”, donde dicho t ´ermino es usado para denotar la prominencia de las caracter´ısticas. Finalmente estos mapas
WTA Mapas de sobresaliencia Mapa de características central Representación
Figura 7: Modelo computacional de la atenci ´on visual propuesto por Koch y Ullman (1985).
conspicuos son integrados en un mapa de sobresaliencia por medio de un proceso de re- lajaci ´on que identifica un peque ˜no n ´umero de regiones convexas. A lo largo de esta l´ınea de investigaci ´on, Tsotsoset al. (1995), modela la atenci ´on visual a trav ´es de un proceso jer ´arquico de el ganador toma todo.
Ittiet al. (1998), proponen un modelo de atenci ´on visual, que en la actualidad es am- pliamente utilizado, dado que este modelo recopila las ideas de propuestas por Koch y Ullman (1985) y Milanese (1993). La principal contribuci ´on es la implementaci ´on de con- ceptos te ´oricos para aplicaciones en escenas del mundo real, Itti y Koch (2001). En este sentido, ellos implementan el c ´alculo de una pir ´amide de im ´agenes por cada dimensi ´on y de esta forma obtener mapas de caracter´ısticas de intensidad, orientaci ´on y color. Esta t ´ecnica permite la detecci ´on de caracter´ısticas en diferentes escalas y entonces aplican el mecanismo de centro periferia, donde se realiza una substracci ´on entre los diferen- tes niveles de la pir ´amide. Esta metodolog´ıa ha sido empleada y mejorada por varios autores como Cutsuridis (2009), quien propuso un modelo cognitivo para explicar como varias ´areas del cerebro trabajan en conjunto en el an ´alisis de una escena. Kootstraet al.
(2011), propone el uso de caracter´ısticas de la simetr´ıa local como un predictor de la mi- rada en im ´agenes complejas. Finalmente, Marat et al. (2013), sugiere un nuevo modelo que combina caracter´ısticas de bajo nivel (informaci ´on de orientaci ´on, frecuencia espa-
cial y amplitud de movimiento) y caracter´ısticas de alto nivel con el objetivo de reconocer rostros y medir el movimiento de los ojos en un video.
N ´otese que los trabajos anteriormente expuestos se han dividido en dos rubros, los primeros dedicados al reconocimiento de objetos en inspirados en el proceso de informa- ci ´on llevado en la ruta ventral y los segundos imitando la atenci ´on visual inspirada en los procesos de la ruta dorsal. Sin embargo, existen algunos trabajos que tratan de integrar ambos enfoques. Por ejemplo, Fukushima (1987) implementa una red neuronal jer ´arqui- ca que desarolla una atenci ´on selectiva para el reconocimiento de objetos. En este caso, cuando varios patrones se presentan simult ´aneamente, el modelo realiza una atenci ´on selectiva en cada uno de ellos, segmentando a cada uno del resto y realizando el reco- nocimiento de objetos de manera separada. Olshausen et al. (1993) define un modelo computacional biol ´ogicamente plausible que combina el mecanismo de la atenci ´on y el proceso del reconocimiento para objetos en escalas y posiciones diversas. Waltheret al.
(2002) retoma el modelo propuesto por Itti y Koch (2001) y lo incorpora en una de las etapas del modelo HMAX propuesto por Riesenhuber y Poggio (1999); en este modelo se sigue todo el proceso de la atenci ´on visual y al final, el mapa de sobresaliencia es la entrada a la capa S2 del modelo HMAX, el cual construir ´a el descriptor del objeto pa- ra su posterior reconocimiento. Este esquema fue probado en im ´agenes artificiales de sujetapapeles y luego fue mejorado e implementado para la clasificaci ´on de im ´agenes complejas a fin de realizar tareas de atenci ´on de arriba-abajo (Walther y Koch, 2007). En el trabajo propuesto por Rapantzikos et al.(2011) se utiliza la combinaci ´on de “pala- bras visuales”, para establecer modelos visuales de sobresaliencia; los cuales se aplican para construir representaciones vol ´umetricas de un objeto utilizadas en una secuencia de video. Finalmente, en trabajos como Heinke y Humphreys (2003); Heinke y Backhaus (2011) es aplicado un modelo llamado SAIM con el objetivo de realizar una b ´usqueda visual; en una primera etapa este modelo selecciona el objeto dentro de la imagen y subsecuentemente se lleva a cabo la etapa de identificaci ´on por medio de t ´ecnicas de correlaci ´on de patrones.
En base a los trabajos anteriormente expuestos y con motivaci ´on en las teor´ıas pro- puestas por las neurociencias, se ha enmarcado el presente trabajo de investigaci ´on. De esta forma en el cap´ıtulo siguiente se desarrolla un primer modelo computacional que retoma los trabajos de Riesenhuber y Poggio (1999) y su inspiraci ´on en la teor´ıa de la ruta ventral y el modelo de Hubel y Wiesel (1959, 1962).