Un n´umero de modelos inspirados por la biolog´ıa del sistema visual humano ha sido propuesto y usado para simular y explicar la funcionalidad del mismo (Riesenhuber y Poggio, 1999; Fukushima, 1980; LeCun et al., 2004; Clemente et al., 2013) as´ı como para ser usado en aplicaciones de reconocimiento de objetos. Estos modelos est´an basados en los resultados experimentales de Hubel y Wiesel (Hubel y Wiesel, 1998).
Dos caracter´ısticas son la clave para el ´exito de los modelos jer´arquicos. Primero, el aumento gradual y paralelo de complejidad de caracter´ısticas y el tama˜no del campo recep- tivo, como se encuentra en el sistema visual, es crucial evitar una explosi´on combinatoria del n´umero de unidades en el sistema por un lado, o habilidad discriminatoria insuficiente por el otro lado. Aunque el rango de invariabilidad es menor en niveles bajos, as´ı requiere muchas c´elulas para cubrir el rango requerido de escalas y posiciones, solamente un peque˜no con- junto de rasgos simples deben ser representados. A la inversa, en capas m´as altas, donde las
neuronas se convierten en un mayor n´unero de caracter´ısticas m´as complejas, las neuronas muestran un mayor grado de invariabilidad, as´ı requieren menos c´elulas convertidas a la misma caracter´ıstica en diferentes posiciones y escalas. Segundo, en los modelos jer´arquicos, un conjunto redundante de rasgos m´as complejos en niveles m´as altos del sistema se con- struye de rasgos m´as simples. Estas caracter´ısticas complejas son tolerantes a deformaciones locales como resultado de propiedades de invariabilidad de aferentes. A lo que respecta, est´an relacionadas a arquitecturas de reconocimiento basadas en arboles de caracter´ısticas que en- fatizan composicionalidad. El resultado final es un diccionario de caracter´ısticas excesivo de lo requerido.
La mayor´ıa de los modelos bio-inspirados conforman los siguientes cuatro principios:
(a) Estructura Jer´arquica
(b) Incrementan el tama˜no de los campos receptivos que est´an m´as altos en la jerarqu´ıa (c) Incrementan la complejidad de caracter´ısticas y representaciones invariantes m´as altas
en la jerarqu´ıa
(d) Aprenden en niveles m´ultiples a lo largo de la jerarqu´ıa
La mayor´ıa de los modelos bio-inspirados tienen una arquitectura de conectividad en un solo sentido, es decir, la informaci´on solo se procesa en un sentido, esto es, sin regresar a un ´area ya recorrida. Uno de los modelos bio-inspirados principales con una arquitectura de conectividad en un solo sentido se llama Neocognitron, una red neuronal jer´arquica multi- capas propuesta por Fukushima (Fukushima, 1980). Esta red es capaz de reconocimiento robusto de objetos. La neocognitron es b´asicamente una red con arquitectura de conectividad solo hacia adelante, con muchas conexiones fijas y variables. Las primeras dos capas del neocognitron son la capa de entrada y la capa de extracci´on de contraste. La capa de entrada corresponde a los foto-receptores de la retina, y la capa de extracci´on de contraste, juega el papel de las c´elulas de centros-encendidos y centros-apagados en el n´ucleo geniculado lateral (NGL) del cerebro.
El resto de las capas del modeloneocognitron est´an organizadas en pares, donde la primera capa del par es la capa S, y la segunda la capa C. S y C son por simple y complejo respecti-
vamente, y se nombran despu´es de las c´elulas simples y complejas de la corteza visual. Las capas S y C est´an divididas en planos S y C, donde cada uno de los planos S y C se componen de arreglos de dos dimensiones de c´elulas S y C. Todas las c´elulas dentro de un plano celular tienen conexiones similares de la capa anterior, pero desde ubicaciones espaciales adyacentes, entonces todas estas c´elulas buscan la misma caracter´ıstica pero de ubicaciones adyacentes.
Las c´elulas S son c´elulas extractoras de caracter´ısticas, y preceden esta extracci´on de caracter´ısticas a la capa C. Cada c´elula S tiene conexiones con un grupo de c´elulas C en la capa previa, lo cual constituye el campo receptivo de esta c´elula S particular. Las conex- iones de c´elulas S son variables y son modificadas durante el proceso de aprendizaje. El aprendizaje determina la naturaleza de las caracter´ısticas extra´ıdas por las c´elulas S. Estas caracter´ısticas son orillas y lineas locales detectadas en las capas previas, lo cual las convierte en caracter´ısticas globales m´as complejas, como contornos y formas en las capas m´as altas. Similarmente, las c´elulas C tienen conexiones con la capas S que la preceden. Estas conex- iones son fijas, y no se pueden modificar en el aprendizaje. Cada c´elula C recibe la entrada de un grupo de c´elulas S que extraen las mismas caracter´ısticas pero con un ligero cambio de posici´on. La c´elula C responde cuando se activa una c´elula S en su campo receptivo. Si el estimulo y consecuentemente la caracter´ıstica cambia su posici´on, otra c´elula S se activa. Entonces la c´elula C ahora responder´a a esta c´elula S. De esta forma la c´elula C incrusta un cambio de tolerancia de error en la red, la cual resulta en invariaci´on a cambio de posici´on en la red. Otro tipo de c´elula, la c´elula V, tiene un papel ihnibitorio. Por cada c´elula S hay una c´elula V que la acompa˜na, que esta conectada a la c´elula S con una variable de conexi´on inhibitoria. La c´elula V recibe su entrada excitadora del mismo grupo de c´elulas C con las que la c´elula S esta conectada. La inhibici´on inyectada a una c´elula S de una c´elula V, es el promedio de todas las entradas excitadoras recibidas por la c´elula V.
La neocognitron puede ser entrenada por aprendizaje supervisado al igual que no super- visado. El m´etodo de aprendizaje no supervisado de la neocognitron es menos exitoso, pero es m´as biol´ogicamente plausible que el m´etodo de aprendizaje supervisado. El aprendizaje supervisado se desarrolla de una forma “abajo a arriba”, esto es, desde la entrada a la salida. Cada plano S tiene asignada una caracter´ıstica para aprender durante el entrenamiento. La c´elula S en el centro del plano esta considerado como la c´elula semilla cuyo peso de conexi´on
se actualiza con la regla de aprendizaje de Hebbian.
Figura 5: Extracci´on jer´arquica de caracter´ısticas. Imagen adaptada de http://goo.gl/nTuupQ.
El peso compartido tambi´en esta constantemente desarrollado durante el proceso, de tal forma que todas las c´elulas dentro del plano celular, tienen sus conexiones en la misma distribuci´on espacial. De esta manera todas las c´elulas en el plano celular son sensibles a caracter´ısticas especificas. En el aprendizaje supervisado, adem´as del peso compartido, el principio de “Ganador Toma Todo”, es el mecanismo b´asico para una auto-organizaci´on de la red. Durante el entrenamiento, las conexiones variables de las c´elulas S son modificadas acorde a su activaci´on en respuesta a la entrada. Por ejemplo, una c´elula S recibe una entrada excitadora de un grupo de c´elulas C precedentes, as´ı como entradas inhibitorias desde una c´elula V. Cuando un estimulo es presentado y las c´elulas S se activan, la c´elula S la cual recibe la activaci´on m´axima es considerada la ganadora y consecuentemente su fuerza en conexi´on se incrementa. De esta manera es dicho que la c´elula S desarrolla su peso para una caracter´ıstica particular. Esta c´elula S act´ua como una semilla y todas las otras c´elulas S en el mismo plano tambi´en fortalecen su conexi´on de la misma forma que esta c´elula S. Cuando sea que un estimulo diferente se presenta, esta c´elula S muestra poca actividad, mientras
la c´elula V env´ıa una entrada inhibitoria fuerte. De esta manera el plano celular S llega a ser sensible para una caracter´ıstica particular en posiciones diferentes. Entonces, despu´es del entrenamiento, los diferentes planos celulares S se vuelven sensibles a caracter´ısticas diferentes.
Figura 6: Ejemplo del proceso de la neocognitron. Imagen extr´ıda de http://goo.gl/DsEOqI.
En la figura 6, se muestra una red de neocognitron entrenada para el reconocimiento de caracteres. En la red completa, con las capas alternas de c´elulas S y c´elulas C, el proceso de extracci´on de caracter´ısticas por las c´elulas S y la tolerancia lograda por las c´elulas C es repetido. Durante el proceso, las caracter´ısticas locales extra´ıdas en etapas de bajo nivel, gradualmente se integran en caracteristicas m´as globales.
Figura 7: Modelo est´andar de reconocimiento de objetos por Riesenhuber y Poggio. Imagen adaptada de http://goo.gl/fl86cM.
Un modelo jer´arquico importante, fue propuesto por Riesenhuber y Poggio (Riesenhu- ber y Poggio, 1999). Introduce una estructura jer´arquica con la idea de una jerarqu´ıa de funci´on linear simple. Este modelo esta basado en el hecho, de que los modelos 3D de reconocimiento de objetos, no tienen una prueba te´orica solida. Sino que este modelo se respalda en experimentos neurofisiol´ogicos y psicof´ısicos que proporcionan un fuerte apoyo para representaciones basadas en im´agenes. Las dos ideas principales del modelo son:
1. La operaci´on MAX proporciona invariabilidad en varias etapas de la jerarqu´ıa
2. La red de funci´on de base radial aprende una tarea especifica en base a un conjunto de unidades de c´elulas sintonizadas a vistas de ejemplo
En la figura 7 se observan las seis capas de procesamiento del modelo HMAX: Entrada, S1, C1, S2,C2 y UVC (Unidades de vista combinada). En la capa S1, las lineas caracter´ısticas orientadas en ´angulos diferentes se extraen desde la imagen de entrada usando filtros gaus- sianos bidimensionales en diferentes ´angulos. Esta capa se asemeja a las propiedades de las
c´elulas simples de la corteza visual. En la capa C1 las caracter´ısticas ´optimas se integran desde la capa S1 utilizando la operaci´on MAX. Esto significa que la actividad de la unidad C1 esta determinada por la salida mas fuerte de la S1. Las unidades S2 utilizan funciones gaussianas para extraer caracter´ısticas m´as complejas. Las unidades S2 se pueden considerar el diccionario de caracter´ısticas del sistema. Las unidades C2 est´an completamente conec- tadas con la capa S2 previa, y es donde se implementa la integraci´on de las caracter´ısticas m´as fuertes. Las unidades de la ultima capa, llamada UVC, son selectivas para una entrada particular en un ´angulo de visi´on especifico. La ´unica conexi´on en donde el aprendizaje ocurre es desde C2 a UVC. Este modelo fue aplicado satisfactoriamente al modelado de las respuestas de las neuronas V4 e IT.
Figura 8: Modelo de reconocimiento de objetos. Imagen adaptada de http://goo.gl/fl86cM
Otro modelo jer´arquico importante, fue propuesto por Serre y sus colaboradores (Serre et al., 2005a; Serre, 2006). Se basa en el paradigma de un r´apido reconocimiento de objetos. Tiene una arquitectura de conectividad hacia adelante, y cuenta los primeros milisegundos del proceso visual en el cerebro humano. El modelo extrae caracter´ısticas, y despu´es las usa para la clasificaci´on; est´a basado en la ruta ventral de la corteza visual.
Como se ve en la figura8, el modelo consiste de cuatro capas de unidades computacionales, donde las unidades simples S alternan con unidades complejas C. Las unidades S filtran sus entradas con una funci´on de sintonizaci´on campana para incrementar la selectividad. Las unidades C re´unen sus entradas a trav´es de una operaci´on MAX, as´ı se incrementa la invariabilidad. En las unidades S1 se aplica a la imagen de entrada una bater´ıa de filtros de Gabor, con 4 orientaciones y 16 escalas. En la siguiente etapa de C1, se logra tolerancia a la posici´on, y la variaci´on al tama˜no se obtiene mediante una operaci´on de agrupaci´on de m´aximos por cada unidad de la capa C1, entonces el m´aximo de cada banda sobre la posici´on y tama˜no se toma. Para el entrenamiento, parches de caracter´ısticas de diferentes tama˜nos y cuatro posibles orientaciones se extraen de im´agenes de entrenamiento. Las unidades S2 utilizan un tipo de funci´on de base radial (FBR) para activaci´on. Las unidades S2 representan una distancia euclidiana de las caracter´ısticas aprendidas C1 a las caracter´ısticas aprendidas de las unidades S2. De esta forma se obtienen los mapas S2. En C2 la actividad de m´aximos se obtiene de la posici´on y escala, para lograr invariabilidad. Durante el aprendizaje, la representaci´on de caracter´ısticas en las unidades S2 es calculada. En la etapa de clasificaci´on se extraen caracter´ısticas de C1 y C2 de la imagen de entrada y clasificada por un clasificador linear simple.