Modelos computacionales biol´ogicamente inspirados para reconocimiento

Un n´umero de modelos inspirados por la biolog´ıa del sistema visual humano ha sido propuesto y usado para simular y explicar la funcionalidad del mismo (Riesenhuber y Poggio, 1999; Fukushima, 1980; LeCun et al., 2004; Clemente et al., 2013) as´ı como para ser usado en aplicaciones de reconocimiento de objetos. Estos modelos est´an basados en los resultados experimentales de Hubel y Wiesel (Hubel y Wiesel, 1998).

Dos caracter´ısticas son la clave para el éxito de los modelos jerárquicos. Primero, el aumento gradual y paralelo de complejidad de caracter´ısticas y el tamaño del campo receptivo, como se encuentra en el sistema visual, es crucial evitar una explosión combinatoria del número de unidades en el sistema por un lado, o habilidad discriminatoria insuficiente por el otro lado. Aunque el rango de invariabilidad es menor en niveles bajos, as´ı requiere muchas células para cubrir el rango requerido de escalas y posiciones, solamente un pequeño conjunto de rasgos simples deben ser representados. A la inversa, en capas más altas, donde las

neuronas se convierten en un mayor núnero de caracter´ısticas más complejas, las neuronas muestran un mayor grado de invariabilidad, as´ı requieren menos células convertidas a la misma caracter´ıstica en diferentes posiciones y escalas. Segundo, en los modelos jerárquicos, un conjunto redundante de rasgos más complejos en niveles más altos del sistema se con- struye de rasgos más simples. Estas caracter´ısticas complejas son tolerantes a deformaciones locales como resultado de propiedades de invariabilidad de aferentes. A lo que respecta, están relacionadas a arquitecturas de reconocimiento basadas en arboles de caracter´ısticas que en- fatizan composicionalidad. El resultado final es un diccionario de caracter´ısticas excesivo de lo requerido.

La mayor´ıa de los modelos bio-inspirados conforman los siguientes cuatro principios:

(a) Estructura Jer´arquica

(b) Incrementan el tamaño de los campos receptivos que están más altos en la jerarqu´ıa (c) Incrementan la complejidad de caracter´ısticas y representaciones invariantes más altas

en la jerarqu´ıa

(d) Aprenden en niveles m´ultiples a lo largo de la jerarqu´ıa

La mayor´ıa de los modelos bio-inspirados tienen una arquitectura de conectividad en un solo sentido, es decir, la información solo se procesa en un sentido, esto es, sin regresar a un área ya recorrida. Uno de los modelos bio-inspirados principales con una arquitectura de conectividad en un solo sentido se llama Neocognitron, una red neuronal jerárquica multi- capas propuesta por Fukushima (Fukushima, 1980). Esta red es capaz de reconocimiento robusto de objetos. La neocognitron es básicamente una red con arquitectura de conectividad solo hacia adelante, con muchas conexiones fijas y variables. Las primeras dos capas del neocognitron son la capa de entrada y la capa de extracción de contraste. La capa de entrada corresponde a los foto-receptores de la retina, y la capa de extracción de contraste, juega el papel de las células de centros-encendidos y centros-apagados en el núcleo geniculado lateral (NGL) del cerebro.

El resto de las capas del modeloneocognitron est´an organizadas en pares, donde la primera capa del par es la capa S, y la segunda la capa C. S y C son por simple y complejo respecti-

vamente, y se nombran después de las células simples y complejas de la corteza visual. Las capas S y C están divididas en planos S y C, donde cada uno de los planos S y C se componen de arreglos de dos dimensiones de células S y C. Todas las células dentro de un plano celular tienen conexiones similares de la capa anterior, pero desde ubicaciones espaciales adyacentes, entonces todas estas células buscan la misma caracter´ıstica pero de ubicaciones adyacentes.

Las células S son células extractoras de caracter´ısticas, y preceden esta extracción de caracter´ısticas a la capa C. Cada célula S tiene conexiones con un grupo de células C en la capa previa, lo cual constituye el campo receptivo de esta célula S particular. Las conexiones de células S son variables y son modificadas durante el proceso de aprendizaje. El aprendizaje determina la naturaleza de las caracter´ısticas extra´ıdas por las células S. Estas caracter´ısticas son orillas y lineas locales detectadas en las capas previas, lo cual las convierte en caracter´ısticas globales más complejas, como contornos y formas en las capas más altas. Similarmente, las células C tienen conexiones con la capas S que la preceden. Estas conexiones son fijas, y no se pueden modificar en el aprendizaje. Cada célula C recibe la entrada de un grupo de células S que extraen las mismas caracter´ısticas pero con un ligero cambio de posición. La célula C responde cuando se activa una célula S en su campo receptivo. Si el estimulo y consecuentemente la caracter´ıstica cambia su posición, otra célula S se activa. Entonces la célula C ahora responderá a esta célula S. De esta forma la célula C incrusta un cambio de tolerancia de error en la red, la cual resulta en invariación a cambio de posición en la red. Otro tipo de célula, la célula V, tiene un papel ihnibitorio. Por cada célula S hay una célula V que la acompaña, que esta conectada a la célula S con una variable de conexión inhibitoria. La célula V recibe su entrada excitadora del mismo grupo de células C con las que la célula S esta conectada. La inhibición inyectada a una célula S de una célula V, es el promedio de todas las entradas excitadoras recibidas por la célula V.

La neocognitron puede ser entrenada por aprendizaje supervisado al igual que no supervisado. El método de aprendizaje no supervisado de la neocognitron es menos exitoso, pero es más biológicamente plausible que el método de aprendizaje supervisado. El aprendizaje supervisado se desarrolla de una forma “abajo a arriba”, esto es, desde la entrada a la salida. Cada plano S tiene asignada una caracter´ıstica para aprender durante el entrenamiento. La célula S en el centro del plano esta considerado como la célula semilla cuyo peso de conexión

se actualiza con la regla de aprendizaje de Hebbian.

Figura 5: Extracci´on jer´arquica de caracter´ısticas. Imagen adaptada de http://goo.gl/nTuupQ.

El peso compartido también esta constantemente desarrollado durante el proceso, de tal forma que todas las células dentro del plano celular, tienen sus conexiones en la misma distribución espacial. De esta manera todas las células en el plano celular son sensibles a caracter´ısticas especificas. En el aprendizaje supervisado, además del peso compartido, el principio de “Ganador Toma Todo”, es el mecanismo básico para una auto-organización de la red. Durante el entrenamiento, las conexiones variables de las células S son modificadas acorde a su activación en respuesta a la entrada. Por ejemplo, una célula S recibe una entrada excitadora de un grupo de células C precedentes, as´ı como entradas inhibitorias desde una célula V. Cuando un estimulo es presentado y las células S se activan, la célula S la cual recibe la activación máxima es considerada la ganadora y consecuentemente su fuerza en conexión se incrementa. De esta manera es dicho que la célula S desarrolla su peso para una caracter´ıstica particular. Esta célula S actúa como una semilla y todas las otras células S en el mismo plano también fortalecen su conexión de la misma forma que esta célula S. Cuando sea que un estimulo diferente se presenta, esta célula S muestra poca actividad, mientras

la c´elula V env´ıa una entrada inhibitoria fuerte. De esta manera el plano celular S llega a ser sensible para una caracter´ıstica particular en posiciones diferentes. Entonces, despu´es del entrenamiento, los diferentes planos celulares S se vuelven sensibles a caracter´ısticas diferentes.

Figura 6: Ejemplo del proceso de la neocognitron. Imagen extr´ıda de http://goo.gl/DsEOqI.

En la figura 6, se muestra una red de neocognitron entrenada para el reconocimiento de caracteres. En la red completa, con las capas alternas de células S y células C, el proceso de extracción de caracter´ısticas por las células S y la tolerancia lograda por las células C es repetido. Durante el proceso, las caracter´ısticas locales extra´ıdas en etapas de bajo nivel, gradualmente se integran en caracteristicas más globales.

Figura 7: Modelo est´andar de reconocimiento de objetos por Riesenhuber y Poggio. Imagen adaptada de http://goo.gl/fl86cM.

Un modelo jerárquico importante, fue propuesto por Riesenhuber y Poggio (Riesenhu- ber y Poggio, 1999). Introduce una estructura jerárquica con la idea de una jerarqu´ıa de función linear simple. Este modelo esta basado en el hecho, de que los modelos 3D de reconocimiento de objetos, no tienen una prueba teórica solida. Sino que este modelo se respalda en experimentos neurofisiológicos y psicof´ısicos que proporcionan un fuerte apoyo para representaciones basadas en imágenes. Las dos ideas principales del modelo son:

1. La operaci´on MAX proporciona invariabilidad en varias etapas de la jerarqu´ıa

2. La red de funci´on de base radial aprende una tarea especifica en base a un conjunto de unidades de c´elulas sintonizadas a vistas de ejemplo

En la figura 7 se observan las seis capas de procesamiento del modelo HMAX: Entrada, S1, C1, S2,C2 y UVC (Unidades de vista combinada). En la capa S1, las lineas caracter´ısticas orientadas en ´angulos diferentes se extraen desde la imagen de entrada usando filtros gaus- sianos bidimensionales en diferentes ´angulos. Esta capa se asemeja a las propiedades de las

células simples de la corteza visual. En la capa C1 las caracter´ısticas óptimas se integran desde la capa S1 utilizando la operación MAX. Esto significa que la actividad de la unidad C1 esta determinada por la salida mas fuerte de la S1. Las unidades S2 utilizan funciones gaussianas para extraer caracter´ısticas más complejas. Las unidades S2 se pueden considerar el diccionario de caracter´ısticas del sistema. Las unidades C2 están completamente conec- tadas con la capa S2 previa, y es donde se implementa la integración de las caracter´ısticas más fuertes. Las unidades de la ultima capa, llamada UVC, son selectivas para una entrada particular en un ángulo de visión especifico. La única conexión en donde el aprendizaje ocurre es desde C2 a UVC. Este modelo fue aplicado satisfactoriamente al modelado de las respuestas de las neuronas V4 e IT.

Figura 8: Modelo de reconocimiento de objetos. Imagen adaptada de http://goo.gl/fl86cM

Otro modelo jerárquico importante, fue propuesto por Serre y sus colaboradores (Serre et al., 2005a; Serre, 2006). Se basa en el paradigma de un rápido reconocimiento de objetos. Tiene una arquitectura de conectividad hacia adelante, y cuenta los primeros milisegundos del proceso visual en el cerebro humano. El modelo extrae caracter´ısticas, y después las usa para la clasificación; está basado en la ruta ventral de la corteza visual.

Como se ve en la figura8, el modelo consiste de cuatro capas de unidades computacionales, donde las unidades simples S alternan con unidades complejas C. Las unidades S filtran sus entradas con una función de sintonización campana para incrementar la selectividad. Las unidades C reúnen sus entradas a través de una operación MAX, as´ı se incrementa la invariabilidad. En las unidades S1 se aplica a la imagen de entrada una bater´ıa de filtros de Gabor, con 4 orientaciones y 16 escalas. En la siguiente etapa de C1, se logra tolerancia a la posición, y la variación al tamaño se obtiene mediante una operación de agrupación de máximos por cada unidad de la capa C1, entonces el máximo de cada banda sobre la posición y tamaño se toma. Para el entrenamiento, parches de caracter´ısticas de diferentes tamaños y cuatro posibles orientaciones se extraen de imágenes de entrenamiento. Las unidades S2 utilizan un tipo de función de base radial (FBR) para activación. Las unidades S2 representan una distancia euclidiana de las caracter´ısticas aprendidas C1 a las caracter´ısticas aprendidas de las unidades S2. De esta forma se obtienen los mapas S2. En C2 la actividad de máximos se obtiene de la posición y escala, para lograr invariabilidad. Durante el aprendizaje, la representación de caracter´ısticas en las unidades S2 es calculada. En la etapa de clasificación se extraen caracter´ısticas de C1 y C2 de la imagen de entrada y clasificada por un clasificador linear simple.

In document Algoritmo masivamente paralelo de reconocimiento de objetos basado en el paradigma de la corteza visual artificialMassively parallel object recognition algorithm based on the paradigm of artificial visual cortex (página 31-38)