BIBLIOTECAS DEL TECNOLÓGICO DE MONTERREY
PUBLICACIÓN DE TRABAJOS DE GRADO
Las Bibliotecas del Sistema Tecnológico de Monterrey son depositarias de los trabajos recepcionales y de grado que generan sus egresados. De esta manera, con el objeto de preservarlos y salvaguardarlos como parte del acervo bibliográfico del Tecnológico de Monterrey se ha generado una copia de las tesis en versión electrónica del tradicional formato impreso, con base en la Ley Federal del Derecho de Autor (LFDA).
Es importante señalar que las tesis no se divulgan ni están a disposición pública con fines de comercialización o lucro y que su control y organización únicamente se realiza en los Campus de origen. Cabe mencionar, que la Colección de Documentos Tec, donde se encuentran las tesis, tesinas y disertaciones doctorales, únicamente pueden ser consultables en pantalla por la comunidad del Tecnológico de Monterrey a través de Biblioteca Digital, cuyo acceso requiere cuenta y clave de acceso, para asegurar el uso restringido de dicha comunidad.
Evasión de Obstáculos en 3D con Redes Neuronales-Edición
Única
Title Evasión de Obstáculos en 3D con Redes Neuronales-Edición Única
Authors Gerardo Alberto Cárdenas Cisneros Affiliation Campus Monterrey
Issue Date 2002-05-01 Item type Tesis
Rights Open Access
Downloaded 19-Jan-2017 08:45:02
EVASIÓN DE OBSTÁCULOS EN 3D CON REDES
NEURONALES
MAESTRÍA EN CIENCIAS EN SISTEMAS
INTELIGENTES
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY
POR
ING. GERARDO ALBERTO CÁRDENAS CISNEROS
Evasión de obstáculos en 3D con redes
neuronales
T E S I S
Maestría en Ciencias en Sistemas Inteligentes
Instituto Tecnológico y de Estudios Superiores de Monterrey
Por
Ing. Gerardo Alberto Cárdenas Cisneros
Evasión de obstáculos en 3D
con redes neuronales
por
Ing. Gerardo Alberto Cárdenas Cisneros
Tesis
Presentada al Programa de Graduados en Electrónica, Computación, Información y Comunicaciones
del
Instituto Tecnológico y de Estudios Superiores de Monterrey, Campus Monterrey como requisito parcial para obtener el grado académico de
Maestro en Ciencias
Instituto Tecnológico y de Estudios Superiores de Monterrey
Campus Monterrey
Instituto Tecnológico y de Estudios Superiores de
Monterrey
Campus Monterrey
División de Graduados en Electrónica, Computación, Información y Comunicaciones
Programa de Graduados en Electrónica,Computación, Información y Comunicaciones
Los miembros del comité de tesis recomendamos que la presente tesis de Gerardo Alberto Cárdenas Cisneros sea aceptada como requisito parcial para obtener el grado
académico de Maestro en Ciencias, especialidad en:
Sistemas Inteligentes
Comité de tesis:
Dr. Horacio Martínez Alfaro Asesor de la tesis
Dr. Leonardo Garrido Luna Sinodal
Dr. David Garza Salazar Programa de Graduados en Electrónica,Computación, Información
y Comunicaciones Dr. Manuel Valenzuela Rendón
Índice general
Reconocimientos vii
Resumen viii
Capítulo 1. Introducción 1
1.1. Contexto de la investigación 1 1.2. Definición del Problema 2 1.3. Objetivo 4 1.4. Hipótesis 5 1.5. Alcance 5 1.6. Aporte de la investigación 5 1.7. Estructura de la tesis 6
Capítulo 2. Estado del Arte 7
2.1. Aplicación de Redes Neuronales en planeación de movimientos de Robots 7 2.1.1. Resultados 9 2.2. Un enfoque de auto-entrenamiento de robots móviles 9 2.2.1. Resultados 11 2.3. Retropropagación y Robots móviles reales y autónomos 12 2.3.1. Resultados 13 2.4. Evolución y Desarrollo de controladores neuronales 14 2.4.1. Resultados 14
Capítulo 3. Inhibición lateral 15
Capítulo 4. La evasión de obstáculos dinámicos en 3D: experimentación y resultados 28
4.1. Diseño 28 4.2. Parámetros 33 4.3. Implantación y diseño 36 4.4. Solución de Ecuaciones Diferenciales 38 4.4.1. Método de Euler 38 4.4.2. Método de Runge-Kutta 41 4.4.3. Comparación entre Euler y Runge Kutta 43 4.5. Ambientes 51 4.5.1. Ambiente con obstáculos de todo tipo 52 4.5.2. Ambiente con obstáculos con movimiento predeterminado . . . . 55 4.5.3. Laberintos en 3D 57 4.6. Contribuciones 60 4.7. Resultados 63
Capítulo 5. Conclusiones y trabajo futuro 65
Apéndice A. Los tejidos excitables en reposo 67
A.l. Los tejidos excitables 67
Apéndice B. Generación del Potencial de Acción 73
B.l. La importancia de los potenciales de acción 73 B.2. El receptor sensorial ligado a la neurona 75 B.3. Trenes de potenciales de acción 76 B.4. El potencial de acción de Hodgkin y Huxley 80
Bibliografía 88
Reconocimientos
A Dios y a mis padres.
GERARDO ALBERTO CÁRDENAS CISNEROS
Evasión de obstáculos en 3D
con redes neuronales
Gerardo Alberto Cárdenas Cisneros, M.C.
Instituto Tecnológico y de Estudios Superiores de Monterrey, 2002
Asesor de la tesis: Dr. Horacio Martínez Alfaro
Capítulo 1
Introducción
En este capítulo se expone el objetivo de la investigación y la definición del prob-lema a resolver. Además se resalta la hipótesis, el alcance y la aportación de la in-vestigación con la finalidad de delimitar el marco de trabajo. Por último se describe la estructura de la tesis, la cual especifica los temas que se tratan en los capítulos posteriores.
1.1. Contexto de la investigación
A lo largo del tiempo se ha tratado de solucionar el problema de evasión de ob-stáculos estáticos y/o dinámicos en ambientes bidimensionales y/o tridimensionales, conforme nuevas técnicas aparecen. Recientemente se ha tratado de solucionar usando redes neuronales, pero la aplicación de estas se concentra en el aprendizaje de un ambi-ente finito que se puede esquematizar en un mapa. En otras palabras, los trabajos que se han hecho requieren que el agente o el robot aprenda la posición exacta de los ob-stáculos, para que de esta manera pueda esquivarlos. Cuando al ambiente se introducen obstáculos dinámicos el aprendizaje se hace lento, si se continúa con la misma filosofía, memorización de las posibles posiciones en las que puede estar un obstáculo cada in-stante del tiempo. Cuando el ambiente es dinámico, ya no se habla de aprendizaje si no de predicción, el agente debe predecir hacia donde se van a mover los obstáculos y en qué lugar van a quedar situados.
Existen además soluciones al problema de evasión de obstáculos demasiado sim-ples, que consisten en la colocación de sensores, encargados de medir la distancia entre el obstáculo y el agente. Con los datos proporcionados por los sensores, el agente decide la manera de esquivar el obstáculo mediante una tabla de reglas condición acción. Estas técnicas se pueden usar en ambientes tridimensionales con obstáculos dinámicos, pero presentan el problema de que solamente evaden obstáculos sin poder llegar a un lugar deseado.
planeación de trayectorias, las cuales hacen consideraciones de la geometría del am-biente, agente y obstáculos. Estas técnicas se basan en la utilización de grafos para encontrar la ruta a seguir, que conduce hacia una meta o lugar deseado. El inconve-niente que presentan es que dependen mucho de la forma del ambiente y que consume mucho tiempo la elaboración de grafos, ocasionando así que su aplicación tanto en ambientes tridimensionales como dinámicos sea imposible.
La técnica a utilizar en esta investigación consiste en redes neuronales. Una red neuronal es un sistema dinámico, con interconexiones, que lleva a cabo un procesamien-to ante la presencia de daprocesamien-tos de entrada. Los elemenprocesamien-tos que hacen el procesamienprocesamien-to son las neuronas, las cuales están interconectadas unas con otras. Cuando una neurona ob-tiene un resultado, debido al procesamiento que hizo, lo envía hacia las demás neuronas mediante dichas interconexiones. La aplicación de las redes neuronales es relacionar un conjunto de datos de entrada con un conjunto de salidas, parecido a una interpolación; lo cual sirve para realizar aprendizajes y predicciones [1].
En el presente trabajo se utiliza una red neuronal basada en el modelo matemático de las neuronas, desarrollado por Hodgkin y Huxley; conocido como: redes neuronales sensoriales de inhibición lateral. Este modelo tiene la capacidad de adaptación y rep-resenta la manera en que las neuronas se excitan e inhiben ante ciertas percepciones. Estas características de la red hacen posible su utilización en la evasión de obstáculos, por dos razones: primera, por que los obstáculos inhiben de alguna forma al agente; y segunda, por que biológicamente sirven como detectores de movimiento y de la dirección del movimiento [2].
El interés por realizar este trabajo de investigación surge de la necesidad de repre-sentar la evasión de obstáculos dinámicos en un ambiente tridimensional usando redes neuronales. La elección de la red neuronal sensorial inhibidora radica fundamentalmente en el hecho de que esta ha demostrado ser capaz en resolver problemas similares [3].
1.2. Definición del Problema
El objetivo en la evasión de obstáculos estáticos y dinámicos en un ambiente tridimensional es el de hacer una red neuronal que controle a un agente virtual para que llegue o alcance un lugar u objeto específico que puede o no moverse, a la vez que esquiva los obstáculos estáticos y dinámicos que se anteponen en su camino. En el ambiente los obstáculos y la meta pueden ser estáticos o dinámicos, si son dinámicos su movimiento puede ser predeterminado o aleatorio. En el ambiente solamente hay una meta y varios obstáculos de cualquier tipo: estático o dinámico (con movimiento
Los seres vivos desempeñan tareas o actividades de una manera inconsciente, que pasa desapercibida y que por tanto la complejidad de dichas acciones es subestimada o despreciada. La importancia de estas actividades es que son la base para la ejecución o realización de tareas específicas; es decir, sin estas no se puede llevar a cabo algún paso de un plan. Por ejemplo, si una persona desea contestar el teléfono, es necesario que esta se dirija hacia el aparato y evada algunas otras personas que se antepondrán en su camino. En este ejemplo la actividad que se hace de una manera implícita es la evasión de obstáculos móviles (personas). Obviamente sin esta habilidad no se alcanzaría el objetivo: contestar el teléfono, en un ambiente que contiene agentes dinámicos.
El problema es difícil, pues son muchos los casos que se pueden presentar. Supón-gase que se sabe que en un cierto lugar del espacio no va haber obstáculos en el tiempo
t, lo racional sería ir a ocupar dicho lugar en ese tiempo t. El problema es que los obstáculos no van a ocupar dicho lugar porque van a ocupar un lugar intermedio entre el lugar del agente y el lugar que está libre en el tiempo t. Lo que ocurre en este caso, es inevitablemente una colisión en el momento en que el agente va a ocupar el lugar que está libre en el tiempo t. Por tanto, es necesario considerar la información de los lugares libres con las direcciones de los obstáculos; y además, tener la capacidad de adaptabil-idad ante cambios drásticos en el ambiente, porque el movimiento de los obstáculos y del lugar u objeto específico que se quiere alcanzar puede cambiar de dirección en cualquier tiempo.
La adaptación viene siendo un ajuste, una modificación hacia otras circunstancias o condiciones, con un fin [4]. La capacidad de adaptación en una red neuronal se refiere a la capacidad de ajustar el resultado del procesamiento de las neuronas hacia condiciones deseadas.
El ambiente virtual en el que se va a realizar la evación de obstáculos tiene la forma de un paralelepípedo, es tridimensional. Los obstáculos ocupan un cierto espacio o volumen dentro del ambiente, pueden estar fijos o moviéndose y, para esto, cambiar de dirección de forma predeterminada o aleatoria. El lugar al que va llegar el agente es ocupado por un objeto, que se distingue visualmente de los obstáculos; el alcanzar a dicho objeto es la meta, por tanto se le puede denominar a ese objeto, meta. La meta puede tener una posición fija, ser estática; o puede tener movimiento y, para esto, cambiar de dirección en cualquier instante del tiempo de modo predeterminado o aleatorio. Los obstáculos, la meta y el agente se mueven en un espacio tridimensional como si fueran partículas que flotan; es decir, su movimiento no está restringido por campos gravitacionales.
problemas de choque en un mundo colaborativo (y en el peor de los casos hostil). Por ejemplo, estos cooperan entre si para conseguir alimento, proteger a sus crías, construir refugios, etc. En estas circunstancias se observa como los individuos son lo suficiente-mente racionales para no obstruirse el camino unos a otros; y si al caso esto sucediera, se observa también como evaden un encuentro. Entendiendo la base primitiva de esta habilidad se prodrá llevar su aplicación a un mundo civilizado e industrial, donde los robots son la fuerza de trabajo, desempeñan una labor social o comunitaria que favorece a la especie humana.
Existen trabajos que no pueden ser desempeñados por los hombres, ya sea por que no tienen la fuerza requerida, tamaño apropiado o simplemente porque su salud está en riesgo. Aquí es donde el uso de robots se vuelve importante y pasa de la ciencia-ficción a una necesidad. Ejemplos de lo anterior son: robots que manejan material radioactivo, robots que apagan incendios, robots detectores de minas, robots transportadores de cargas, etcétera. Si los robots contaran con la capacidad de esquivar agentes dinámi-cos, estos pudieran hacer su trabajo coordinándose con otros robots, obteniendo así la realización del trabajo en corto tiempo y uniendo sus esfuerzos autónomamente para lograr la tarea asignada.
En este trabajo se propone usar redes neuronales con capacidad de adaptación al movimiento de los obstáculos y de la meta; para guiar a un agente a que alcance la meta u objeto de interés al tiempo que evade obstáculos estáticos y dinámicos. El interés por realizar este trabajo de investigación surge de la necesidad de simular la evasión de obstáculos estáticos y dinámicos en un ambiente tridimensional.
1.3. Objetivo
La meta en la evasión de obstáculos estáticos y dinámicos en un ambiente tridi-mensional es el de hacer una red neuronal que controla o guía a un agente virtual para que llegue o alcance un lugar u objeto específico que puede tener una posición fija o moverse predeterminadamente o aleatoriamente; a la vez que esquiva los obstáculos estáticos y dinámicos que se anteponen en su camino y que también se desplazan de modo predeterminado o aleatorio. La tarea es difícil, ya que no se conoce hacia dónde se van a mover los obstáculos ni el movimiento del objeto que se desea alcanzar.
El objetivo de este trabajo es aplicar redes neuronales para guiar a un agente a que alcance un objeto estático o dinámico, a la vez que evade obstáculos estáticos y dinámicos en un ambiente tridimensional virtual.
• Realizar un estudio bibliográfico de las formas que se han usado las redes neu-ronales en la evasión de obstáculos, estáticos y/o dinámicos en un ambiente bidi-mensional y/o tridibidi-mensional.
• Determinar la red neuronal que resuelve el problema de la evasión de obstáculos de la mejor manera, a partir de la investigación realizada.
• Adaptar la red neuronal a las características intrínsecas del problema que se va a solucionar.
• Analizar y concluir los resultados obtenidos con dicha red neuronal para determi-nar si en realidad sirve para evadir obstáculos dinámicos en un mundo tridimen-sional.
1.4. Hipótesis
La hipótesis planteada en este trabajo es que la utilización de redes neuronales permite dar a un agente la capacidad de evadir obstáculos estáticos y dinámicos en un ambiente tridimensional y de alcanzar a un objeto o meta que puede tener un lugar fijo o moverse predeterminadamente o aleatoriamente.
1.5. Alcance
El presente trabajo de investigación se centra en lograr la evasión de obstáculos estáticos y dinámicos cuyo tamaño es mayor o igual al del agente que los va a esquivar.
1.6. Aporte de la investigación
Técnicamente, el aporte del presente trabajo es aplicar redes neuronales a la evasión de obstáculos dinámicos en un ambiente virtual tridimensional.
En la literatura se ha encontrado trabajos con redes neuronales para la evasión de obstáculos, tanto estáticos como dinámicos; pero en un ambiente de dos dimensiones, real o virtual. Así que el aporte de esta investigación es el manejo de tres dimensiones.
El aporte de este trabajo de investigación es el de poder responder a los interro-gantes propuestos en el caso de estudio, en la hipótesis. Específicamente muestran lo siguiente:
• Este trabajo presenta una red neuronal interactuando en un mundo tridimensional para guiar a un agente virtual hacia un objeto específico estático o que se mueve predeterminadamente o aleatoriamente, a la vez que evade obstáculos estáticos o dinámicos que también cambian de dirección de modo predeterminado o aleatorio.
• La investigación realizada sobre tipos de redes neuronales usados en la evasión de obstáculos permitió estudiar una red neuronal diferente a las usadas por el Centro de Inteligencia Artificial.
• Este trabajo sugiere el empleo de redes neuronales con capacidad de adaptación en ambientes donde los obstáculos tienen dimensiones mayores o iguales a las del agente que los va a evadir.
• De acuerdo a la investigación bibliográfica en el área de evasión de obstáculos se tiene una aplicación diferente que considera las tres dimensiones del ambiente.
1.7. Estructura de la tesis
Capítulo 2
Estado del Arte
Este capítulo es una descripción de los diferentes usos que se le han dado a las Redes Neuronales en la evasión de obstáculos. Se consideran diferentes tipos de Redes Neuronales, estrategias y ambientes con la finalidad de detectar ventajas y desventajas de los mismos. El objetivo primordial es evaluar diversos trabajos relacionados con el problema de evasión de obstáculos, para así obtener una guía segura y confiable de seguir. Al mismo tiempo se considera la posibilidad de contribuir con una aplicación o estrategia nueva y a la vez robusta. Lo que se busca es un caso donde se haya aplicado un tipo particular de red neuronal en la evasión de obstáculos, que haya sido prometedor y que haya dado buenos resultados.
2.1. Aplicación de Redes Neuronales en planeación
de movimientos de Robots
Esta aplicación, realizada por Simón X. Yang y Max Meng, propone un marco de trabajo basado en redes neuronales biológicas. La dinámica neuronal de cada neurona, en la topología, está caracterizada por: una ecuación de disparo simple, derivada del modelo de membrana de Hodgkin y Huxley para un sistema neuronal; y por el modelo de disparo de Grossberg. El movimiento óptimo, a tiempo real del robot, es planeado a través de la actividad dinámica de la red; la cual representa al ambiente no estacionario en el que se encuentra el robot.
costo; y sin requerir de: conocimiento previo del ambiente, procesos de aprendizaje, ni de verificaciones de colisiones. Por tal motivo esta estrategia es computacionalmente eficiente. La topología de la red considera sólo conexiones locales entre las neuronas, haciendo con esto que la complejidad computacional dependa linealmente del tamaño de la red. La estabilidad de la red está garantizada por el análisis cualitativo y por la teoría de estabilidad de Lyapunov.
Esta topología está expresada en dimensiones finitas del espacio de estados S, que constituyen al espacio de configuración del robot C. Para un robot móvil (un punto) el espacio de estados está en el plano cartesiano. Para un robot manipulador el espacio de estados está en n dimensiones, donde n es el número de articulaciones del robot. Para un vehículo, el espacio de estados está en 3 dimensiones, dos de estas representan la translación y la otra la orientación.
El lugar que ocupa la iésima neurona, en el espacio de estados, representa única-mente una configuración en el espacio de configuración del robot. Cada neurona tiene conexiones locales laterales con sus neuronas vecinas, lo que constituye un subconjunto en el espacio de estados, cual es llamado en neurofisiología: "campo receptivo" -de la iésima neurona. La dinámica de la iésima neurona es caracterizada por: 1) una ecuación de disparo, la cual es derivada del modelo de membrana de Hodgkin y Huxley; y 2) una ecuación de disparo general de Grossberg. Los parámetros utilizados son: la taza de decaimiento pasivo; el límite superior e inferior de la actividad neuronal; las entradas excitadoras, que provienen de la meta que se persigue y de las conexiones laterales entre neuronas; y las entradas inhibidoras, que provienen de los obstáculos. Otra característi-ca de este tipo de red es que la propagación de la actividad neuronal dentro del espacio de estados es omnidireccional.
2.1.1. Resultados
El trabajo anterior trata de la aplicación de una red neuronal basada en estudios biológicos; con la finalidad de planear el movimiento de un robot a tiempo real y que pueda evadir obstáculos. El espacio de estados de la red es el espacio de configuración del robot. El marco de trabajo propuesto para la planeación de movimientos puede tratar con robots móviles (simulados por un círculo en el ambiente), robots manip-uladores, robots holonomáticos y robots no holonomáticos; y además puede contener múltiples robots. Todo esto en ambientes de dos dimensiones. Este proyecto tiene var-ios puntos valvar-iosos: (1) El algoritmo es computacionalmente eficiente. El movimiento es generado: sin tener que hacer una búsqueda en el espacio libre o entre los caminos que conducen a colisiones, sin tener que optimizar alguna función de costo, sin requerir de conocimiento previo del ambiente, sin utilizar procesos de aprendizaje, y sin emplear procedimientos de detección de colisiones en cada paso del robot. (2) La complejidad computacional linealmente depende del tamaño de la red, ya que cada neurona presenta sólo conexiones locales. (3) Este modelo actúa muy bien aun en ambientes que varían de modo arbitrario: en donde aparecen y desaparecen obstáculos repentinamente, en donde la posición meta cambia de modo aleatorio, etc. (4) Este modelo recibe una ovación biológica. La actividad neuronal es una señal análoga continua y tiene límites superiores e inferiores. Adicionalmente, la actividad neuronal continua previene la os-cilación debida a la dinámica paralela de neuronas discretas. (5) Este modelo no sufre de mínimos locales. El robot no va quedarse atrapado en un ciclo. (6) Este modelo es resistente a cambios en los valores de los parámetros, a cambios en la función de peso y al ruido.
Debido a las ventajas que presenta este modelo, la tesis se centra en: 1) Una documentación más detallada de este tipo de red, de los conceptos claves que están detrás y de las bases que ayudan a su entendimiento. Y 2) en una implementación de dicho modelo en un mundo virtual en 3D. Encontrar este tipo de red en la literatura no es fácil, ya que su uso no es muy común.
2.2. Un enfoque de auto-entrenamiento de robots
móviles
El aprendizaje no supervisado de los robots móviles es uno de los temas de inves-tigación de la actualidad. Este enfoque permite a los sistemas artificiales interactuar exitosamente con su ambiente y evitar obstáculos. Consiste de una arquitectura de control inteligente; la cual integra métodos de auto entrenamiento con la operación del robot en ambientes desconocidos y complejos. Se busca que el robot alcance la posición
La red utilizada en este enfoque es la de Retropropagación; y con la que se traba-jó con el robot "Walter". Se propone una filosofía que permita al robot por si mismo recolectar muestras de entrenamiento durante su viaje de experimentación y exploración por el mundo real. De tal modo que no exista supervisión alguna. En otras palabras: en el proceso de interacción con el ambiente desconocido el robot debe encontrar la conducta óptima y registrar todas las experiencias que lo han conducido al éxito; es decir, debe acumular conocimiento. De este modo se logra el auto entrenamiento. El robot solamente conoce su posición actual y la posición de la meta; que es lo único que necesita para encontrar el camino más corto entre su posición actual y la posición de la meta. La información anterior: experiencias y posiciones de meta y robot, constituye la entrada al sistema; la cual se obtiene mediante una recopilación de los datos prove-nientes de los sensores. Estos datos son procesados por medio de una fusión de datos, que como resultado genera un mapa del ambiente local. Dicho mapa está formado en cierto radio y rango angular de visón. Cabe señalar que como una peculiaridad, se examina la evasión de obstáculos, siendo estos puertas corredizas automáticas.
Las tareas que se ejecutan son: 1) Buscar el camino más corto a partir del mapa generado. 2) Definir la dirección apropiada dentro del camino encontrado anteriormente; es decir, la dirección que asegure la mínima distancia angular hacia la meta. 2.1) Usar un enfoque analítico (álgebra) en situaciones donde el corredor o túnel del camino es amplio y no tiene obstáculos; las condiciones del ambiente varían en el sentido de que hay veces en las que la entrada al corredor o túnel es una puerta corrediza automática. Este enfoque analítico permite encontrar una trayectoria que hace posible el paso por dichos obstáculos. 2.2) Usar un enfoque neuronal en situaciones donde: el túnel es angosto; y/o se cuenta con obstáculos dinámicos. De modo general: si se entrena una red neuronal para que genere ciertos datos de salida, pero en la presencia de entradas inexactas, lo que se va obtener es un control robusto. Por ese motivo se emplea la red de Retropropagación, que es la que facilita las características anteriores.
La generación del conjunto de datos de entrenamiento se logra cuando el robot transita por el ambiente, considerando cierto tiempo de muestreo. Cada muestra de aprendizaje está presentada en forma numérica y consiste de varias entradas ligadas a una salida. Se requiere el empleo de la red Perceptrón Multicapas para determinar la orientación del robot (que es la salida) cuando los ambientes son estrechos y ocurren contactos entre los obstáculos y el robot (que son las entradas). Se consideran ciertas ecuaciones para tales propósitos. Se utiliza un módulo de control de precisión con la finalidad de evitar obstáculos pasando muy cerca de ellos; es decir, para lograr una maniobrabilidad suave. Dicha maniobrabilidad se debe también en gran parte a la posición en la que se encuentran los sensores.
la etapa de autoaprendizaje por el módulo analítico y por el módulo de control de precisión; con la finalidad de entrenar al módulo neuronal. En otras palabras, el módulo analítico y el módulo de control de precisión están trabajando en la etapa de aprendizaje y dando una retroalimentación al módulo neuronal. El uso del módulo de control de precisión en el auto-entrenamiento da la oportunidad de disminuir el número de errores mientras se ejecutan las maniobras; y consecuentemente acelerar el proceso de auto-entrenamiento. Mientras este autoentrenamiento se lleva a cabo, la adquisición de nuevo conocimiento y la corrección del anterior se realiza. Como un resultado se le da al robot la capacidad de adaptarse al ambiente.
El proceso de autoentrenamiento toma lugar mediante prueba y error en intervalos cortos de movimiento. Si la maniobra es llevada a cabo exitosamente entonces los datos de entrenamiento, para el aprendizaje del Perceptrón, son formalizados o registrados. En caso contrario, el robot es regresado a su posición inicial y se vuelve a ejecutar la prueba hasta que se supere [5].
2.2.1. Resultados
El robot es capaz de adaptarse a diferentes situaciones. La facultad de apren-dizaje a tiempo real en un ambiente real típico fue estudiada en este enfoque. En los experimentos los pesos de las redes fueron inicializados con valores aleatorios y el entre-namiento se llevó a cabo en el proceso de interacción con un ambiente desconocido. Para tal entrenamiento se utilizó la red de Retropropagación en un modo no supervisado.
Antes de todo, el agente debe recolectar datos de entrenamiento por medio de prueba y error; y emplear la red de Retropropagación en el entrenamiento. Los datos provenientes de los sensores son inexactos y son utilizados durante la simulación, con la finalidad de darle robustez al enfoque. Por ejemplo las distancias lineales y angulares hacia los obstáculos difieren de sus valores reales. Después del autoentrenamiento el robot es probado en varias situaciones donde se ponen en uso: el módulo analítico, el módulo neuronal y el módulo de control de precisión.
2.3. Retropropagación y Robots móviles reales y
autónomos
Se partió de un trabajo anterior en el que se empleó la red de Retropropagación en el desarrollo de robots autónomos basados en conducta. Aunque el método se pudo probar con el robot Khepera, este todavía presenta algunos problemas, tales como: la convergencia a un mínimo local y la falta de variabilidad entre los intentos. Con la finalidad de mejorar el rendimiento del método, se introdujeron nuevos criterios para la selección de los datos de entrenamiento. Antes de todo se pusieron los coeficientes de la red neuronal de múltiples capas de modo aleatorio; dichos coeficientes determinan las reflexiones que el robot hace en relación con sus sensores y motores. Después se le permitió al robot que navegara por el ambiente un cierto tiempo. Conjuntos de valores sensor-motor fueron obtenidos durante el tiempo que el robot navegaba libremente. A cada conjunto se le evaluó su conducta mediante una función especial. La conducta fue evaluada en dos factores: 1) respuesta inmediata ante la presencia de obstáculos cercanos y 2) tiempo de navegación exitosa. El conjunto de datos que obtuvo la más alta evaluación fue seleccionado para cada patrón de sensores y usado para entrenar a la red neuronal con Retropropagación. Repitiendo el proceso anterior, el robot obtuvo una conducta adaptable a un ambiente dado, de acuerdo a la función de evaluación. El nuevo criterio proporcionó una convergencia más rápida y estable que el anterior, y un rendimiento más alto que un algoritmo genético convencional.
Las redes neuronales de múltiples capas han sido ampliamente utilizadas como esquemas de control. Estas permiten registrar las salidas de los motores; las cuales se obtienen mediante sensores colocados estratégicamente en los robots autónomos basados en conducta. En esta aplicación: la evolución de redes neuronales con algoritmos genéticos o programación genética se ha usado como un estándar; y probablemente sea sólo un método práctico que ha sido empleado para encontrar mejores coeficientes para las redes neuronales. De todos modos, mucho tiempo es necesario para tener una evolución a un nivel apropiado, e incluso para la adquisición de una conducta simple.
del robot en el ambiente. Y la red neuronal fue entrenada con dichos datos mediante Retropropagación. Los conjuntos de datos de entrenamiento fueron renovados mediante el desarrollo de una conducta autónoma.
El método fue aplicado al robot Khepera para que este pudiera aprender a navegar y no para que evolucionara simplemente. Se requirieron varias pruebas para obtener una conducta razonablemente buena, porque el conjunto de datos de entrenamiento que se obtuvo en el proyecto anterior condujo a malas conductas. Por ejemplo se inclinaba a una "navegación negativa en espiral" y a mínimos locales. Dado que una de las razones que ocasionaba los problemas anteriores, fue la evaluación de conductas a partir de la cercanía de obstáculos, se introdujo una nueva función de evaluación que combinara tiempo de navegación y la cercanía de obstáculos [6].
2.3.1. Resultados
En este método se resolvieron estos problemas: 1) Ciertos patrones que pudieran aparecer muy frecuentemente en los datos de entrenamiento pueden ocasionar que re-flexiones importantes para el robot no sean consideradas. Esto se soluciona evaluando cuidadosamente los datos de muestreo o de entrenamiento. 2) La nueva conducta inno-vadora no pudiera aparecer debido a que los patrones de los sensores puedan converger dentro de cierto límite. Esto se soluciona haciendo que el aprendizaje con Retropropa-gación, para un grupo de datos de sensor-motor, se ejecutara hasta que no se llegue a un cierto valor mínimo en el error.
Aunque el robot obtuvo una conducta de navegación aceptable, se tuvo el siguiente problema: Si la evaluación es hecha en un período corto de tiempo, el robot tiene problemas para navegar (avanzar) pero puede evitar correctamente a los obstáculos. Por el contrario si la evaluación es hecha en un período largo de tiempo, el aprendizaje avanza lentamente y el robot se la pasa chocando con los obstáculos. Es esencial observar esto: en el sentido de que una evaluación muy próxima (en intervalos cortos) de la conducta no necesariamente concuerda con la evaluación "distal" (en intervalos largos). En otras palabras, minimizando el error en cada punto del tiempo no garantiza un buen final o un buen rendimiento. En este método se estudió la puesta en prueba de ambas técnicas: la próximal y la distal. Se combinaron ambas funciones y se obtuvo una convergencia más rápida y una conducta más aceptable.
Otro problema que se presentó fue la falta de diversidad, donde el robot exhibió la misma secuencia de reflexiones. Las cuales lo llevaban en reversa por el ambiente cada vez que chocaba con algo. Este es un problema que se asocia a (o se debe a) Retropropagación, ya que trata de irse por el gradiente más grande. Por otra parte,
El desarrollo de este método sirve para conocer los pros y los contras de usar Retropropagación en una tarea de evasión de obstáculos; también es de gran utilidad ya que presenta un caso práctico de la manera de combinar algoritmos genéticos con redes neuronales.
2.4. Evolución y Desarrollo de controladores
neu-ronales
La Evolución y Desarrollo de controladores neuronales es utilizado para Nave-gación, Seguimiento de Gradientes, y Evasión de Obstáculos en Insectos Artificiales. Esta estrategia describe como el paradigma SGOCE (esquema de codificación que rela-ciona genotipo y fenotipo animal) ha sido usado para evolurela-cionar programas desarrol-ladores capaces de generar redes neuronales recurrentes que controlen la conducta de insectos simulados. Este paradigma es caracterizado por un esquema de codificación que hace uso de un algoritmo de evolución, de restricciones sintácticas del lenguaje de programación, y de estrategias increméntales. El uso adicional de un insecto equipado con seis patas y dos antenas hizo posible generar módulos de control que permitieran exitosamente implementar: seguimiento del gradiente, evasión de obstáculos y conducta de navegación [7].
2.4.1. Resultados
Esta estrategia es muy compleja ya que considera la evolución de cada neurona; viendo a cada neurona como un programa computacional que tiene las funciones bi-ológicas básicas: muerte y reproducción. Cada neurona controla una pata o antena del insecto. La idea es que mediante algoritmos genéticos el cerebro que mejor conducta muestre es el que se va aplicar finalmente al insecto. La función de evaluación considera primero la capacidad de navegación. Después se añade otro controlador al insecto, pero ahora la función de evaluación considera los motores del nuevo componente y la capaci-dad de seguir gradientes. Esto lleva a que el insecto pueda seguir olores. Finalmente se añade otro controlador al insecto, pero ahora la función de evaluación considera los motores y las neuronas del nuevo componente y la capacidad de evadir obstáculos.
Capítulo 3
Inhibición lateral
El concepto de inhibición lateral surgió en una investigación experimental del científico H. K. Hartline en la que se estudiaba las facetas que constituían al ojo del cangrejo herradura, Limulus (Xiphosura). Este trabajo se desarrolló en un periodo de cincuenta años y es un ejemplo destacado de métodos matemáticos cuantitativos de transmisión de señales que sustentan una preparación biológica [8]. El Limulus es un animal que aparenta no haber evolucionado, pues su forma es similar a la de los animales del periodo de los trilobitas (era Paleozoica media). Este animal está entre los seres más primitivos del planeta. Este hecho ayuda a que se puedan describir fácilmente las operaciones de inhibición lateral en términos matemáticos, dando así un mecanismo preciso y cuantitativo que fue sintetizado en la evolución de este organismo, en los inicios del tiempo geológico. Inhibición lateral es simultáneamente un principio biológico y una descripción matemática de una red neuronal biológica. Con esto una red neuronal sensorial puede ser simulada en un dispositivo electrónico.
En estos experimentos el efecto más obvio de la inhibición lateral es producir una respuesta, un contraste realzado relativo a la entrada, que permite la detección de contornos. La acentuación de contornos, que es la diferenciación natural de la in-hibición lateral, puede ser considerada una operación de inicialización, un intento por restaurar la información de contraste perdida mediante la inicialización. La iniciación es necesariamente el resultado físico del ancho no infinitesimal del máximo central del impulso de respuesta espacial. Otra función de la inhibición lateral es que permite re-ducir la redundancia. Las conexiones inhibidoras recolectan información de una área mucho más ancha que la de las conexiones excitadoras, de tal modo que el campo re-ceptivo inhibidor puede ser visto como un estimador de un nivel de iluminación local central; y sólo la desviación de esta estimación, que viene siendo una diferencia entre ex-citación e inhibición, es transmitida. Esta hipótesis conduce a una teoría interesante de adaptación fundamentada en los campos receptivos [10]. Así una función concomitante adicional es quizá la limitación del rango dinámico utilizado por: el sistema nervioso, en el señalamiento de la distribución de la iluminación; y por funciones relacionadas con el espacio visual. Dado que la variación o contraste de la distribución de la ilumi-nación por lo general porta información relevante para un organismo, es necesario que la diferencia de la media sea transmitida. Esta diferencia de la distribución tiene un rango dinámico más limitado que la distribución de la iluminación [11]. Estos efectos de este tipo de redes neuronales a primer plano son simples, pero en realidad el impacto total visual de la simulación del proceso de inhibición lateral es complejo y dramático [12] [13] [14].
Cabe señalar que no solamente el sistema visual contiene inhibición lateral, sino también el sistema del tacto y el sistema auditivo [15]. La función de la inhibición lateral se extiende a los sistemas sensoriales y al sistema nervioso central; sus fun-ciones, además de las anteriores comprenden un medio para sintetizar organismos, al hacer filtros adaptables no lineales que clasifican la información proveniente de sistemas sensoriales.
3.1. Campos receptivos
El campo receptivo de una célula visual es definido como la región de espacio visual sobre la cual cualquier respuesta de la célula se puede obtener. El estimulo visual usado para delimitar el campo receptivo está conformado por puntos o barras claras y obscuras. Dado un estímulo visual presentado en la sección que rodea al campo receptivo, la célula puede generar una respuesta antagónica, opuesta al valor del centro del campo receptivo. Las mediciones que se pueden obtener, de la respuesta que la célula da, son: el pico de la respuesta, el área bajo la curva de la respuesta contra el
tiempo y las respuestas en estado estable a corto y a largo plazo.
La inhibición lateral lineal encontrada en el estudio del cangrejo herradura es una declaración de conexiones en forma de ecuaciones que requiere una solución para poder definir un campo receptivo. Los campos receptivos lineales son la salida de un filtro inhibidor lateral espacial discreto para una función impulso delta de Dirac de la entrada del espacio visual. El campo receptivo lineal es la respuesta al impulso espacial, una función de ponderación y un núcleo en las series Vblterra y Wiener. Cuando la inhibición lateral o campo receptivo no son lineales (como sucede en los campos receptivos de las células de las retinas de algunos seres y en las células complejas corticales) no hay un método de transformación conocido para pasar el esquema de conexiones de inhibición lateral hacia un campo receptivo y viceversa [16] [17]. Solamente el proceso de linealización va permitir aplicar álgebra matricial y teoría de sistemas lineales en la transformación de inhibición lateral hacia campos receptivos y viceversa. Aparte de las consideraciones espaciales que se deben de hacer, existe una gran complejidad en las relaciones temporales de ínter neuronas visuales de orden superior, mucho más complejas que las encontradas en la composición de las células excéntricas del ojo del Limulus. Para estos casos se requieren descripciones útiles de la actividad de la células mediante un análisis completo de espacio tiempo [18] [19].
Un análisis teórico experimental cuantitativo de las células que están en los gan-glios de las retinas de los gatos [20] muestra las complejidades en la respuesta espacio-tiempo para dichas células. La mayoría de las células de los ganglios de las retinas tienen un comportamiento no lineal [21]. El análisis de movimiento mediante ínter neu-ronas visuales corticales demanda una no-linealidad para los campos receptivos espacio tiempo [22] [23]. Las inhibiciones laterales no lineales son las más útiles en el análisis de fenómenos y las más productivas en el diseño de sistemas ingenieriles.
3.2. Adaptación
Existen no linealidades significantes y filtraciones adaptadas en los sistemas vi-suales. La respuesta de la frecuencia espacio tiempo que se percibe es conocida como una función de sensibilidad de contraste, la cual es obtenida mediante ajustes y selec-ciones de umbrales de contraste en un conjunto de puntos sobre el plano de la frecuencia. Esta función es un modelo lineal de las propiedades de filtrado del sistema visual. Con forme el nivel de iluminación promedio del estímulo aumenta, la respuesta de la fre-cuencia cambia de pasa bajas a pasa bandas, el límite de banda superior aumenta, y la ganancia de la frecuencia baja disminuye. La causa de esta adaptación distintiva es que existe el efecto de que la capacidad de percibir información es bajo en niveles de iluminación bajos, ya que hay menos eventos de absorción de fotones que señalan las partes diferentes de un patrón visual dado. Con esto el ruido o niveles de señales bajos son eliminados, haciendo así que los puntos o patrones muy remendados no se puedan ver cuando la iluminación disminuye. Existen muchas justificaciones y ventajas de este fenómeno, pero sin lugar a dudas el sistema visual pasa bajas frecuencias y anchos de banda bajos en niveles de iluminación bajos. Filtraciones no lineales con capacidad de adaptación mediante redes con inhibición lateral no lineal y campos receptivos consti-tuyen un mecanismo importante en la reacción ante cambios visuales que demandan adaptación [25].
En niveles de iluminación más altos, los sistemas visuales llegan a ser diferen-ciadores más potentes. Esta diferenciación adaptable fue estudiada en la percepción visual humana, donde el experimento dio una familia de funciones de sensibilidad de contraste cada una tomada en un nivel de iluminación promedio diferente [26]. Para un nivel de iluminación promedio dado, un modelo de la función de sensibilidad al contraste es obtenido, el cual es una función de transferencia de modulación lineal con un nivel fijo de umbral. Para obtener una predicción del campo receptivo en este caso se toma la transformada inversa de Fourier de la función de transferencia de modulación con la suposición de que dicha función es par y real. El poder de predicción de este campo receptivo es substancial, ya que adapta a la función de transferencia de modulación a niveles de iluminación promedio.
3.3. Orígenes de la inhibición lateral no lineal
mul-tiplicativa
espacial con forme la iluminación aumenta. Este suceso también relaciona la información disponible, cuando esta aumenta, con un patrón de iluminación dado en niveles de iluminación superiores al aumentar la velocidad de absorción de eventos luminosos.
Una no-linealidad encontrada en varios campos receptivos de las ínter neuronas visuales es la interacción multiplicativa entre puntos interdependientes en el campo.
A un interneuron visual encontrado en el cordón nervioso ventral del saltamontes y de la langosta se le halló un detector de movimientos contralateral descendiente. Este detector tiene un axón con diámetro excesivamente grande en el cordón nervioso ventral y por lo tanto su respuesta a patrones visuales puede ser obtenida mediante métodos experimentales al introducir ganchos de alambre de plata, electrodos y amplificadores convencionales. El detector está involucrado en las respuestas de salto de escape dis-paradas visualmente, y en la evasión de colisiones [27]. Ante la respuesta a un pequeño punto de contraste que se mueve, brilla u obscurece en el campo visual, el detector responde con un tren de pulsos de duración de cientos de milisegundos cuya frecuencia disminuye conforme pasa el tiempo. Con este tipo de experimentos un campo receptivo puede ser relacionado, el cual tiene la forma de un hemisferio y es muy sensible a lo largo de una línea horizontal; su sensibilidad se refleja en el número de picos que se generan en respuesta al movimiento desde una posición inicial [28] [29] [30] [31]. Esta región es por la que los depredadores potenciales se aproximan al animal.
Cm [Rj/1 kQ/50%
91 Rj/1 kQ/50%
gk ;R]/1 kQ/50%
Figura 3.1: El circuito representa las propiedades de una superficie isopotencial. Es decir de la membrana de una neurona con conductancia variable para las corrientes de iones donde los potenciales de Nernst son representados por baterías. Este circuito es uno de los que se pueden encontrar en una red de circuitos interconectados.
3.4. Derivación de la inhibición lateral
multiplica-tiva
Se puede desarrollar un modelo no lineal que tenga las propiedades multiplicativas a partir de una red neuronal y su modulación pre o post sináptica de su conductancia. En el siguiente circuito de la figura 3.1 se representan las propiedades eléctricas de la membrana de un nervio o bien una simulación de una célula isopotencial. El potencial de reposo de la membrana es E, sobre el cual existe una variación e¿ que aumenta conforme cambian las conductancias g¿, las cuales son controladas por los voltajes de las células adyacentes. Las baterías representan los potenciales de Nernst de los canales de iones respectivos, y constituyen la fuerza que circula por el circuito. Este circuito es no lineal ya que las entradas de conductancia en una red son dependientes también de e. El potencial de reposo de la membrana E es dado por:
E = (3.1)
Donde: gj =gj que es una conductancia constante.
Y para un voltaje de conductancia controlada gá = g¿ + kjej el conjunto de
Cm
lt
=-
eiJ29j-e
i
^2k
je
j+ Y^k
je
j(V
j-E),i =
1,2,... (3.2)
j 3 3
Esta ecuación tiene términos excitadores e inhibidores, en un apareamiento de cruz lineal, que dependen de la diferencia entre el potencial en reposo y el potencial de Nernst para los respectivos iones de esta conductancia. Existen además términos lineales de entrada dados de tal modo que una entrada L¿(t) determina una de las conductancias para cada célula, en la forma de gi= g¿ + L¿(t):
j ^3 3
(3-3)
De gran importancia es el hecho de que hay términos no lineales acoplados en cruz de la forma eikjej, ya que representan a la inhibición lateral multiplicativa, añadida a la inhibición lateral lineal o excitación. El término bilineal e¿L¿(£) no afecta a la forma de la curva y por tal motivo puede ser eliminado de la fórmula.
Cuando un análisis de las variaciones se hace y los términos lineales se mantienen, los términos multiplicativos producen términos lineales, coeficientes que dependen de la iluminación promedio Lo. Esta forma aproxima a la segunda diferenciación espacial controlada paramétricamente y que modela el aspecto adaptable de la función de trans-ferencia de modulación de la percepción humana. Esta ditrans-ferenciación es dada por la siguiente ecuación, con el parámetro a(Lo) produciendo la adaptación al aumentar la diferenciación con el incremento de Lo.
Esta ecuación constituye una inhibición lateral de los vecinos cercanos en el sen-tido de que el término central es disminuido o inhibido por los términos de los vecinos más cercanos. Esta constituye una segunda diferenciación de adaptación que juega el papel de una inhibición lateral adaptable del vecino más cercano. Por ejemplo, para la función de transformación de modulación, esta diferenciación hace que la información de frecuencias bajas sea suprimida, más severamente a la medida que la iluminación promedio aumenta. Simultáneamente surge un incremento de la respuesta de las fre-cuencias altas. La percepción de imágenes borrosas es un resultado de la partición física combinada con efectos de muestreo en la óptica fisiológica y en la fisiología del sistema visual. Además de esto, existe una motivación fisiológica para una inhibición lateral no lineal, la pre o post sinapsis, la cual posee la propiedad de diferenciación adaptable, y
En el modelo de inhibición lateral no lineal, la dependencia paramétrica sobre Lo es inherente en el sistema, la cual está distribuida entre los términos acoplados, y no debido al parámetro añadido. Todo esto da la base para un modelo de red neuronal sensorial no lineal, donde el campo receptivo es espacio-temporal, y el campo receptivo espacial en estado estable está dado por la relación en estado estable de la variacional e.
0 = ~ei(Ejg + EjkjEo + Lo) - ^jkjej(E -Vj + Eo) + U{Vi-E- Eo) (3.5)
O en forma matricial como:
0 = Ae + k\ (3.6) Esto conduce simplemente a una inversión matricial para obtener los campos re-ceptivos, las columnas de la matriz invertida, B.
e = -fc^A"1! = BI (3.7)
Una aproximación más sencilla puede ser utilizada, al considerar que la relación en estado estable para una red grande puede ser escrita uniformemente para cada célula i como:
E-Vj + Eo
+ HjkjEo + Lo)
W E E o ) ^ EVj + Eo
1 (Eg + EkEo + Lo) ^ J 3 (£& + HkEo + Lo) V " ;
El campo receptivo es en efecto el conjunto de coeficientes de la excitación y de la inhibición. Una inspección en la naturaleza de la adaptación de iluminación promedio puede ser obtenida sin tener que hacer la inversión matricial si se examina la dependen-cia de estos coeficiente en el nivel medio Lo. Todo esto da un campo receptivo adapt-able, el grado de inhibición lateral no lineal conduce a una concentración de la parte inhibidora del campo receptivo hacia el centro excitador. Esto da una diferenciación más poderosa, menos suave y un movimiento del pico de la función de transferencia de modulación hacia frecuencias espaciales más altas a la medida que la iluminación promedio aumenta.
lateral uniforme que da una función de transferencia de modulación y los campos recep-tivos aproximan mejor los datos preceptúales humanos, de todas formas las frecuencias de respuesta del pico no se desfasan con la iluminación promedio, estas permanecen constantes [26].
En principio cualquier perfil del campo receptivo finito, similar a los vectores de la teoría de redes neuronales computacionales, puede ser sintetizado por las ecuaciones de inhibición lateral usando el acoplamiento no lineal general. Para un gradiente de las funciones no lineales de acoplamiento se tiene:
Ke —* f(e) (3.9)
/±i = knei±l + kue2i±l + k13ef±1 (3.10)
/±2 = k2iei±2 + k22e^±2 (3-H)
/±3 = k31ei±3 (3.12)
De la ecuación anterior f(e), y la iluminación promedio determinan la convergen-cia o aproximación a un campo receptivo específico. En el sistema nervioso existen indudablemente muchos tipos de campos receptivos, optimizados en alguna forma para una cierta tarea. Por ejemplo, filtros en el sentido clásico pueden ser aplicados a con-voluciones espacio temporal de datos experimentales; estos datos conocidos son las respuestas a impulsos de las neuronas internas visuales de segundo orden en la retina de la mosca; para predecir que la mosca prefiere contornos que tienen una iluminación alta, burbujas y regiones obscuras y no contornos con iluminación baja [33].
3.5. Propiedades
Figura 3.2: Este circuito representa a una neurona y el conjunto de circuitos (neu-ronas de este tipo) reflejan la Inhibición lateral Multiplicativa mediante modulación de conductancia.
O - — = li — — — Xil^j7íiJj{
que puede ser escrita en forma normalizada como:
—J— = H — i — Xi¿Jj^iJj{Xj)
Lo cual completamente describe la dinámica del sistema.
(3.13)
(3-14)
La característica primordial de este modelo es el control de conductancias mediante células vecinas, las cuales dan nacimiento a términos multiplicativos x¿fj(xj); y por tal motivo reciben el nombre de Inhibición Lateral Multiplicativa.
En general, modelos en los que términos multiplicativos ("shunting") de la forma x¿EjIj, o x¿£jfj(xj) aparecen en las ecuaciones de red son llamados redes neuronales
"shunting" o redes neuronales multiplicativas. Los cuales contrastan con los modelos aditivos donde interacciones excitadoras o inhibidoras ocurren con la adición o sustrac-ción, respectivamente. El primero muestra una actividad no recurrente con alimentación hacia delante; mientras que el segundo es recurrente y con alimentación hacia atrás. La polaridad de estos términos significa interacciones excitadoras e inhibidoras.
modelos de interacción dendrítica [37] [38], o de los estudios de selectividad direccional en el sistema visual [39]. Otras evidencias biológicas de interacciones multiplicativas se encuentran en los experimentos con las motoneuronas de los gatos [40] [41].
3.6. Modelos aditivos
Estos modelos tienen la forma:
^ =
-AÍXÍ+
£
fiMBjiztf - Y.dÁ^Cji^ + h
(3.15)
j 3Y son llamados aditivos, para ser diferenciados de los modelos multiplicativos o "shunting". En la ecuación anterior A¿ asegura un decaimiento exponencial al nivel de reposo ante la ausencia de entradas en la red; íj y g¿ son señales provenientes de otras células en la red; Bj¿ y C¿¿ son las fuerzas de conexión; y zj¿ y zj¿ son los rastros que se guardan en la memoria de larga duración, los cuales pueden cambiar cuando la red aprende. La primer sumatoria formula interacciones excitadoras y la segunda interacciones inhibidoras.
Estos modelos aditivos han sido históricamente los pilares de la teoría de redes neuronales y han sido mostrados en una gran variedad de tareas computacionales, a la vez han servido para dar explicaciones a fenómenos biológicos, psicológicos y psicofisi-ológicos. Un ejemplo de esto se puede encontrar en el trabajo realizado por Hartline y Ratliff en la década de los treintas en la que describen la composición lateral del ojo del limulus [8] [12]. Por otra parte McCulloch y Pitts en 1943 establecieron el cálculo lógico completo para la computación mediante neuronas formales proporcionando así una base matemática sólida para la teoría de redes neuronales [42]. Rosenblatt en 1958 utilizó redes aditivas en arquitecturas de aprendizaje de múltiples capas, los perceptrones, los cuales fundaron el campo de redes neuronales [43].
estadística al diseño de redes capaces de aprender representaciones internas de varias entradas [52].
Además de la clasificación de las redes en aditivas y multiplicativas, bajo la con-vención de Grossberg, se debe señalar que las distinciones proporcionan un marco de trabajo comparativo. El término aditivo no significa lineal. En estos modelos las fun-ciones íj y gj pueden ser funciones no lineales, lógicas, lineales de umbral o de forma curveada similar a la letra S. Por lo tanto la forma de la no linealidad especifica car-acterísticas importantes de las redes. Esto se puede ver en las máquinas de Boltzman donde el parámetro temperatura, que determina la pendiente de la no-linealidad de las curvas con forma de S, es variado mediante un programa de recocido que causa que la red aprenda una representación interna de la entrada.
Sin despreciar la rica herencia de los modelos aditivos, los modelos multiplicativos tienen ventajas importantes sobre estos modelos.
3.7. Modelos multiplicativos
Un equipo de trabajo impresionante resalta las propiedades de las redes multi-plicativas [53] [45] [39] [34] [54]. Propiedades específicas aplicables al procesamiento de información visual, especialmente a un nivel bajo o de procesamiento periférico.
Pinter ha usado una red que tiene sólo conexiones inhibidoras multiplicativas, similar a la de la ecuación 3.13 para explicar la respuesta adaptable de corto tiempo de muchas unidades visuales, tales como: la dependencia de la organización del campo receptivo sobre el contraste y la iluminación promedio, dependencia de la modulación temporal y espacial de las funciones de transferencia sobre el contraste y la iluminación promedio, dependencia del tamaño de preferencia y el estado latente del tiempo de re-spuesta sobre el contraste y la iluminación promedio, y la dependencia de la sensibilidad incrementada sobre la iluminación promedio [34] [54] [55] [25].
Grossberg ha introducido redes multiplicativas de alimentación hacia delante de la forma:
— = -AXÍ + (Bi - XÍ) 2 ^ IkCki - (XÍ - Di) 2 ^ IkEki (3.16)
k k
+ (Bi - XJMXÍ) - Xi^fjixj) + Ii (3.17)
también como ecuaciones de redes donde entradas excitadoras e inhibidoras están separadas y multiplicadas:
^ = -AÍXÍ + (Bi - xúí^fjixJCji + Ii] - (Xi - A ) E f t ( * + ¡i] (3-18)
Donde: las constantes B¿ y D¿ especifican los límites superiores e inferiores para la variación de las actividades x¿, A¿ es el término de decaimiento exponencial, y los coeficientes CJ¿ y E^ describen el decaimiento con la distancia entre células Xj y x¿
de las influencias excitadoras e inhibidoras, respectivamente, de la entrada I, sobre la células XÍ [35] [56] [57] [58].
Estas redes han sido usadas para explicar un conjunto de fenómenos visuales tales como: efectos "Cornsweet" y "Craik-O'Brain", fantasmas y contornos subjetivos, ponderación del brillo binocular, escalamiento de frecuencias espaciales múltiples y detección de contornos, formación de figuras, coexistencia de profundidad y rivalidad binocular, rivalidad de reflexiones, paradojas de Fechner, sintonización del nivel de adaptación, modulación de la ley de Weber, y el desfasamiento de sensibilidad con la iluminación de fondo.
Un grupo de investigadores ha utilizado las ecuaciones anteriores junto con otros mecanismos para explicar una gran variedad de percepciones de niveles superiores de brillo tales como segmentación y agrupamiento. Tales fenómenos son usados en la inves-tigación de cómo una imagen continua es llenada o completada, antes de ser codificada por componentes discretos de una red neuronal. Estos investigadores han sugerido áreas de la corteza visual donde tales procesos pueden ocurrir y contienden de que ninguna otra teoría visual alterna ha sido capaz de explicar esto como lo hace el amplio rango de propiedades de las redes multiplicativas [59] [60] [61] [62]. Un modelo de propósito general de visión de atención previa que incluye redes multiplicativas como un módulo principal de la arquitectura ha sido utilizado en algunos trabajos de Grossberg [63].
Capítulo 4
La evasión de obstáculos dinámicos en 3D:
experimentación y resultados
En este capítulo se muestra la manera en que se implementa la red neuronal utilizando los conceptos y vocabulario de los capítulos anteriores. Y los resultados obtenidos de la experimentación con diferentes ambientes.
4.1. Diseño
Capítulo 4
La evasión de obstáculos dinámicos en 3D:
experimentación y resultados
En este capítulo se muestra la manera en que se implementa la red neuronal utilizando los conceptos y vocabulario de los capítulos anteriores. Y los resultados obtenidos de la experimentación con diferentes ambientes.
4.1. Diseño
conexiones locales laterales excitadoras entre neuronas, las cuales, hacen una consid-eración de lo que se encuentra alrededor de cierto cubo, posición o neurona (cubo = posición = neurona). Obviamente, la complejidad computacional depende linealmente del tamaño de la red neuronal, el cual está determinado por el número de cubos en que se particiona el ambiente.
La topología de red neuronal que se está usando, está inspirada por la dinámi-ca neuronal de un sistema biológico. La idea central consiste en desarrollar una red neuronal, cuyo comportamiento represente las variaciones y perturbaciones dinámicas que acontecen en el ambiente, para posteriormente realizar la evasión de obstáculos dinámicos en un ambiente tridimensional. Para esto, en la topología se definen las en-tradas externas del ambiente, las conexiones entre neuronas, la posición del objeto que representa a la meta y las posiciones de los obstáculos. Y por tanto, hay una actividad neuronal o cambio de estado de las neuronas conforme el ambiente cambia. La neurona cambia la evaluación que tenía de un cierto cubo o posición, ante cada perturbación que suceda en el ambiente. Si el cubo que está siendo evaluado o monitoreado por una cierta neurona, en un instante del tiempo le toca representar o contener a una posición meta, dicho cubo va recibir en dicho instante una buena evaluación por parte de la neurona que lo evalúa y esa neurona se está excitando debido a la presencia de la meta en el cubo que está monitoreando; y al excitarse, el potencial de acción que genera tiene un voltaje mucho mayor. En breve lo anterior se resume en que cada neurona monitorea y evalúa a cierto cubo del ambiente. El efecto que se obtiene con lo anterior es que los cubos o posiciones meta atraen al agente navegador, lo excitan; mientras que los cubos que son obstáculo solamente indican que deben ser evadidos, es decir inhiben al agente. La trayectoria libre de colisiones se genera a través del monitoreo y evaluación de cada cubo del ambiente; es decir, mediante la actividad dinámica de la red neuronal descrita.
Hodgkin y Huxley propusieron un modelo, usando circuitos eléctricos, para un pedazo de membrana de un sistema neuronal biológico. Su modelación, sus descubrim-ientos del mecanismo iónico involucrado en la excitación e inhibición de ciertas regiones centrales y periféricas del nervio de una membrana neuronal, junto con otros trabajos experimentales les permitieron recibir el premio Nobel en 1963. En su modelo de mem-brana, el comportamiento del voltaje que hay en la membrana Vm, es descrito mediante
la técnica de ecuación de estados como:
W + (ENa ~ V^ ~ ^EK + Vm^K (4.1)
Donde: Cm es la capacitancia de la membrana; EK, ENa y EP son los potenciales
pasivas que se filtran en la membrana; gK, gNa y gP son los niveles de conductancia del potasio, sodio y de otros canales pasivos.
Este modelo proporciona la base para los modelos de disparo y conduce a una gran variedad de modelos y de aplicaciones.
Sustituyendo Cm=l, z¿ = EP + Vm, A = gP,B = ENa + EP,D = EK - EP,
Si+ = g]\fa y Si" = gK en la ecuación anterior, se obtiene la siguiente ecuación de disparo:
^ = -AXÍ + {B- Xi) Si+(í) - (D + Xi) Si" (t) (4.2)
Donde: x¿ es la actividad neuronal, evaluación y monitoreo de un cierto cubo hecho por la neurona i, es el potencial o voltaje de la membrana de la i-ésima neurona; A, B y
D son constantes no negativas que respectivamente representan: la tasa de decaimiento pasivo, el límite superior e inferior de la actividad neuronal (potencial de acción máximo y mínimo que puede generar); y Si+ y Si" son las entradas excitadoras e inhibidoras de la neurona i.
Este modelo de disparo fue primero propuesto por Grossberg para entender la conducta adaptable, a tiempo real, de individuos ante contingencias en su ambiente. Y ha conducido a una gran cantidad de aplicaciones en visión biológica, visión computa-cional, control de motores sensoriales, etc. Es esta precisamente la característica que se explota en este trabajo: la adaptación, la cual se puede utilizar para ajustar al agente virtual ante cambios drásticos en las direcciones de movimiento de los obstáculos y de la meta.
La arquitectura neuronal del modelo propuesto es un paralelepípedo discretizado, organizado topológicamente (que se ha usado, pero con forma rectangular, en muchos otras redes neuronales). Cada neurona tiene conexiones locales laterales con sus neu-ronas vecino, las cuales constituyen su campo receptivo. Y por tanto la neurona i sólo responde a estímulos que estén dentro de su campo receptivo.
En el modelo propuesto, la dinámica o comportamiento de la i-ésima neurona en la red es caracterizado por la ecuación de disparo 4.2. La entrada excitatoria Si+ proviene de la meta y de las conexiones laterales con sus neuronas vecino, mientras que la entrada inhibidora Si- proviene sólo de los obstáculos. Por tanto la ecuación diferencial para la neurona i está determinada por:
Donde: la sumatoria se hace para la cantidad de neuronas que hay en la red; y la suma [Ii}+ + Ylwij[xj]+ Y e^ término [/¿]~ son las entradas excitadoras e inhibidoras, respectivamente; e I¿ es la entrada externa a la i-ésima neurona la cual vale E si se trata de la meta, -E si se trata de un obstáculo y 0 en cualquier otro caso.
{
E si se trata de la meta—E si se trata de un obstáculo (4.4) 0 en cualquier otro caso
E es una constante muy grande y con valor positivo que debe ser mucho mayor que B, E » B. La función [a]+ es una función de umbral superior lineal definida como [a]+= max{a, 0}, y la función [a]~ es una función no lineal definida como [a]- =
max{—a, 0}. El peso de conexión w¿¿, entre las j-ésimas neuronas con la neurona i, es una función de distancia definida como:
WÍJ = f(dij) (4.5)
Donde dij = |<7¿ — 5j|; la g¿ representa la posición de la i-ésima neurona en la red; y también la posición de la sección que monitorea y evalúa. La dij representa la distancia euclidiana entre posiciones q¿ y q¿.
La función de peso de conexión entre neuronas f(a) es una función monótonamente decreciente, por ejemplo puede definirse como:
u/a s i O < a < r 0 si a > r
Donde /i y r son constantes positivas. Es evidente que el peso vu^ es simétrico, es decir, w^ = Wji, y no depende de la dirección de movimiento del agente navegador. Además, la neurona tiene solamente conexiones locales en una pequeña región (0,r), que es su campo receptivo. Todas las neuronas que tienen conexiones laterales a la i-ésima neurona son llamadas neuronas vecino. Por tanto la dinámica de la i-ésima neurona puede ser expresada como:
dxi . ^-^
vvecina
Donde la sumatoria se hace considerando solamente las neuronas vecinas de la neurona i.
al objeto meta, esta neurona excita a sus neuronas vecinas, haciendo que estas generen un potencial de acción muy alto pero menor al de la neurona que contiene al objeto meta. También garantiza que la actividad negativa permanezca localmente, ya que no hay conexiones inhibidoras entre neuronas. Esto da el efecto de que si en un cubo hay un obstáculo, la neurona que lo evalúa no inhibe a sus neuronas vecino. La actividad neuronal positiva son las buenas evaluaciones que las neuronas dan a sus cubos cuando estos contienen a la meta o cuando estos son adyacentes del que contiene a la meta o cuando estos son adyacentes de los adyacentes, etc. La evaluación de un cubo depende del potencial de acción que tenga cada una de las neuronas vecino o bien de la eval-uación de sus cubos vecinos, de qué tan buenos (cercanos a la meta están) o malos (por si representan un obstáculo) son. Por lo tanto, el cubo que representa a la meta globalmente influye a los demás cubos, para atraer así al agente navegador, mientras que los obstáculos solamente tienen el efecto de que el agente evite colisiones. Como se requiere que la propagación de la actividad neuronal desde la meta sea bloqueada tan pronto como esta tope con obstáculos, se pone r = 2 en la ecuación anterior, es decir se limita el campo receptivo de las neuronas.
En el ambiente las posiciones de la meta y de los obstáculos varían con el tiempo. La actividad neuronal o la evaluación que hacen todas las neuronas a su cubo o el po-tencial de acción que genera cada neurona, cambia dinámicamente según las entradas externas, estado del ambiente y las conexiones laterales excitadoras. De la ecuación 4.7, cada neurona responde, a tiempo real, solamente a las entradas de la neurona que contiene al objeto meta en el cubo que monitorea y a las entradas de las neuronas que contienen en sus cubos obstáculos. Y por tal motivo en el modelo propuesto no se requiere de conocimiento previo del ambiente. La trayectoria a tiempo real, es generada desde la actividad dinámica de la red o proceso de generación de potenciales de acción, que es la evaluación que cada neurona hace al cubo que monitorea. Esta actividad dinámica de la red se obtiene al resolver la ecuación 4.7 con el empleo de algún método numérico, por ejemplo Euler o Runge Kutta. Partiendo de una posición dada, se de-termina a qué cubo pertenece, y por lo tanto se identifica a la neurona que monitorea a dicho cubo; supongamos que se trata de xactuai, la siguiente posición es determinada
por ^-siguiente^ l& cual es:
xsiguiente = max{x¿|x¿ es vecina de xactuai} (4.8)
Es decir, de todas las posiciones (adyacentes) a las que se puede ir el agente navegador, estando en la posición xactua¿, se selecciona la posición adyacente o vecina ^-siguiente de mejor evaluación. Una vez que el agente navegador se halla situado en