MODELO CONEXIONISTA O SUBSIMBOLICO. - MODELOS DE LA INTELIGENCIA ARTIFICIAL.

4.1. MODELOS DE LA INTELIGENCIA ARTIFICIAL.

4.1.1. MODELO CONEXIONISTA O SUBSIMBOLICO.

Como alternativa al modelo simbólico, se buscó desarrollar una tecnología que se acercase lo más posible al cerebro como fuente de la inteligencia. El modelo simbólico partía de un supuesto que se consideró no del todo correcto, al postular que la inteligencia era posible producirla en computadoras

25 _{Wiener N,Cybernetics, or Control and Communication in the Animal and the Machine, MIT Press.Traducción al español} por Francisco Martín, ”Cibernética o el control y comunicación en animales y máquinas. Tusquets editores Barcelona,1985, p.p. 15-23.

26_{Ibidem, p. 18}

seriales de tipo convencional, y el cerebro no funciona de esta manera, sino en forma masivamente paralela, donde cientos de miles o millones de neuronas desarrollan finos procesamientos de la información y a velocidades mucho más altas. En particular, en lo que concierne a los procesos perceptuales básicos, como la visión, esta observación excluye las formas de procesamiento de información que tendrían que barrer los datos que ingresan serialmente, o pasarlos a través de numerosas etapas de procesamiento intermedias. Por otro lado, en el cerebro, a diferencia de cualquier computadora convencional, el conocimiento se almacena estructuralmente en forma de patrones distribuidos mediante pesos sinápticos excitatorios o inhibitorios, cuyas magnitudes relativas determinan el flujo de las respuestas neuronales que finalmente constituyen la percepción y el pensamiento. Algunos investigadores en I.A. buscaron entonces relacionar la cibernética con la neurociencia experimental, de tal suerte que pudieran unificarse los desarrollos y las conjeturas teóricas con la experimentación. Surge así otro modelo en inteligencia artificial que se ha dado en llamar computación con redes neurales o neurocómputo28

Este modelo de procesamiento de información, es llamado conexionista o subsimbólico, en analogía con las conexiones entre las células nerviosas. Su base parte de que una masa de neuronas podía aprender si éstas eran lo suficientemente excitadas. Esta idea, fue retomada por Rosenblatt, quien propuso que la inteligencia artificial debería intentar automatizar los procedimientos mediante los cuales una red de neuronas aprende a discriminar patrones y a responder adecuadamente29

. En 1950, Karl Lashley, en una serie de ensayos, encuentra que la información en el cerebro no era almacenada en forma centralizada, sino que era distribuida encima de él.

Dos años más tarde, con base en las ideas de Mc Culloch y Pitts, Marvin Minsky fabrica con las piezas sobrantes de un piloto automático de un avión B-24, una máquina capaz de aprender llamada SNARC (Stochastic Neural-Analog Reinforcement Computer). Esta máquina consistía de 40 neuronas artificiales que simulaban el cerebro de una rata buscando el camino de salida de un laberinto; el papel del piloto automático era realizar el ajuste de las interconexiones entre las neuronas, cada vez que la rata lograba una secuencia correcta de movimientos que la llevara a encontrar la salida del laberinto30

. Cuatro años después, en 1956, organizada por Minsky, John McCarthy, Nathaniel Rochester y Claude Shannon se celebró en Darthmouth la primera conferencia sobre Inteligencia Artificial, evento que daría un gran impulso al desarrollo de esta disciplina. Rochester y Holland realizan simulaciones de redes neuronales artificiales y en su trabajo se aprecian las dificultades para implementar correctamente la idea de fortalecer las conexiones que Hebb había sugerido, ya que la simulación funcionaba en forma incorrecta cuando el fortalecimiento de las conexiones crecía sin límite, así que optaron por mantener constante la suma total de los valores sinápticos, que se tenía en el sistema en cualquier momento dado. Esto significa que cuando una interconexión se veía incrementada, otra más era decrementada, a fin de mantener en equilibrio el sistema. En este congreso se definieron las presuposiciones básicas del núcleo teórico de la IA, como son, el reconocimiento de que el pensamiento puede ocurrir fuera del cerebro, es decir, en máquinas, así como la suposición de que el pensamiento puede ser comprendido de manera formal y científica31

En 1957, en forma independiente, Frank Rosenblatt desarrolla un sistema que permitía interpretar patrones tanto abstractos como geométricos al que denomina perceptrón, el cual consistía de un conjunto de 512 unidades de asociación, que recibían información del exterior a través de un conjunto de unidades sensoriales (fotoceldas), colocadas en un arreglo de 20x20 unidades, denominada retina.

28_{Betchel, W. Contemporary connectionism: Are the new parallel distributed processing models cognitive or associationist?.} Behaviorism, 13, 53-60, 1985.

29_{Smolensky,P. On the proper treatment of connectionism.Behavioral Brain Sciences. 1988, 11:1-73.} 30_{Jramoi, Op. Cit, p.55.}

31_{Reeke,G. y G. Edelman.}_{Cerebros reales e inteligencia artificial}_{, en Graubard, S., El Nuevo debate sobre la Inteligencia} Artificial. Ed, Gedisa, Barcelona,1988,pp.167-171.

Los resultados del perceptrón se desplegaban sobre otro conjunto llamado unidad de respuesta o activación. Cabe señalar que este sistema constituyó la red neuronal más antigua; utilizándose hoy día principalmente como reconocedor de patrones. El poder de este modelo radica en su capacidad de generalización, es decir, después de haber aprendido una serie de patrones la red es capaz de reconocer otros similares, aunque no se le hubiesen presentado anteriormente.

Desde fines de la década de los cincuentas, la investigación en I.A. se expande y se multiplica en distintas direcciones. Algunos investigadores se dedican al estudio de la naturaleza del aprendizaje en las computadoras y a los procesos de reconocimiento de patrones visuales. Como resultado de ello, Selfridge y Dinneen consiguen en 1958, diseñar el primer programa capaz de aprender por medio de la experiencia. Al mismo tiempo, con base en los estudios sobre memoria asociativa, Newell, Shaw y Simon construyen los primeros lenguajes de procesamiento de información utilizados en el diseño de su Logic Theorist Machine que se convirtió en la primera máquina ‘inteligente’, capaz de memorizar y aprender32

En 1959, en su obra, Principios de Neurodinámica, Rosenblatt demuestra que, bajo ciertas condiciones, el aprendizaje del Perceptrón converge hacia un estado finito, lo que se conoce como teorema de convergencia del perceptrón, el cual establece que si un problema tiene solución, el algoritmo de entrenamiento garantiza la existencia de ésta.

A principios de la década de los 60's, en relación al problema del diseño de un filtro, Bernard Widrow y Ted Hoff (padre del microprocesador), conocían el procedimiento ideado por Wiener para hallar la solución optima del filtro, pero éste requería del conocimiento de la estadística del ruido que se deseaba eliminar, así como de un elevado número de muestras de la señal, por lo que Widrow buscó un mecanismo capaz de aproximar la solución de Wiener sin disponer de información previa; es decir, que el mecanismo se adaptara a un cierto patrón de entrada. La solución Widrow-Hoff se basó en el concepto de retroalimentación de Wiener, e hizo que el error entre la entrada y la salida se usara para ajustar los pesos del sistema. Así, Widrow publica una teoría sobre la adaptación neuronal y los modelos inspirados en esa teoría, el ADALINE y el MADALINE (Multiple Adaline), los cuales permitieron usar, por primera vez, una red neuronal en la resolución de un problema importante del mundo real: filtros adaptativos para eliminar ecos en las líneas telefónicas33

Un año después, Karl Steinbeck crea la Die Lernmatrix, una red neuronal con memoria asociativa. De este modo, hacia mediados de los sesentas la IA se convierte en un área en la que se interesan e interactúan especialistas de diversas disciplinas: lógicos, psicólogos, matemáticos, lingüistas y filósofos, entre otros. Sin embargo, a fines de la década de los 60, surgen diversas críticas que frenan hasta 1982, el crecimiento que estaban experimentando las investigaciones en redes neuronales. La publicación del artículo llamado Perceptrons por parte de Minsky y Pappert, constituye una fuerte crítica al modelo de Rosenblatt, revelando serias limitaciones en éste modelo, entre ellas, su incapacidad para representar la función XOR u O-exclusivo.

32_{Newell,A.,J.C. Shaw, & H.A, Simon,}_{Empirical Explorations with the Logic Theory Machine a Case Study in Heuristics}_, Feigenbaum,E.A. & J.Feldman. Computers and Thought. U.S.A.: McGraw-Hill,1963 p.11.

33_{Beaujeu, Bolch, Bourgey et al. Op. Cit. p. 2530.}

Figura 21. Tabla veritativo funcional del operador XOR.

En este artículo se plantea asimismo, el problema de la asignación de créditos, el cual establece que una red de perceptrones compuesta por varias capas podría solucionar el XOR si supiera en qué medida tienen que modificarse los pesos de la capa intermedia. Sin embargo, la solución de este problema es linealmente no separable; y en general, el perceptrón era incapaz de clasificar clases no separables linealmente. Esto demostró las limitaciones del perceptrón, debido a que las funciones no- lineales son extensamente empleadas en computación y en los problemas del mundo real, por lo que la publicación de este artículo provocó un descenso del interés en el modelo conexionista. Ello derivó en un declive en las investigaciones en el campo de las redes neuronales hasta la década de los 80, cuando el estudio de nuevas arquitecturas de redes y potencia cada vez mayor de los computadores permitieron el diseño de redes de mayor eficiencia en la ejecución de tareas en las que otros procedimientos de tipo simbólico encontraron dificultades34

Figura 22. Separación de clases linealmente separables

A pesar de ello, algunos investigadores decidieron continuar con las investigaciones. Tal fue el caso de James Anderson, quien a mediados de la década de los 70, desarrolló un modelo llamado Asociador Lineal, que consistía en una serie de elementos integradores lineales (neuronas) que sumaban sus entradas. Este modelo se basó en el principio de que las conexiones entre neuronas son reforzadas cada vez que son activadas, y constituyó una potente extensión del Asociador Lineal, llamada Brain State in a Box (BSB).

En 1974, Paul Werbos desarrolla la idea básica del algoritmo de aprendizaje de propagación hacia atrás (backpropagation). Seis años después, Kunihiko Fukushima, diseña un modelo neuronal para el reconocimiento de patrones visuales. En 1982, Hopfield publica su libro Computación neuronal de decisiones en problemas de optimización, en el que elabora un modelo de red consistente en unidades de proceso interconectadas que alcanzan mínimos energéticos, aplicando principios de estabilidad propios de los sistemas dinámicos. El modelo de Hopfield resultó muy ilustrativo respecto a los

34_{M. Minsky et S. Pappert,}_{Perceptrons : une critique du connexionisme vers les sciences cognitives}_{, M.I.T. Press. 1988.} 0 0 1 1 0 1 0 1 0 1 1 0

mecanismos de almacenamiento y recuperación de la memoria. La claridad de presentación de dicho modelo, se convierte en un factor clave para persuadir a diversos científicos de todo el mundo a continuar la investigación de las Redes Neuronales Artificiales.

Así, Cohen y Grossberg desarrollan en 1983 el principio de la memoria direccional. Kohonen continua el trabajo de Anderson y desarrolla modelos de aprendizaje competitivo basados en el principio de inhibición lateral. Su principal aportación consiste en un procedimiento para conseguir que unidades físicamente adyacentes aprendieran a representar patrones de entrada similares. A partir de sus conocimientos fisiológicos, en 1987, Stephen Grossberg junto a Cohen, elabora un importante teorema sobre la estabilidad de las redes recurrentes, en términos de una función de energía. Al mismo tiempo, desarrolla su Teoría de Resonancia Adaptada (TRA), una arquitectura de red que se diferencia de todas las previamente inventadas por su capacidad de simular habilidades del cerebro como memoria a corto y largo plazo. Otros desarrollos destacables de esta década son la máquina de Boltzmann y los modelos BAM35

En 1986, gracias a las aportaciones de Hopfield, aparece el algoritmo de retropropagación, el cual ofrece una solución a los problemas planteados por Minsky y Pappert y extiende enormemente el campo de aplicación de los modelos de computación conexionistas. De esta manera, Rummelhart y McClelland fundan el PDP (Parallel Distributed Processing), un grupo dedicado al estudio del conocimiento, de donde surge la obra "Parallel Distributed Processing: Explorations in the Microstructures of Cognition", en la que se expone el modelo de retropropagación de Rummelhart y Hinton, el cual resolvía el problema de la asignación de créditos propuesto por Minsky, hecho que marcó el renacimiento de la redes neuronales, apareciendo diversos modelos, técnicas y campos de aplicación. Esta explosión e interés en el tema han perdurado hasta la actualidad, donde las RNA constituyen una de las herramientas matemáticas más utilizadas en la resolución de diversos problemas.

Fue precisamente el grupo de investigación PDP el que dio forma al Conexionismo, caracterizándolo por un conjunto de unidades de procesamiento, llamadas neuronas artificiales, interconectadas por pesos o valores de conexión, generando así sistemas de redes neurales artificiales. Cabe señalar que los sistemas conexionistas difieren del resto de los modelos en que no acuden al procesamiento serial, sino al procesamiento distribuido en paralelo, de manera análoga a cómo ocurre el procesamiento de información en el cerebro, por lo que el procesamiento no es simbólico sino subsimbólico; es decir, la información fluye de manera pluridireccional, en este sentido es que busca asemejarse a las conexiones sinápticas neuronales, de donde deriva la denominación de conexionismo36

Por otro lado, las estrategias formales del conexionismo se han fundamentado en la física estadística y comparten con el modelo simbólico la noción implícita de que los objetos y sucesos, las categorías y la lógica están dados, y que la naturaleza del trabajo cerebral consiste en procesar información sobre el mundo, mediante algoritmos que conduzcan a conclusiones o conductas deseadas37

. Un problema base presentado por los modelos conexionistas es su dificultad para realizar operaciones computacionales recursivas, representativas de la computación humana38

. Por lo que las facultades cognoscitivas humanas para el uso de información contextual semántica y pragmática, sobrepasa en gran medida la de cualquier computadora de las hasta ahora construidas.

35_{Smolensky P, Op. Cit. p.p. 36-41.}

36_{McClelland, J. L., Rummelhart, D. L., and the PDP research group . Parallel Distributed Processing: Explorations in the} microstructure of cognition (Vol.2). Psychological and biological models. Cambridge, MIT Press. England. 1986.

37_{Jramoi ,}_{Introducción a la Cibernética}_{, editorial Grijalbo, México, 1979, p.p. 113-119} 38_{Ibidem, p. 117}

Junto al declive del modelo conexionista, y después de un largo periodo de relativa inactividad, se ha dado un resurgimiento del interés en las redes neuronales; debido en gran parte, a la comprobación de la eficacia y versatilidad del modelo neuronal en la resolución de problemas del mundo real, así como en la realización de diversas tareas como la percepción, el reconocimiento de caracteres, memoria asociativa, aproximación de funciones lineales, predicción de series temporales, optimización, control adaptativo y aprendizaje, abriendo con ello grandes posibilidades de desarrollo a la Inteligencia Artificial.

In document Algunos modelos del sistema nervioso, sincronizacion y autoorganizacion hacia la zona critica en redes neuronales (página 71-77)