• No se han encontrado resultados

Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales

N/A
N/A
Protected

Academic year: 2020

Share "Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales"

Copied!
95
0
0

Texto completo

(1)

Aproximación al aprendizaje humano basado en la teoría de redes neuronales artificiales

Presentado por: Julián Eduardo Arana M.

Proyecto de Grado

Asesor:

Ing. Mauricio Duque PhD.

Universidad de los Andes Facultad de Ingeniería

Departamento de Ingeniería Eléctrica y Electrónica Junio de 2006

(2)

TABLA DE CONTENIDOS

I. INTRODUCCIÓN... 4

II. CONTENIDO... 7

A.ELEMENTOS DE PSICOLOGÍA DEL APRENDIZAJE... 7

Aprendizaje funcional... 7

Memoria... 9

Memoria sensorial... 10

Memoria operante... 10

Memoria a largo plazo... 11

Memoria a mediano plazo... 12

Relación entre los tres tipos de memoria... 13

B.ELEMENTOS INTRODUCTORIOS A LA NEUROCIENCIA... 13

Sistemas Funcionales: El encéfalo... 14

Partes internas del Cerebro... 17

Organización de la corteza... 19

Mapas en la corteza... 20

Propiedad de Formación Topológica (Topological mapping property)... 21

Propiedad de Amplificación (Amplification property)... 21

Propiedad de categorización (Categoring property)... 22

La neurona... 22

Sinapsis... 25

Función del Soma... 27

Dinámica del cerebro... 27

Aprendizaje a nivel Neuronal... 29

C.ELEMENTOS INTRODUCTORIOS A LA TEORÍA DE REDES NEURONALES ARTIFICIALES... 31

El Perceptrón... 31

Perceptrón multinivel... 32

Aprendizaje... 35

Entrenamiento Supervisado del Perceptrón... 36

Entrenamiento supervisado del perceptrón multinivel... 37

Función XOR... 40

Algoritmos de poda... 40

Arquitectura dual de redes Multicapa... 41

Redes de Hopfield... 43

Funciones de Energía... 45

Redes de Hopfield Estocásticas... 47

Redes de Hopfield continuas... 48

Máquinas de Boltzman... 49

Técnicas de Aprendizaje no supervisado... 50

Mapas de Kohonen... 52

Campos neuronales auto-organizativos... 54

D.COMPARACIÓN ENTRE EL MODELO ARTIFICIAL Y LOS MODELOS BIOLÓGICOS... 58

Debates entre la psicología y la ciencia computacional... 59

Tercer nivel: El Hardware... 60

Serial vs. paralelo... 60

Unidades de procesamiento... 61

Constante de aprendizaje y recorte de neuronas... 62

Arquitecturas... 63

Modelo de condicionamiento clásico... 64

Modelo de la memoria... 66

¿Un modelo de la arquitectura del proceso de aprendizaje?... 70

Modelo del hipocampo... 72

(3)

Aprendizaje... 74

Elección de la red y tareas de alto nivel... 76

Representación... 77

Primer Nivel... 78

III. CONCLUSIONES Y COMENTARIOS FINALES... 80

IV. REFERENCIAS... 83

VI. TABLA DE ACRÓNIMOS Y SÍMBOLOS... 86

VI. ANEXOS... 88

ARTÍCULO... 88

I. INTRODUCCIÓN... 88

II. CONTENIDO ... 88

(4)

I. INTRODUCCIÓN

Desde el periodo antiguo (Grecia antigua) se ha intentado dar una explicación sobre la localización del centro nervioso de los animales, sobre como piensan, como sienten y como aprenden. Sin embargo, en los siglos XIX, XX se hecho bastantes estudios y se han logrado establecer teorías y puntos de partida que dan lugar a más teorías. (Gersenowies, 2000) No obstante, los estudios realizados no pueden considerarse pertenecientes a una sola rama de la ciencia, llámese psicología, filosofía, neurología, biología, química, etc., sino a un compendio de todas las ramas que se sostienen con teorías formuladas por ramas “hermanas” y que sirven para encontrar nuevos caminos y crear nuevos modelos que proporcionen una visión más amplia del funcionamiento del cerebro y su relación con los pensamientos, el aprendizaje, etc.

Gersenowies (2000) hace un recuento de los estudios más importantes que se han hecho con la intención de entender el funcionamiento de la corteza cerebral. Dentro de los estudios más importantes menciona a Santiago Ramón y Cajal quien en 1906 recibió el premio Nobel por haber propuesto que el funcionamiento del Sistema Nervioso estaba basado en células que unos años se denominarían Neuronas. A partir de ésta observación se intenta modelar una célula mediante un lenguaje matemático. Especialmente importantes fueron los modelos planteados por Churchland, Rosenblant y Widrow en los primeros años de la década de los 60’s1. En investigaciones posteriores se crean redes de varias de las neuronas modeladas anteriormente y surgen, así mismo, mecanismos que permiten enseñar a las redes determinadas tareas bajo aprendizaje supervisado y no supervisado. Surgen arquitecturas de redes neuronales y algoritmos que permiten simular el aprendizaje y el comportamiento de las redes de neuronas. El problema ahora no parece hacer parte de las ciencias “convencionales” que estudian el comportamiento humano y animal, sino de ciencias computacionales. Se da el nombre de Redes Neuronales al estudio de los procesos computacionales que

1 Bishop (1995) menciona, en una forma introductoria, las contribuciones de éstos investigadores en el modelo neuronal

(5)

realizan la tareas anteriormente descritas, y se enmarca dentro de un rama de la computación denominada Machine Learning A partir de los modelos, algoritmos, simulaciones, etc., surgen aplicaciones en varios otros campos como pronósticos financieros, automatización de procesos, reconocimiento de patrones, ayuda en el descubrimiento de enfermedades, entre otros. No obstante, también está en camino de contribuir a la investigación del aprendizaje humano y animal, complementando un poco las teorías psicológicas2 y complementando las investigaciones en neurología.

Existe una nueva ciencia denominada ciencia cognitiva que integra todas las disciplinas mencionadas anteriormente (psicología, filosofía, neurología, biología, ciencia computacional, entre otras) y cuya función es la investigación del proceso de aprendizaje humano sustentándose en las asignaturas mencionadas, pero especialmente, en lo que comúnmente se conoce como inteligencia artificial. En Diller (2006) se evidencia la dificultad existente para definir la ciencia cognitiva, existen diferentes puntos de vista que incluyen o no algunas disciplinas. De hecho Diller, a pesar de mencionar varias definiciones, prefiere arriesgarse a decir que lo importante de la nueva disciplina no es tanto definirla como multidisciplinaria o como disciplina, sino como la intención que tiene: entender como funciona la mente humana.

Éste documento pretende: 1) dar a conocer algunas teorías de aprendizaje desde el punto de vista psicológico; 2) conocer los sistemas funcionales del sistema nervioso central, su organización, sus métodos de intercambio de información, algunos modelos con los que se cuenta para su estudio desde el campo de la neurociencia; 3) recopilar brevemente la teoría de redes neuronales artificiales, dar a conocer algunas arquitecturas y algunos algoritmos y 4) hacer una comparación entre todas las disciplinas con la teoría computacional.

La distribución del texto se hace en el orden mencionado en el párrafo anterior. Existen tres secciones principales: introducción, contenido, y bibliografía. En la

2 Como mencionan Hardy & Jackson (1998)

(6)

segunda se desarrolla todo el tema en cuatro capítulos: En el primero se hace un breve recorrido por las teorías del aprendizaje desde el punto de vista de la psicología, en el segundo se describe la anatomía cerebral, en el tercero se describen los algoritmos y las arquitecturas desde el punto de vista de machine learning, y en el último se hace entre todas las disciplinas con la del aprendizaje artificial tratando de encontrar intersecciones y contradicciones.

(7)

II. CONTENIDO

A. Elementos de psicología del aprendizaje

Aprendizaje funcional

Los psicólogos distinguen dos categorías básicas de aprendizaje: no asociativo y asociativo. La diferencia básica entre los dos tipos de aprendizaje es el número de estímulos involucrados en el proceso de aprendizaje. En el aprendizaje no asociativo se involucra únicamente un estímulo, mientras que en el asociativo

pueden existir dos o más estímulos. El aprendizaje no asociativo es la forma más simple de aprendizaje.

Como se describe en Rosenzweig et al (1996, pp. 620-621), la categoría de aprendizaje no asociativo se divide en tres sub-clases denominadas:

1) Habituación: La respuesta al estímulo se va perdiendo debido a la repetición continua del estímulo y un estímulo del mismo tipo pero más intenso puede dar origen a la respuesta esperada después de la habituación. Usualmente la habituación tiene una duración bastante moderada. El individuo se habitúa al estímulo mientras éste este presente, pero si deja de presentarse durante un periodo de tiempo considerable, la habituación se pierde y el individuo vuelve a responder al estímulo como lo hacía antes de la habituación (ocurre lo que se denomina deshabituación).

2) Deshabituación: La magnitud de la respuesta a un estímulo crece debido a un estímulo fuerte. Se remueve la habituación que ha alcanzado el individuo.

3) Sensibilización: Es una deshabituación en la que nunca existió habituación, es decir, antes de la sensibilización la respuesta al estímulo era la respuesta que el individuo siempre tendría debido al estimulo. Después de la habituación dicha respuesta será mayor en magnitud.

(8)

En el aprendizaje asociativo se distinguen dos clases de aprendizaje que se describen muy bien en Hardy y Jackson (1998, pp. 17-48), así como en Clayton (2004, Capítulo 4). A continuación se describen las principales características del condicionamiento clásico y el condicionamiento operante, las dos subcategorías que conforman el aprendizaje asociativo:

1) Condicionamiento Clásico o Pavloviano: Se tiene un estímulo Incondicionado (EI) que produce una respuesta natural denominada Respuesta Incondicionada (RI). Mediante un emparejamiento con el EI se logra obtener una respuesta casi idéntica a RI con otro estímulo denominado Estímulo Condicionado (EC). De ésta manera es posible que un individuo asocie un estímulo que no produciría una RI, con un EI, respondiendo a EC de la misma forma que lo haría a EI. Un ejemplo de éste tipo de aprendizaje se da, como en el conocido caso de Pavlov, cuando un perro reacciona al sonido de una campana (EC) salivando (RC), pues asocia la comida (EI) con el sonido producido por la campana, debido a un entrenamiento anterior en donde se tocaba la campana y después de un muy corto periodo de tiempo se proporcionaba el alimento al animal. En el condicionamiento interviene el cerebelo (que, como veremos, se encarga de la respuesta involuntaria), sin embargo, para condicionamientos elaborados, tiene lugar el hipocampo (al que, como veremos, se le adjudica la función de memoria de corto plazo).

2) Condicionamiento Operante o Instrumental: En este tipo de condicionamiento se crea una asociación entre un comportamiento y una consecuencia. De ésta manera si un individuo tiene cierto comportamiento puede recibir un castigo o una recompensa. Después de algunos castigos o recompensas el individuo empieza a asociar su comportamiento con la consecuencia que éste trae. Éste tipo de condicionamiento es el utilizado en el entrenamiento de animales: inmediatamente después de realizar una acción correctamente, que ha sido propuesta por el entrenador, éste lo premia con comida o con caricias. El animal empieza entonces a asociar el comportamiento con el premio que recibe.

(9)

Existen otras teorías (teoría Gestalt) que involucran tanto los estímulos recibidos, como las experiencias que ha tenido el individuo, de éste manera no se aprende únicamente recibiendo estímulos sino recibiendo los estímulos analizándolos, comparándolos con situaciones vividas anteriormente y produciendo una respuesta y un aprendizaje nuevo con base a toda esa información (véase Clark, 1999). Éste tipo de aprendizaje involucra el conocimiento de conceptos aprendidos en un tiempo anterior y guardados en la memoria, mediante las conexiones de las neuronas del cerebro (más adelante se profundizará sobre la memorización neuronal). A continuación se describe un poco cuales son las teorías que explican el funcionamiento de la memoria.

Memoria

Un elemento importante que debe tenerse cuando se intenta descifrar lo complejo del aprendizaje y el contenido del procesamiento de la información es la memoria. La capacidad de mantener recuerdos de ciertas experiencias y de recuperarlos en un momento dado puede ser vital para la supervivencia de cualquier animal. (Rozensweig et. al, 1996)

En el estudio psicológico suelen nombrarse tres o cuatro clases de memoria: memoria sensorial, memoria operante o de corto plazo, memoria a mediano plazo y memoria a largo plazo.3 Cada una de ellas tiene diferentes funciones y se localiza en diferentes regiones del cerebro como se verá más adelante.

La siguiente explicación de cada una de las clases mencionadas se basa en los apuntes hechos por Hardy & Jackson (1998). En éste documento no se pretende entrar a discutir si existen o no las diferentes clases de memoria, sencillamente se aceptan como un modelo válido para alcanzar el objetivo propuesto, basados en la

3 Hay un excelente documento de Gardner sobre las múltiples memorias. “multiples intelligences” que deduce de la observación de personas con problemas mentales, la existencia de al menos 7 tipos de memoria. Es un trabajo muy controvertido. Comentario proporcionado por Mauricio Duque PhD.

(10)

experiencia alcanzada por algunos psicólogos en experimentos realizados (ver Hardy & Jackson, 1998).

Memoria sensorial

Se piensa que es un almacén de material totalmente desorganizado de la información que se recibe sensorialmente. Se podría pensar que es una copia “exacta” de la realidad en el sentido en que guarda la información más reciente que los elementos sensoriales han recibido. La información almacenada puede ser olvidada o retenida para el posterior procesamiento en la memoria operante. El tiempo que suele almacenar la información depende de los sentidos que reciban la información. Para la visión se retiene, en promedio 0.75s y para la audición 3.5s.

Para que un trozo de información específica sea lo suficientemente importante como para ser procesada por la memoria operante, es necesario prestar especial atención a ella. A partir de aquí parte un estudio psicológico conocido como

atención y otro conocido como reconocimiento de patrones Hardy y Jakcson (1996, 117-132).

La memoria sensorial se llevaría a cabo por estructuras neuronales en las áreas sensoriales del cerebro, como se indica más adelante.

Memoria operante

Éste tipo de memoria contiene información sobre la que se está pensando actualmente, ésta información se guarda el tiempo suficiente como para poder realizar acciones o tomar decisiones basados en ella.

El tiempo que dura la información es en promedio de 20s, lo que parece ser una ventaja pues, según comenta Hardy & Jackson (1998) libera la mente de abarrotamiento de información innecesaria. Si la información demanda un tiempo

(11)

mayor en memoria, se recurre a un buffer de repaso que es capaz de refrescar la memoria el tiempo que la información sea requerida.

La memoria operativa puede tomar información para procesarla desde la memoria sensorial y guardarla en la memoria o desde la memoria a largo plazo analizarla y guardar la nueva información en la memoria a largo plazo.

Memoria a largo plazo

La memoria a largo plazo es quizá el tipo de memoria más estudiado en el campo de la psicología. Con base en ella se desarrolla toda una teoría que incluye la codificación de la información en la memoria, el uso de ella como memoria implícita (en la que no somos conscientes de la información que procesamos) y memoria explícita (en la cual somos conscientes de la información que estamos procesando y por ende es necesario enviarla primero a la memoria operativa).

Dentro de las formas de codificación de la memoria se han planteado varios modelos que explicarían como la información se encuentra almacenada. El primero modelo que surgió sugería la existencia de jerarquías dentro de la memoria, en donde existían nodos superiores y subordinados. Éstos últimos heredaban las características más generales de un nivel superior y, adicionalmente, contaban con características propias que distinguían y diferenciaban nodos del mismo nivel. En la Fig. 1 se muestra un ejemplo de éste modelo. Existe una categoría principal en la que se encuentran Perros y Gatos que comparten características que le da el nodo “animales”. Cada uno de ellos tiene características propias que son heredados por nodos de nivel inferior.

Éste modelo evolucionó un poco y sirvió para describir el lenguaje y la forma en como comprendemos las palabras escritas en un texto como enseña Feldman (1990).

(12)

Fig. 14

Existe, sin embargo, un modelo conexionista de la codificación de la memoria que toma una forma de redes como en los modelos anteriores, pero no insinúa la existencia de jerarquías. Hardy & Jackson (1998, pp. 152) lo describen de la siguiente manera: “El conocimiento no está codificado en un <<lugar>> concreto por alguna <<cosa>>, sino que esta codificado mediante fuerzas de conexión, y el aprendizaje ocurre a través de la modificación de las conexiones”. Los autores mencionan, adicionalmente, que éste modelo es adaptable a una gran variedad de situaciones y que sirve para describir situaciones de percepción, memoria y habilidades motrices.

Memoria a mediano plazo

Éste tipo de memoria no suele ser muy mencionado en los libros y artículos sobre memoria, sin embargo está presente ya se como parte de la memoria a largo plazo o como una entidad individual a ésta última. La memoria a mediano plazo involucra recuerdos o ideas aprendidas que no son retenidos más de uno dos días, tales como el lugar en el que se parqueó el carro antes de llegar al supermercado ó el lugar en el que se dejaron las llaves la noche anterior. (Rosenzweig et al, 1996, pp. 624-627).

(13)

Relación entre los tres tipos de memoria

Basados en la discusión en Hardy & Jackson (1998, caps. 5-6) sobre la relación existente entre los tres tipos de memoria más importantes, explicamos a continuación el proceso que se lleva a cabo:

Un individuo puede captar un estímulo y almacenarlo en la memoria sensorial, allí el estimulo tiene dos opciones que son: la pérdida de la información del estímulo o el almacenamiento de éste en la memoria operativa. Éste último proceso se realiza mediante la atención o el reconocimiento de patrones.

Información almacenada en la memoria operativa puede ser olvidada, puede ser usada para producir una respuesta, puede ser “refrescada” para no olvidarla o puede ser codificada y enviada a la memoria de largo plazo. La información que reside en la memoria operativa puede venir de la memoria sensorial o de la memoria a largo plazo (cuando sea necesaria la recuperación de ésta información).

Finalmente, la memoria a largo plazo puede recibir la información de la memoria operante o enviarla a la memoria operante.

B. Elementos introductorios a la neurociencia

En el campo de investigación de la neurociencia se encuentran bien definidas algunas áreas de estudio que contribuyen al desarrollo teórico del funcionamiento del sistema nervioso. Dichos niveles, como los describe Perkel (1990) o Churchland et al. (1990), son los siguientes:

1) Biofísica y bioquímica de la membrana celular y del citoplasma celular de la neurona.

(14)

3) Procesos funcionales de la célula y procesos metabólicos. La neurona como un todo: propiedades eléctricas de la neurona, comportamiento de las salidas y las entradas, crecimiento, intercambio de proteínas, etc.

4) Pequeños circuitos de células nerviosas.

5) Circuitos de tamaño medio a gran tamaño.

6) Sistemas funcionales completos.

7) Sistema Nervioso Central.

8) Sistemas motores y sensoriales.

A fin de entender el funcionamiento básico del cerebro como preámbulo para la investigación que se pretende realizar, se realizará una breve descripción de los estudios realizados en cada área descrita, haciendo énfasis en los puntos 2), 4), 5) y cierta información del punto 3) pues es allí en donde se pueden hacer las comparaciones con las redes neuronales artificiales. Sin embargo es interesante comprender las partes más importantes del cerebro, así como sus funciones básicas puesto que van a ser nombradas en algunas ocasiones dentro del texto.

Sistemas Funcionales: El encéfalo

El encéfalo esta compuesto por tres partes principales que son denominadas cerebro, cerebelo y tallo cerebral. La Fig. 2 muestra el diagrama del encéfalo con sus componentes principales.

Como explica Valiant (1994, pp. 12) la labor de encontrar lugares precisos del cerebro que realicen tareas específicas es bastante desalentadora, debido a que en muchos casos las áreas que se han identificado resultan multifuncionales en el sentido en el que pueden tener además de la función, que se cree que es la principal, funciones compartidas con otros áreas cerebrales. Sin embargo, es importante darse la oportunidad de describir algunas funciones que se han adjudicado a la masa cerebral, con el fin de entender el modo de procesamiento

(15)

del cerebro. A continuación se resumen algunos comentarios hechos por National Institute of Neurological Disorders and Strokes [NINDS] (2001a) y por Lehr (2006) con respecto a las funciones principales de las partes más importantes del cerebro.

0. Tallo cerebral: Controla las funciones vitales principales como la respiración y el ritmo cardiaco.

1. Cerebelo: Encargado de los movimientos repetitivos (reflejos). Coordina movimientos voluntarios.

2. Cerebro: Fuente de las actividades intelectuales. Se llevan tareas de reconocimiento, pensamiento y memorización.

3. Lóbulos Frontales: Permiten guardar recuerdos e ideas por un periodo corto de tiempo y analizarlas y utilizarlas para responder en ciertas actividades diarias. Parecen ser los responsables de la memoria a corto plazo. Es en gran parte responsable de las funciones del lenguaje.

4. Área motora: Hace parte de los lóbulos frontales. Procesa los movimientos voluntarios.

5. Área de Broca: Hace parte de los lóbulos frontales. Responsable de expresar las ideas mediante palabras.

6. Lóbulos Parietales: Encargados de percibir las sensaciones. Interviene en procesos de lectura y de razonamiento aritmético. Permite la percepción del sentido del tacto. También proporciona el control de movimientos voluntarios y de manipulación de objetos. Integra diferentes sentidos con el fin de entender un concepto.

7. Áreas sensoriales: Hacen parte de los lóbulos parietales. Es aquí en donde se procesa la mayor cantidad de información sensorial.

8. Lóbulos Occipitales: Procesa información visual (específicamente de imágenes) y las relaciona con información almacenada en la memoria.

(16)

9. Lóbulos Temporales: Se encarga de recibir y procesar información proveniente de los oídos. También parece ser responsable de guardar y recuperar información en la memoria. Pueden integrar la información guardada en memoria. Adicionalmente sirve para la categorización de objetos.

Fig. 25

NINDS (2001a, pp. 6) describe también la corteza como una “capa que recubre el cerebro y el cerebelo” y agrega que “la mayor cantidad de información que se procesa en el cerebro se hace en la corteza”. El color de la corteza cerebral es gris “debido a que no existe una capa aislante que le da el color blanco a la mayor parte del cerebro” como describe NINDS (2001a). Valiant (1994) menciona que la materia blanca es la encargada de comunicar diferentes zonas del cerebro y que, de hecho, está compuesta en su mayor parte por los axones que atraviesan el cerebro. La materia gris, en contraste, es la zona en al que se encuentran los cuerpos de las neuronas y por tanto es el lugar en donde la mayor cantidad de la información es procesada.

Los sistemas completos (visuales, olfativos, gustativos, sensoriales, auditivos) se encuentran de alguna forma embebidos en el encéfalo. El sistema visual es, según Haken (2002), el sistema más estudiado. Los modelos con los que se cuenta son

(17)

estudiados por niveles de complejidad. Cada nivel cuenta con una red que realiza una tarea específica y en la que la información suele verse cada vez más especializada mientras se asciende en los niveles. Por ejemplo Hummel & Biederman (1992) muestran 7 capas, en las que la información es cada vez más especializada, en un modelo de reconocimiento de objetos en tres dimensiones. En la primera capa se reconocen los bordes de los objetos, en el segundo la información es separada en ejes, vértices y sombras; la tercera capa se ocupa de analizar aspectos geométricos de los objetos; la siguiente se encarga de analizar la relación que existe entre los atributos medidos en la capa anterior; en la capa 6 se reconstruyen las características en una imagen mental que se tiene sobre el objeto; y en la última se crea la imagen mental del objeto con las características que encontró la capa anterior.

Partes internas del Cerebro

Existen, en la parte interna del cerebro, otras partes que cumplen funciones importantes, especialmente en el aprendizaje y las emociones. En la Fig. 3 se observan las estructuras mencionadas. A continuación se hará, como en la sección anterior un breve resumen de sus funciones, basado en la publicación NINDS (2001a).

(18)

Fig. 36

10. Hipotálamo: Centro emocional, controla el flujo de adrenalina durante los momentos de tensión.

11. Tálamo: Es un intermediario entre la información que viaja desde el cerebro hasta la espina dorsal y viceversa.

12. Hipocampo: Es un indexador de memoria. Se encarga de buscar el lugar en el que la información debe ser almacenada a largo plazo y de recuperarla en el momento en el que sea requerida. En otras palabras su función principal es “establecer rápidamente conexiones…entre patrones” y lo logra mediante la presentación repetida de la información a la corteza cerebral. Al hipocampo se le atribuye la función de memorización7 a corto plazo o de memoria operativa que ya ha sido mencionada en la sección I del documento.

6 Imagen tomada de NINDS(2001) Sección The Inner brain.

7 Es muy importante aclarar que la palabra memorización no se refiere a la forma en como un computador almacena su información. Se debe entender que el proceso de memorizarción y en general de aprendizaje se da modificando las conexiones neuronales y éstas representan los conceptos aprendidos o los recuerdos “guardados”. Esta diferenciación se hará más clara en la sección C. Elementos introductiorios a las redes neuronales artificiales y en la sección en que se compara el modelo artificial con el cerebro, sección D Comparaciones entre el modelo artificial y los modelos biologicos.

(19)

Organización de la corteza

Hebb (1949), además de su planteamiento del aprendizaje Hebbiano, habla de arreglos de células que se activan simultáneamente y que pueden estar dispersas a lo largo de la masa cerebral, y que podrían constituir la percepción de una escena inmersa dentro de un contexto. Es decir, si se produce un estimulo visual, por ejemplo, la información recibida se podría procesar en diferentes lugares del cerebro en forma paralela, dando como resultado una comprensión de la situación presentada y no de casos aislados de la que forman parte de la situación. (Rosenzweig et al, 1996).

Adicionalmente a las divisiones que se han descrito en la sección anterior, la corteza cerebral está dividida fundamentalmente en dos partes según el número láminas horizontales de un área específica de la corteza; las divisiones son llamadas isocorteza (isocortex o homotyipical cortex) y allocorteza (allocortex o heterotypical cortex). La isocorteza se caracteriza por tener seis láminas, mientras que la allocorteza tiene un número variable de láminas. Valiant (1994) comenta que la isocorteza es en gran parte la encargada de los procesos de memorización (largo plazo) y aprendizaje. La allocorteza se encuentra en el hipocampo y en la corteza olfatoria, entre otras regiones.

Adicionalmente, Spitzer (1999, pp. 91-95), describe columnas (diferentes a las

capas mencionadas anteriormente, pues las columnas atraviesan

perpendicularmente las capas) de procesamiento de información encontradas en la corteza del cerebro de las que dice que pueden “ser recordadas como las más pequeñas unidades de procesamiento de la corteza”. Estas columnas parecen tener ciertas funciones específicas cuando algunas células son activadas.

Spitzer (1999) asegura que la organización en columnas supone la existencia de una unidad funcional (un grupo de células dentro de una columna) que es activada ante un estímulo único y concreto. No obstante, existen neuronas vecinas que son estimuladas también en menor medida pero no alcanzan a ser activadas. Este grupo de células vecinas pueden ser activadas por estímulos similares al que

(20)

activa la columna que contiene la unidad funcional, convirtiéndose ahora ésta en una columna vecina. La unidad funcional conecta neuronas inhibitorias que tienen como función no permitir la activación de células más lejanas. Tenemos entonces un estímulo que actúa localmente y solamente activa unas pocas neuronas de una región concreta del cerebro. En la Fig. 4 se observa una “unidad funcional de procesamiento de información”, como la llama Spitzer.

Fig. 4

Mapas en la corteza

Desde un punto de vista más amplio, la corteza puede verse dividida en estructuras que describen diferentes sistemas del cuerpo (sistemas visuales, sensoriales, olfativos) y que pueden estar constituidas de la manera como se explicó en la sección anterior.

El trazado de los mapas cerebrales se ha apoyado en pacientes con lesiones en algunas partes del cerebro. Al estar lesionadas algunas áreas, los psicólogos y neurólogos investigan qué funciones motoras, auditivas, visuales, del lenguaje, entre otras; ha perdido el paciente. Otra fuente de información es la investigación hecha con animales a los que se les extrae partes del cerebro o se les “desconectan” ciertas partes del cerebro.

A continuación se definen algunos conceptos para entender como se construye un mapa en la corteza. Para Amari (1990, pp. 267-268), un campo neuronal es “un trozo de tejido cortical de neuronas en el que muchas neuronas son continuamente organizadas”. El autor comenta que dependiendo de un estímulo ciertas neuronas

(21)

son excitadas como respuesta de ese estimulo y que esta característica puede ser vista como una representación interna del mundo exterior dentro del cerebro, organizado de acuerdo a la experiencia que tenga el individuo sobre el mundo exterior. Además define un mapa a nivel físico como una campo neuronal que representa el mundo exterior, o a nivel abstracto, como una representación localizada de señales recibidas (es decir de estímulos) del individuo.

Adicionalmente, Amari (1990) explica un modelo matemático de los mapas en la corteza y prueba rigurosamente la existencia de algunas propiedades que se le han asignado a dichos mapas. Más adelante, en la sección de redes neuronales artificiales, se dará una breve explicación de la matemática involucrada en el modelo, por ahora centrémonos en las propiedades de los mapas.

Propiedad de Formación Topológica (Topological mapping property)

La formación topológica hace referencia a la estructura física de los campos neuronales descritos anteriormente, sus conexiones inter-neuronales y su organización. Según Amari (1990) los arreglos físicos se “programan” genéticamente, sin embargo, comenta que la respuesta que dan los arreglos es bastante burda en los momentos más prematuros. El individuo debe, con base en su experiencia, refinar las conexiones de las neuronas que existen en el campo neuronal y las que conectan éste campo con otros campos (esto es: aprendizaje).

Propiedad de Amplificación (Amplification property)

Con base en la experiencia que tiene el individuo, las estructuras discutidas son capaces de mejorar sus conexiones para que se puedan adaptar mejor a las condiciones en las que se encuentra el individuo. Para tal fin, las estructuras dan un mayor espacio (físico) de procesamiento a los estímulos que se producen con más frecuencia.

La capacidad que el cerebro tiene para modificar sus conexiones de acuerdo a los estímulos presentados con mayor frecuencia se conoce con el nombre de auto-organización (self-organization) de los mapas. Amari (1990) describe la

(22)

auto-organización como la responsable de la afinación de las estructuras referidas anteriormente.

Propiedad de categorización (Categoring property)

La categorización se da al realizarse el proceso de auto-organización. Las neuronas se establecen de tal manera que la información con características similares se procesa en bloques del campo neuronal que son físicamente adyacentes (como se mencionaba en las estructuras de columnas).

Información sobre el estudio detallado de algunos mapas como la corteza visual o la corteza auditiva se consigue en Robinson (1990), Mead et al. (1990), Arbib (1990), Suga (1990), Yeshurun et al (1990), Bienenstock et al (1982), entre otros.

Estos mapas son relevantes para nuestra investigación pues en general no podemos decir que las neuronas actúan solas, sino en grupos como se ha visto en éste modelo. Las redes neuronales artificiales supone la activación de neuronas individuales.

La neurona

Dentro del sistema nervioso (SN) se encuentran varios tipos de células entre ellas la neuroglia y la neurona. La primera parece ser la encargada de facilitar las conexiones de las neuronas en el SN y de envolver el cerebro (Rosenzweig et al., 1996), la segunda, la neurona, es la encargada del procesamiento de la información en el cerebro (Rosenzweig et al., 1996). Valiant (1994) menciona que en la corteza cerebral residen los cuerpos de alrededor 1010 neuronas, aproximadamente. Spitzer, señala la dificultad existente al intentar entender la complejidad de la red neuronal del cerebro. Young (1985), quien ve el procesamiento de la información en el cerebro como un computador, opina que:

…los patrones de esas conexiones [entre neuronas] y los impulsos nerviosos que circulan en ellos de alguna manera constituyen los programas codificados del cerebro… Algunas partes funcionan rítmicamente, como en el programa de respiración… Algunos esperan listos hasta que se les necesite usar, como los que proporcionan el poder del entendimiento del habla y la respuesta [a lo que se entiende]. Young (1985)

(23)

Fig. 58

Las neuronas se componen de tres partes fundamentales denominadas dendritas, axones y soma (ó cuerpo de la célula). En la Fig. 5 se ilustra una de las formas más comunes de neurona ubicada en la neocorteza con sus partes más importantes.

Las dendritas son ramificaciones que se encargan de recolectar la información codificada en los impulsos eléctricos provenientes de los axones y de transferirla al soma; los axones, por el contrario, tienen como función enviar la información procesada por el soma a otras células nerviosas y el soma se encarga del procesamiento de la información recibida por las dendritas (más adelante se profundiza un poco sobre el procesamiento de la información que realiza el soma).

En la gran mayoría de neuronas existe una gran cantidad de dendritas que forman ramificaciones y son comúnmente llamadas ramas dendríticas. En dichas ramificaciones se encuentran las llamadas espinas dendríticas que son protuberancias en donde se lleva a cabo la unión entre la célula receptora y la célula emisora.

8

(24)

Como describe Rosenzweig et al (1996, pp. 37), existen diferentes formas de clasificar las neuronas de acuerdo a sus formas (multipolares, bipolares y monopolares), a su tamaño (grande y pequeño) y a su función (motoneuronas, neuronas sensoriales e interneuronas). Mas adelante Rosenzweig et al (1996, pp. 47) describe las diferencias entre lo que se denomina Sistema Nervioso Central y Sistema Nervioso Periférico, haciendo claro que las neuronas sensoriales y motoras forman parte del Periférico y las interneuronas forman parte (en su mayoría) del sistema nervioso Central.9

Las neuronas motoras “llevan su axón a músculos o glándulas, y su trabajo es hacer que los músculos se contraigan o hacer cambiar la actividad de las glándulas” (Rosenzweig et al., 1996, pp. 37). Las neuronas sensoriales “son afectadas directamente por el entorno” (Rosenzweig et al., 1996, pp. 37), y las interneuronas reciben señales de entrada y salida de otras neuronas, como comenta Rosenzweig et al. (1996).

Adicionalmente, existen tres estados eléctricos que se encuentran en una neurona. Los estados eléctricos son medidos entre la parte interior del cuerpo de la célula y la superficie exterior: el primero se conoce con el nombre de potencial de descanso (resting potential) que es el estado inactivo de la neurona es de aproximadamente -70µV; el segundo se denomina potencial de acción (action potential) que es el producido cuando ha sido activada por haber alcanzado el umbral de activación (véase la sección Función del soma), es de aproximadamente +40µV; y el último es designado mediante el nombre potencial post-sináptico local (local postsynaptic potential) que se debe a la activación de una neurona pre-sináptica, el valor que puede tener es variable dependiendo de la fuerza de conexión entre las dos neuronas y positivo o negativo dependiendo de la naturaleza de la neurona pre-sináptica (inhibitoria o excitatoria).

9 En el modelo multicapa de la teoría de Redes neuronales Artificiales se podrían modelar las neuronas motoras y sensoriales como las que se encuentran en las capas de entrada y de salida; y las interneuronas como las que se encuentran entre dichas capas.

(25)

Haken (2002, p. 3) señala que muchas de las neuronas que se encuentran en el cerebro no producen una respuesta binaria (dos estados posibles además del estado de reposo), sino que producen “trenes de pulsos individuales” y menciona que muchos investigadores creen que la sincronización de dichos pulsos entre las neuronas puede contener la codificación de la información en el cerebro.

Sinapsis

Como explica Rosenzweig et al (1996, pp. 41-42), la unión entre dos neuronas que hace posible su comunicación se denomina sinapsis. No existe un contacto físico entre los axones de una neurona y las dendritas de la siguiente, sino un vacío en el que son liberadas sustancias químicas (llamadas neurotransmisores) que excitan moléculas receptoras en las dendritas de la neurona receptora. Los neurotransmisores pueden excitar la neurona positiva o negativamente dependiendo de su composición química. Dependiendo del tipo de excitación las neuronas se pueden clasificar, además como excitatorias (si excitan la neurona post-sináptica positivamente) e inhibitorias (si excitan la neurona post-sináptica negativamente).

Además del vacío las otras dos etapas que forman parte de una sinapsis son la pre-sinapsis y la post-sinapsis que son los lugares de donde se desprenden los neurotransmisores, y en donde se reciben por medio de las moléculas receptoras, respectivamente.

En Rall & Segev (1990) se describen las características que hacen que una señal sea transmitida con un grado de atenuación desde el vacío de la sinapsis y la post-sinapsis (efectividad sináptica ó fuerza sináptica). Entre las características mencionadas están la frecuencia con que son liberados los neurotransmisores, la posición en la que la sinapsis se da con respecto al soma, las distancias que existen entre las diferentes sinapsis de la célula receptora, que vienen desde

(26)

diferentes axones o desde el mismo axón. También cuenta la forma geométrica de las espinas dendríticas, especialmente el área expuesta a la sinapsis.

Sin embargo, existen otros aspectos que intervienen en la fuerza de enlace en la sinapsis de la neurona. Como menciona Rosenzweig et al (1996, p. 643), la fortaleza en la unión de diferentes neuronas se puede dar por cambios químicos, modulados por la influencia de otras neuronas que tienen contacto cerca al axón de la neurona emisora, así como el número de moléculas receptoras en las

dendritas, la frecuencia de activación del axón, el área de contacto de la sinapsis.

La relación entre la cabeza de la espina dendrítica y la dendrita es no lineal como se propone demostrar Koch (1990). En su trabajo muestra un modelo comportamental dependiente del voltaje de entrada a la cabeza de la espina dendrítica. Así mismo, enseña un modelo de la contribución de una sinapsis dada dentro de una rama dendrítica a la neurona, la relación, que es una ecuación diferencial de primer orden dependiente del tiempo y la posición en la que se encuentra la espina dendrítica, se muestra a continuación tal y como es presentada en el documento original:

(

)

2 2

1

m j j

j

a m

V V V

c g E V

t r t r

∂ ∂

= − + −

∂ ∂

(1)

(27)

en donde ra es la resistencia, considerada constante del citoplasma de la célula, rm

es la resistencia de la membrana, cm la capacitancia de la membrana, gj

conductancia sináptica, Ej representan sinapsis inhibitorias o excitatorias (Ei o Ee

respectivamente). La ecuación es la expresión matemática del modelo circuital de la sinapsis presentado en la Fig. 6.

Función del Soma

En la literatura sobre el tema en general (Rosenzweig et al., 1996; Spitzer, 1999; Valiant, 1994 entre otros), la función adjudicada al soma (dentro del contexto de actividad neuronal, es decir, sin tener en cuenta condiciones de intercambio de proteínas, oxigenación, etc.) es la de tomar las entradas obtenidas en las ramas dendríticas y sumarlas de manera que se pueda dar un total que es comparado con un valor de umbral en donde se dispararía un pulso en el axón de la neurona. Sin embargo, como es mencionado en Koch (1990) varios han propuesto teóricamente y han demostrado experimentalmente que dicha linealidad no existe. No obstante Poggio & Torre (1981) demuestran que si las sinapsis se encuentran situadas a una distancia relativamente corta en la dendrita de la neurona, dicha linealidad se puede asumir con un error que es relativamente despreciable10.

Dinámica del cerebro11

Adicionalmente a las relaciones anteriores, Haken (2002) presenta una descripción detallada del comportamiento de las neuronas en la sinapsis y de las implicaciones que éste proceder tiene sobre una red de varias neuronas. Los modelos se basan (o al menos se presentan) utilizando observaciones del comportamiento de las

10 Aunque existen modelos más completos de la neurona, la tesis de un error despreciable se defiende diciendo que no es necesario conocer el sistema completamente para conocer las redes como un todo. Koch (1990) menciona que es casi como intentar simular el comportamiento de los electrones en un semiconductor para entender el comportamiento de un computador.

(28)

neuronas en el sistema visual. Presentarlo aquí en detalle sería una tarea demasiado tediosa, por lo que solamente se darán las bases del comportamiento.

En primer lugar, la forma en como se presenta la información a lo largo del axón de algunas neuronas no es una señal constante en el tiempo, justo después del disparo de la neurona, sino una señal de voltaje oscilatorio con frecuencia que depende de la función específica que cumpla la célula (los pesos de entrada de la neurona o, lo que es lo mismo, las conexiones entre las neuronas pre-sinápticas y la neurona que se estudia) y de los estímulos presentados en las dendritas de la neurona. Estas señales son definidas como impulsos presentados, en los modelos más simples, con una frecuencia constante.

La frecuencia de los impulsos y su amplitud liberan cierta cantidad de neurotransmisores en el axón de la neurona con el fin de comunicar la información codificada en los pulsos a las neuronas sinápticas. En la neurona post-sináptica la información (representada por la corriente generada en las dendritas) recibida es normalizada con los pesos de conexión y su magnitud depende directamente de la frecuencia de los impulsos y de su amplitud.

( )

(

)

post

post

d t

aP t F

dt

ψ

τ γψ

= − − + (2)

en donde P es la función que representa los picos presentes en el axón de la neurona pre-sináptica, F es ruido presente en las dendritas, a es la amplitud (que por ahora se supone constante para todos los pulsos), ψpost es la corriente

generada en los axones de la neurona post-sináptica y γ es la constante de decaimiento de la corriente propia de la neurona. Básicamente la ecuación describe una corriente que decrece exponencialmente con el tiempo cuando un pulso es generado en el tiempo τ.

Un problema que surge cuando se discute un modelo como el presentado por Haken (2002) es que para poder activar una neurona post-sináptica, las neuronas pre-sinápticas deben ser disparadas en tiempos casi simultáneos, pues de no ser de ésta manera la contribución de una neurona sola no podría alcanzar el nivel de

(29)

disparo requerido y la neurona post-sináptica no produciría una señal de salida. Éste tipo de planteamientos sugiere una codificación de la información más completa que la codificación que se supone en el modelo básico de la neurona y en la teoría de redes neuronales artificiales clásica.

Aprendizaje a nivel Neuronal

La base del aprendizaje neuronal reside en la posibilidad de modificar la fuerza sináptica. Al modificar las conexiones entre las neuronas es posible obtener diferentes resultados en la respuesta de la red neuronal.

De ésta manera, para que una red neuronal tenga la capacidad de aprender, debe ser hábil para poder modificar sus sinapsis. Entre las posibilidades que existen de modificar la sinapsis se encuentran cambios químicos, incremento de las moléculas receptoras, cambios en la frecuencia de la señal enviada por el axón, cambios estructurales en la espina dendrítica, así como un cambio en el área de contacto de la sinapsis y la instauración de nuevas conexiones entre neuronas, de la misma manera pueden surgir reemplazos de caminos existentes por otras conexiones (Rosenzweig et al., 1996). La anterior propuesta teórica ha sido sustentada mediante experimentos con mamíferos, aves y otros animales, como comenta Rosenzweig et. al (1996), él cita los siguientes autores: Rosenzweig et al (1961), Bennet et al. (1964), Renner & Rosenzweig (1987), Rosenzweig (1984), Hubel & Wiesel (1965), entre otros y estudios de Greenough &Volkmar (1973) Volkmar & Greenough (1972)

En otros estudios, ha sido posible detectar cambios electrofisiológicos, químicos y anatómicos en el cerebro debido a una actividad que el individuo debe aprender (aprendizaje asociativo y no asociativo). En Rosenzweig et al (1996, pp. 650-670) se comentan algunas observaciones y experimentos realizados.

El estudio se ha hecho en su mayoría con animales invertebrados debido a la simplicidad de su Sistema Nervioso. Los resultados encontrados han sido, entre otros, un aumento en el peso del cerebro después del entrenamiento, lo que

(30)

sugiere un crecimiento del número de dendritas que posee una neurona y por lo tanto un mayor número de conexiones posible entre neuronas. Siguiendo los resultados observados se han desarrollado modelos de circuitos neuronales que indican la forma en que se realizan los procesos de sensibilización, habituación, deshabituación y condicionamiento de animales invertebrados -en Rosenzweig et al (1996, pp. 655-670) se evalúan ejemplos con Drosophila y Aplysia, animales invertebrados. En los estudios se presentan los mecanismos por medio de los cuales dichos animales presentan habituación y sensibilización de término corto y de término largo.

Hebb (1949) propone que los cambios se pueden dar cuando la neurona pre-sináptica excita en ocasiones repetidas la neurona post-pre-sináptica (ésta hipótesis es conocida como aprendizaje Hebbiano o Regla Hebbiana en la literatura científica). Hebb (1949) añade la hipótesis del trazo doble en la que establece que durante el aprendizaje se lleva a cabo una actividad neuronal en uno o diversos circuitos neuronales que permite guardar información por un periodo de tiempo corto y es lo que los psicólogos reconocen como memoria a corto plazo. Si la actividad es lo suficientemente fuerte, puede dar paso a una modificación en las conexiones neuronales, lo que significaría memoria a largo plazo.

Existe una fuerte teoría sobre el aprendizaje a nivel neuronal, aunque con bastantes críticas, denominada LTP (Long-Term Potentiation). Básicamente consiste en la activación simultánea de dos estímulos en una misma neurona sincrónicamente. Como se describe en Spitzer (1999, pp. 42-45), existen dos estímulos A y B. A es un estímulo que por si solo no causa ninguna respuesta en la neurona (o es una respuesta muy débil) y B es un estímulo que causa una buena respuesta de la neurona. Si los estímulos A y B son presentados simultáneamente la neurona responde de la misma manera que lo haría si estuviera estimulada únicamente por B. El aprendizaje se da después de éste estímulo simultáneo; la neurona es activada indiferentemente por cualquiera de los dos estímulos independientemente. Como comenta Ronsezweig et al (1994, pp. 670) el LTP puede durar desde horas días y hasta semanas. El funcionamiento del LTP ha sido

(31)

probado en el hipocampo. Sin embargo no ha habido pruebas contundentes que demuestren que este tipo de aprendizaje se de en otras partes del cerebro como, por ejemplo, la corteza, según comenta Spìtzer (1999).

C. Elementos introductorios a la teoría de redes neuronales artificiales.

El Perceptrón

El modelo básico de una neurona, planteado por McCulloc y Pitts (1943) y estudiado por Rosenblant (1962) quien lo denominó Perceptrón es, básicamente, la suma de “n” señales “xk” ponderadas con una constante (comúnmente

denominada peso) “wk” (con valores de k desde 1 hasta n). El resultado de esa

suma se hace pasar por una función de activación que se dispara si la suma anterior pasa un valor de umbral previamente establecido. Como ayuda visual podríamos ver el perceptrón como se muestra en la Fig. 7. La ecuación que describe al perceptrón es:

( ) ( o)

y x =g wx+w (3)

En dondewes el vector de pesos de tamaño n, xes el vector de señales de entrada en un momento específico wo corresponde a una entrada adicional (con

valor 1) denominada bias (la interpretación para éste bias puede ser profundizada en Bishop (1995, pp. 78)). Finalmente g(.) es la función de activación que típicamente tiene la forma de un paso como se describe a continuación:

1 0

( )

1 0

si a g a

si a − < 

= 

(32)

Fig. 7

Perceptrón multinivel

La arquitectura presentada a continuación es capaz de aproximar cualquier función matemática. Es muy utilizada para reconocer patrones y predecir eventos futuros con base en información de eventos pasados.

Una red neuronal multinivel o perceptrón multinivel, es un conjunto de perceptrones “con conexiones desde cualquier unidad en una capa a todas las unidades de las capas siguientes, pero sin ninguna otra conexión permitida” (Bishop, 1995, pp. 117). Un ejemplo de un perceptrón multinivel es mostrado en Fig. 8.

En la Fig. 8 se puede ver un ejemplo de un perceptrón multinivel de tres capas (ó niveles). Se pueden distinguir 11 perceptrones marcados desde N1 hasta N11. A la primera capa entran n señales x1…xn y cada perceptrón de la una capa anterior

está relacionado con una entrada de la siguiente capa. Las cuatro salidas de la red (y1, y2, y3, y4) corresponden a las salidas de los perceptrones de la capa 3. Así

como en las entradas del perceptrón multinivel tenemos un vector de pesos para cada entrada y cada perceptrón independientemente, existen vectores de pesos en las conexiones entre perceptrón de diferentes capas.

(33)

Fig. 8

Es importante anotar que en el denominado perceptrón multinivel son permitidos diferentes tipos de funciones de activación, especialmente para las capas escondidas (capas que no corresponden a la salida de la red). En la mayoría de casos los perceptrones de las capas escondidas tienen funciones de activación sigmoidales del tipo:

1

1 ( )

1 exp( 2 )

g a

a

β

=

+ − (5)

ó,

( )

( )

2 tanh

g a = βa (6)

En donde β es una constante que por ahora asumiremos tiene valor β=1/2. La diferencia entre ambas funciones está dada por g2(βa)=2 ( ) 1g a1 − . Una

comparación entre las dos funciones se puede ver en la Fig. 9. Nótese que la forma de ambas funciones es exactamente la misma, el cambio está en que la primera función tiene su valor mínimo en 0, mientras que la segunda lo alcanza en -1.

(34)

Fig. 9

De la constante β va a depender la rapidez con la que la función alcance los extremos. (Véase Fig. 10). A medida que β→ ∞la forma de la función es más parecida a la función de activación del Perceptrón (ver (4))

Fig. 10

Como lo describe Bishop (1995, pp. 121-122, pp. 226-228), la razón para que éstas funciones de activación sean diferentes es que cumplen diferentes funciones dentro de la red. Biológicamente pueden representar “…fuerzas variables en el disparo de la neurona, retrasos en la sinapsis, fluctuación aleatorias de los transmisores de liberación en vesículas discretas, entre otras. Éstos efectos se pueden pensar como ruido…” como lo describe Hertz et al. (1991). Más adelante se presentará la forma en la que afecta el ruido a las Redes de Hopfield.

(35)

Aprendizaje

Según Valiant (1999, pp. 38-40) existen dos dicotomías básicas en el aprendizaje, la primera: memorización y aprendizaje inductivo, y la segunda: aprendizaje supervisado y aprendizaje no supervisado. La primera de ellas la describe como:

La memorización es simplemente el almacenamiento de alguna información que es explícitamente presentada o internamente deducida… La segunda noción, aprendizaje inductivo, la definimos esencialmente negativamente, como cualquier forma de obtención de información en donde la información adquirida no está explícitamente dada o necesariamente implícita por la que se da explícitamente. (Valiant, 1999, pp. 38).

La diferencia entre el aprendizaje supervisado y no supervisado es descrita por el mismo autor de la siguiente manera:

En el caso de aprendizaje supervisado, la información que describe cada ejemplo es acompañada por información de un segundo tipo llamada etiqueta. La etiqueta puede ser dada por un instructor o deducida por algún proceso interno por el aprendiz…. En el caso de aprendizaje no supervisado, por otro lado, solamente se presenta la información que describe los ejemplos, sin ningún comentario adicional. (Valiant, 1999, pp. 38).

Adicionalmente, es posible distinguir dos tipos de aprendizaje supervisado: el aprendizaje por refuerzo, en donde el aprendiz obtiene como “realimentación si la respuesta que dio a una entrada específica es correcta o no” (Hertz et al., 1991, pp. 10), es decir, simplemente se presenta la respuesta a una entrada y el aprendizaje supervisado común, en donde el aprendiz conoce durante el proceso de aprendizaje, ejemplos de las respuestas deseadas.

El aprendizaje de las redes neuronales artificiales, se basa en la actualización de los pesos de acuerdo a las entradas de cada perceptrón. Éste proceso se conoce comúnmente como entrenamiento y, en sus aplicaciones más comunes el entrenamiento es supervisado.

Lo que la red conoce, está implícitamente guardado en la configuración de los pesos de las conexiones entre ellas. La red es simplemente un sistema que relaciona entradas con salidas. Los pesos juegan un papel muy importante pues ellos dan la relación de entrada-salid del sistema. La red como tal no guarda

(36)

información como se podría pensar desde el punto de vista computacional en donde la información se encuentra almacenada y se busca mediante un indexador que busca una posición de memoria en la que pueda guardar información o extraerla. Más adelante, en la sección de redes de Hopfield y mapas de Kohonen se extiende ésta información.

Entrenamiento Supervisado del Perceptrón

Para entrenar un Perceptrón suponemos un conjunto de datos de entrenamiento etiquetado. Los datos pueden pertenecer a dos clases en cuyo caso las podremos diferenciar por un valor 0 ó 1 (en algunos casos como -1 o +1) dependiendo de la clase.

Con base al conjunto de datos de entrenamiento es posible calcular un error conocido como el criterio del Perceptrón (Bishop, 1995), que consiste en contar el número de puntos mal clasificados por el perceptrón (en el estado actual), multiplicados por el vector de pesos.

El compromiso del algoritmo es la minimización de dicho error. El algoritmo propuesto en Bishop (1995, pp. 100) consiste en utilizar el método de optimización

gradient descent:

( 1) ( ) n n

j j j

wτ+ =wτ +ηx t (7)

En donde tn es la etiqueta correspondiente a la entrada particular n

x (con valores posibles +1 y -1) y n identifica un elemento particular del conjunto de entrenamiento. La constante η se denomina tasa de aprendizaje, que suele tener un valor pequeño y en algunos algoritmos se asume que decrece con el tiempo (ésta propiedad de decrecimiento será importante cuando se haga la comparación entre los modelos artificial y las observaciones en el campo biológico). La expresión n n

j

(37)

peso wj, por lo que está midiendo que tanto afecta ese peso específico en el error y

de esa manera corrige el peso en menor o mayor medida.

Éste algoritmo converge a una solución, para un número finito de pasos solamente si los datos son linealmente separables. Si no es el caso, el algoritmo se quedaría iterando infinitamente a menos que se permita cierto error en la actualización de los pesos como un criterio de parada para el algoritmo. Sin embargo el valor encontrado con éste criterio de parada puede no acercarse mucho al valor óptimo que puede separar los datos linealmente.

Existe un algoritmo más eficiente que el perceptrón denominado perceptrón con bolsillo que consiste en guardar el error más pequeño hasta el momento y la configuración de pesos que lo producen. Luego de un número de iteraciones pre-establecido o de algún criterio de error de parada, se toman éstos pesos como los óptimos para producir el menor de generalización. Para un estudio más profundo léase Bishop (1995, pp. 354-357) y/o Gallant (1990).

Entrenamiento supervisado del perceptrón multinivel

El proceso de actualización de los pesos en un Perceptrón multinivel es mucho más complejo que en el caso anterior, puesto que no es tan sencillo encontrar la relación entre el error de salida y los pesos, específicamente los de las capas internas. Existe un algoritmo denominado Back-Propagation (Rumelhart et al., 1986) que calcula dichas relaciones y actualiza los pesos.

El algoritmo se lleva a cabo en dos partes. En la primera parte, llamada forward propagation, se hace pasar una de las entradas etiquetadas hasta que se obtiene a la salida de la red la respuesta para la señal.

Durante la segunda etapa se calcula la relación que existe entre el error y los pesos, con el fin de modificarlos para minimizar el error. Por facilidad suponemos

(38)

un ejemplo sencillo de una capa escondida con tres neuronas en la capa escondida y una en la capa de salida, como se muestra en la Fig. 11.

Fig. 11

A continuación se definen los elementos que se muestran en la Fig. 11 y que servirán como apoyo para explicar el proceso que se lleva a cabo en el algoritmo:

- yk: Salida de la red. El subíndice k indica sugiere la posibilidad de más de una

salida de la red.

- ak : Es la suma de las entradas ponderadas por los pesos de la neurona de la

capa de salida.

- wj: Peso j de la neurona de la capa de salida.

- yj: Salida de la neurona j de la capa escondida.

- aj: Suma de las entradas de la neurona j de la capa escondida ponderadas por

los pesos de dicha neurona.

- wij: Pesos correspondientes a la entrada i de la neurona j de la capa de

entrada.

- En: Será el error producido por una entrada xn específica a la red. Éste error se calcula con base en los datos de entrenamiento.

(39)

Podemos deducir la contribución al error de cada uno de los pesos de la capa escondida, apoyándonos en la regla de la cadena, de la siguiente manera:

n

j

k k k

ij k k k j ij

a y a w

E E

w y a w a w

∂ ∂ ∂ ∂

∂ ∂

=

∂ ∂ ∂ ∂ ∂ ∂ (8)

Es fácil obtener el valor del primer término en (8) pues el error es calculado en términos de la salida, además suele ser una función cuadrática fácilmente derivable, véase Bishop (1995, pp. 194-198).

Sobre el segundo término sabemos que depende exclusivamente de la forma que tome la función de activación para ésta neurona. En éste punto es importante aclarar que, en términos computacionales, es más fácil calcular la derivada de una función sigmoidal como en (5) ó (6), que de una función paso como en (4).

El tercer término es fácil de calcular pues sabemos que:

k j k

k

a =

y w (9)

en donde yj corresponde a la salida de la neurona j en la capa escondida y wk es el

peso de la entrada k a la neurona de la capa de salida. De (9) podemos observar que la dependencia de ak en términos de wk es lineal y como consecuencia el tercer término de (8) es fácilmente calculable.

Para el cuarto término tenemos el mismo caso que en el segundo término con la excepción de que no todas las relaciones entre wk y aj existen por lo que sus

derivadas toman el valor de 0.

Finalmente el último término se calcula de la misma manera que el tercer término.

Ahora que es posible calcular todos los términos de la expresión (8) el algoritmo puede actualizar los pesos de la red de una manera parecida a como lo haría el algoritmo del Perceptrón. Para describir el procedimiento definamos dos términos que facilitarán la escritura matemática de la actualización:

(40)

δj y δk: Se llamarán errores y se definen mediante las siguientes relaciones:

n

k k

k k k

n

k k

j k

j k j

y

dE E

da y a

a w E

a w a

δ δ δ ∂ ∂ = = ∂ ∂ ∂ ∂ ∂ = = ∂ ∂ ∂ (10)

El algoritmo de actualización debe entonces modificar los pesos de acuerdo a:

ij j i

k k j

w x

w y

ηδ ηδ

∆ = −

∆ = − (11)

Teniendo éstas definiciones podemos modificar (10) para el caso de la capa de salida de la siguiente manera:

( )

' n k k k E g a y

δ = ∂

∂ (12)

Explicaciones más detalladas y variaciones de Back-Propagation en Bishop (1995, pp. 117-163) y/o Hertz et al. (1991, pp. 115-163) y/o Haykin (1994, pp. 185-201).

Función XOR

Cuando se creó el modelo del perceptrón se tenía la restricción de no poder realizar sino una función lógica AND y esto limitaba la capacidad computacional de las neuronas individuales. Sin embargo, cuando se construyeron redes multicapa fue posible, no solamente implementar la función AND, sino también la XOR. Es bien conocido que con base a estas dos funciones es posible implementar cualquier otra función lógica, por lo que el poder computacional de las redes multicapa se ve altamente incrementado. Bishop (Bishop, 1995, pp. 86,104; Spitzer, 1999, pp.116).

Algoritmos de poda

Existen algunos otros algoritmos que permiten afinar un poco la respuesta de las redes multicapa presentadas hasta ahora. Algunos métodos se mencionan en

(41)

Bishop (1991, pp. 353-364) y se conocen mediante los nombre de pruning (poda) y

growing (crecimiento). El primero consiste básicamente en la eliminación de las conexiones de algunas neuronas, tratando de minimizar el error de la respuesta de

la red. El segundo es el caso contrario: se parte de unas pocas neuronas y se van

creando conexiones poco a poco entre ellas, luego se agregan más neuronas, y

así suscesivamente.

Arquitectura dual de redes Multicapa

La implementación del algoritmo de Back-propagation es bastante lenta y tediosa, por lo que no parece ser posible que el aprendizaje, biológicamente hablando, se posible llevarse a cabo de ésta manera. Sin embargo, Zipser et al (1990, pp. 197-199) han propuesto una arquitectura-mixta que tendría una mayor aproximación al caso biológico y que utiliza la arquitectura de red multicapa manifestada anteriormente. La técnica consiste, básicamente, en utilizar dos redes: una red cuya función sería recibir la información, procesarla y brindar una salida tal y como se hace en el proceso de forward propagation, la arquitectura es exactamente la misma que la mostrada en la sección de redes neuronales multicapa; la otra tendría la tarea de modificar los pesos y su arquitectura sería un tanto similar, aunque en lugar de hacer los cálculos que realizaría el perceptrón, calcularía los valores de (10) para todas las neuronas (su tarea es realizar el cálculo de los valores de los errores que antes deducía el algoritmo de back-propagation). Finalmente, cada neurona sería capaz de “auto-modificar” sus pesos con base en la información recibida por la segunda red de propagación inversa. Sin embargo, es justo anotar que la segunda red lleva a cabo cálculos un poco más complejos que los realizados por el modelo de la neurona (por ejemplo la multiplicación de señales de entrada). Adicionalmente, la última red mencionada, no cuenta con una función de activación sigmoidal sino lineal.

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

El nuevo Decreto reforzaba el poder militar al asumir el Comandante General del Reino Tserclaes de Tilly todos los poderes –militar, político, económico y gubernativo–; ampliaba

No había pasado un día desde mi solemne entrada cuando, para que el recuerdo me sirviera de advertencia, alguien se encargó de decirme que sobre aquellas losas habían rodado

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

De hecho, este sometimiento periódico al voto, esta decisión periódica de los electores sobre la gestión ha sido uno de los componentes teóricos más interesantes de la

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)