ALGORITMO DE APRENDIZAJE - LA MÁQUINA DH BOLTZMANN

3. LA MÁQUINA DH BOLTZMANN

4.3. ALGORITMO DE APRENDIZAJE

El presente proceso constituye la justificación matemática del algortimo

de aprendizaje utilizado en la Máquina de Boltzmann, cuya expresión es la siguiente:

Fase 1

la.

Asignar el patrón de entrenamiento a las unidades de entrada, y el patrón de la respuesta a las unidades de salida.

lb.

Dejar que la red evolucione hasta alcanzar la situación de equilibrio.

le.

Aumentar en una cantidad pequeña,

o,

el peso de la conexión entre todos los pares de unidades que se encuentren

simultáneamente activas en la situación de equilibrio.

Fase 2

2a.

Quitar el patrón de las unidades de salida, es decir, liberarlas, pero dejar el patrón en las unidades de entrada.

2b.

Dejar que la red funcione y llegue al equilibrio de nuevo.

2c.

Decrementar en la misma pequeña cantidad

o

el peso de la conexión entre t odos los pares de unidades que se

encuentren simultáneamente activas.

Estas dos fases deben repetirse tantas veces como sea necesario hasta que

se consiga que la red obtenga los valores adecuados de las unidades de salida en la

fase 2. Es decir, las fases se repiten hasta que la red es capaz de dar la respuesta correcta cuando funciona con las salidas libres.

Este algoritmo de aprendizaje tiene una clara relación con un proceso

estudiado por los invest igadores Crick y M i t chison [Crick, 1983] sobre e l funcionamiento del cerebro de los mamíferos. Su teoría presenta l o q u e ellos

denominan "desaprendizaje", un proceso de aprendizaje inverso que se produce en la

fase REM del sueño de los mamíferos. En esta fase se registra un estado de

excitación aleatoria en el cerebro, que le per m it e funcionar l i br e m e n t e ,

produciéndose modificaciones e n las sinapsis que disminuyen l a probabilidad d e los

estados ilegítimos. Cada fase del algortimo de aprendizaje simula un procedi m iento

diferente, la fase 1 sería el procedi miento de aprendi z aj e , y la fase 2 el procedi miento de "desaprendizaje" anteriormente descrito.

El comportamiento y la eficacia del algorit mo están determinadas por los

valores de los parámetros que intervienen en su formulación. Entre ellos hay que

destacar la importancia de 8 , que determina el tamaño de cada paso seguido en la minimización de

G.

También tiene gran importancia el valor de los tie mpos en los que se esti man los valores de las probabilidades Pij y

p 'ij·

La elección adecuada de estos valores no es fácil de realizar, y no existen prácticamente bases matemáticas que

permitan determinarlos. Por este motivo, los valores son elegidos en base a resultados

experimentales obtenidos mediante ensayo de diferentes valores concretos.

También existen problemas relacionados con la estimación de los valores

de P

ij

p ii,

ya que puede introducirse algún tipo de ruido en estas est i m aciones, llevando a pasos erróneos en la minimización del valor de

G.

Este efecto causado por el ruido puede, sin embargo, disminuirse utilizando un valor pequeño de 8 o también obteniendo las estimaciones de Pij y

p ij

mediante la recopilación de datos estadísticos durante un tiempo suficientemente grande.

Una forma de asegurar que la red se acerque sie mpre al estado de

equilibrio consiste en mantener los pesos de las uniones en valores pequeños.

Pearlmutter ha demostrado que el aprendizaje funciona mucho mejor si se hacen

disminuir constantemente los pesos, además de modificarlos mediante el algorit mo de

aprendizaje. Debe hacerse disminuir cada peso de forma continua hacia cero con una

velocidad proporcional al valor absoluto del peso. Este proceso hace que los pesos

tengan valores pequef\os y conduce a la red a una situación relativamente estable en

la que la velocidad de decrecimiento del valor de los pesos se equilibra con el valor de

la derivada parcial de

G

respecto a los pesos. De esta forma, el valor absoluto de cada peso mide la i mportancia de éste en la modelización de la estructura del entorno.

Sin e mbargo, el procedi miento de decrecimiento de pesos presenta ciertas

características no deseables. La obligación de mantener los pesos en valores pequeños

imposibilita a la red para conseguir mínimos de energía muy profundos. Esto significa

que la red comete una gran cantidad de errores graves en los casos en los que el·

entorno consta de vectores bastante parecidos, pero con probabilidades de aparición

muy diferentes. Además, en tales casos los errores son imposibles de evitar. Si no se

desea eliminar este proceso de disminución de los pesos, puede conseguirse que la red

funcione con un rendimiento mejor dejándola evolucionar con valores de temperatura

(T) más bajos. Si bien con ello se consiguen menos errores en la modelización, el

aprendizaje e mpeora significativamente debido a la dificultad para alcanzar el

equilibrio con valores pequeños del parámetro T.

En la experimentación con la Máquina de Boltzmann se encontró además

otro problema; el caso en que sólo son válidas cierto nú mero de combinaciones de las

unidades visibles, no teniendo vector de salida correspondiente el resto de ellas. En

este caso hay que suponer que los vectores que no se van a presentar t i enen

probabilidad de ocurrencia cero. Con la formulación dada para la M áquina de

Boltzmann es fácil comprobar que la única forma de que se asegure que ciertos

estados nunca van a darse, es que dichos estados tengan una energía infinitamente

grande. También es fácil darse cuenta de que para que un estado tenga energía

infinitamente grande, necesita que los valores de los pesos de las uniones sean

también infinitamente grandes.

La utilización de valores infinitamente grandes plant ea bast ant e s

problemas, por l o que hay que tratar d e evitar que aparezcan. Esto s e h a conseguido

con los denominados vectores de entrada "ruidosos". Estos vectores de entrada se

obtienen sometiendo los vectores correctos a un proceso en el que se modifica el

valor de alguno de sus elementos, pero la probabilidad de que esto ocurra es pequeña.

Si se mantiene el ruido en ciertos límites, los vectores serán los correctos la m ayoría

de las veces, pero sin embargo, es posible que aparezca cualquier combinación de

estados de las unidades de entrada, con lo que no es necesario el uso de valores

infinitamente grandes de los pesos de las uniones. Este método se ha utilizado en la

mayor parte de los ejemplos realizados por el equipo de Carnegie-Mellon, dando

buenos resultados. Sin e mbargo, parecen no estar totalmente satisfechos con su

funcionamiento, y continúan buscando otros métodos más adecuados.

In document Análisis y desarrollo de un sistema de aprendizaje en redes paralelas (página 58-62)