3. LA MÁQUINA DH BOLTZMANN
4.3. ALGORITMO DE APRENDIZAJE
El presente proceso constituye la justificación matemática del algortimo
de aprendizaje utilizado en la Máquina de Boltzmann, cuya expresión es la siguiente:
Fase 1
la.
Asignar el patrón de entrenamiento a las unidades de entrada, y el patrón de la respuesta a las unidades de salida.lb.
Dejar que la red evolucione hasta alcanzar la situación de equilibrio.le.
Aumentar en una cantidad pequeña,o,
el peso de la conexión entre todos los pares de unidades que se encuentrensimultáneamente activas en la situación de equilibrio.
Fase 2
2a.
Quitar el patrón de las unidades de salida, es decir, liberarlas, pero dejar el patrón en las unidades de entrada.2b.
Dejar que la red funcione y llegue al equilibrio de nuevo.2c.
Decrementar en la misma pequeña cantidado
el peso de la conexión entre t odos los pares de unidades que seencuentren simultáneamente activas.
Estas dos fases deben repetirse tantas veces como sea necesario hasta que
se consiga que la red obtenga los valores adecuados de las unidades de salida en la
fase 2. Es decir, las fases se repiten hasta que la red es capaz de dar la respuesta correcta cuando funciona con las salidas libres.
Este algoritmo de aprendizaje tiene una clara relación con un proceso
estudiado por los invest igadores Crick y M i t chison [Crick, 1983] sobre e l funcionamiento del cerebro de los mamíferos. Su teoría presenta l o q u e ellos
denominan "desaprendizaje", un proceso de aprendizaje inverso que se produce en la
fase REM del sueño de los mamíferos. En esta fase se registra un estado de
excitación aleatoria en el cerebro, que le per m it e funcionar l i br e m e n t e ,
produciéndose modificaciones e n las sinapsis que disminuyen l a probabilidad d e los
estados ilegítimos. Cada fase del algortimo de aprendizaje simula un procedi m iento
diferente, la fase 1 sería el procedi miento de aprendi z aj e , y la fase 2 el procedi miento de "desaprendizaje" anteriormente descrito.
El comportamiento y la eficacia del algorit mo están determinadas por los
valores de los parámetros que intervienen en su formulación. Entre ellos hay que
destacar la importancia de 8 , que determina el tamaño de cada paso seguido en la minimización de
G.
También tiene gran importancia el valor de los tie mpos en los que se esti man los valores de las probabilidades Pij yp 'ij·
La elección adecuada de estos valores no es fácil de realizar, y no existen prácticamente bases matemáticas quepermitan determinarlos. Por este motivo, los valores son elegidos en base a resultados
experimentales obtenidos mediante ensayo de diferentes valores concretos.
También existen problemas relacionados con la estimación de los valores
de P
ij
yp ii,
ya que puede introducirse algún tipo de ruido en estas est i m aciones, llevando a pasos erróneos en la minimización del valor deG.
Este efecto causado por el ruido puede, sin embargo, disminuirse utilizando un valor pequeño de 8 o también obteniendo las estimaciones de Pij yp ij
mediante la recopilación de datos estadísticos durante un tiempo suficientemente grande.Una forma de asegurar que la red se acerque sie mpre al estado de
equilibrio consiste en mantener los pesos de las uniones en valores pequeños.
Pearlmutter ha demostrado que el aprendizaje funciona mucho mejor si se hacen
disminuir constantemente los pesos, además de modificarlos mediante el algorit mo de
aprendizaje. Debe hacerse disminuir cada peso de forma continua hacia cero con una
velocidad proporcional al valor absoluto del peso. Este proceso hace que los pesos
tengan valores pequef\os y conduce a la red a una situación relativamente estable en
la que la velocidad de decrecimiento del valor de los pesos se equilibra con el valor de
la derivada parcial de
G
respecto a los pesos. De esta forma, el valor absoluto de cada peso mide la i mportancia de éste en la modelización de la estructura del entorno.Sin e mbargo, el procedi miento de decrecimiento de pesos presenta ciertas
características no deseables. La obligación de mantener los pesos en valores pequeños
imposibilita a la red para conseguir mínimos de energía muy profundos. Esto significa
que la red comete una gran cantidad de errores graves en los casos en los que el·
entorno consta de vectores bastante parecidos, pero con probabilidades de aparición
muy diferentes. Además, en tales casos los errores son imposibles de evitar. Si no se
desea eliminar este proceso de disminución de los pesos, puede conseguirse que la red
funcione con un rendimiento mejor dejándola evolucionar con valores de temperatura
(T) más bajos. Si bien con ello se consiguen menos errores en la modelización, el
aprendizaje e mpeora significativamente debido a la dificultad para alcanzar el
equilibrio con valores pequeños del parámetro T.
En la experimentación con la Máquina de Boltzmann se encontró además
otro problema; el caso en que sólo son válidas cierto nú mero de combinaciones de las
unidades visibles, no teniendo vector de salida correspondiente el resto de ellas. En
este caso hay que suponer que los vectores que no se van a presentar t i enen
probabilidad de ocurrencia cero. Con la formulación dada para la M áquina de
Boltzmann es fácil comprobar que la única forma de que se asegure que ciertos
estados nunca van a darse, es que dichos estados tengan una energía infinitamente
grande. También es fácil darse cuenta de que para que un estado tenga energía
infinitamente grande, necesita que los valores de los pesos de las uniones sean
también infinitamente grandes.
La utilización de valores infinitamente grandes plant ea bast ant e s
problemas, por l o que hay que tratar d e evitar que aparezcan. Esto s e h a conseguido
con los denominados vectores de entrada "ruidosos". Estos vectores de entrada se
obtienen sometiendo los vectores correctos a un proceso en el que se modifica el
valor de alguno de sus elementos, pero la probabilidad de que esto ocurra es pequeña.
Si se mantiene el ruido en ciertos límites, los vectores serán los correctos la m ayoría
de las veces, pero sin embargo, es posible que aparezca cualquier combinación de
estados de las unidades de entrada, con lo que no es necesario el uso de valores
infinitamente grandes de los pesos de las uniones. Este método se ha utilizado en la
mayor parte de los ejemplos realizados por el equipo de Carnegie-Mellon, dando
buenos resultados. Sin e mbargo, parecen no estar totalmente satisfechos con su
funcionamiento, y continúan buscando otros métodos más adecuados.