• No se han encontrado resultados

III.5 Aprendizaje reforzado

III.6.1 Redes de aprendizaje competitivo

Sin informaci´on disponible respecto a las salidas deseadas, el aprendizaje no super- visado actualiza los pesos s´olo en la base de los patrones de entrada. La red de apren- dizaje competitivo es un esquema popular para alcanzar ´este tipo de agrupamiento o clasificaci´on de datos no supervisada; La Figura 21 presenta un ejemplo. Todas la unidades de entrada iestan conectadas a todas las unidades de salida j con pesoswij. El n´umero de entradas es la dimensi´on de la entrada, mientras que el n´umero de salidas es igual al n´umero de grupos en que los datos ser´an divididos. Una posici´on del centro del grupo est´a especificada por el vector de peso conectado a la unidad de salida corre- spondiente. Por ejemplo la red en la Figura 21, los datos de entrada tri-dimensionales son divididos en cuatro grupos, y los centros de los grupos, denotados como los pesos, son actualizados v´ıa la regla de aprendizaje competitivo.

Unidades de

Entrada

Unidades de

Salida

W

X

X

X

W

11 34

1

2

3

4

1 2 3

Figura 21: Red de aprendizaje competitivo.

una unidad de salida j en general se supone que est´an normalizados. El valor de activaci´onaj de la unidad de salidaj es entonces calculado por el producto interno de los vectores de entrada y de peso:

aj = 3 X

i=1

xiwij = xTwj = wTjx. (40) A continuaci´on, la unidad de salida con la activaci´on m´as alta debe seleccionarse con el f´ın de realizar m´as procesamiento el cual est´a implicado en la competitividad. Asumiendo que la unidad de salida k tiene la activaci´on m´axima, los pesos dirigidos a ´esta unidad est´an actualizados de acuerdo a la regla competitiva o a la llamada regla de aprendizaje “el ganador toma todo” como sigue:

wk(t+ 1) =

wk(t) +η(x(t)wk(t)) kwk(t) +η(x(t)wk(t))k

. (41) El peso precedente de la f´ormula de actualizaci´on incluye una operaci´on de normal- izaci´on para asegurar que el peso actualizado es siempre de norma 1. Notablemente, s´olo los pesos de la salida ganadorak se actualizan y todos los dem´as pesos permanecen sin cambio.

La f´ormula de actualizaci´on en la Ecuaci´on (41) implementa un esquema secuencial para encontrar los centros de los grupos de un conjunto de datos del cual las entradas son de longitud igual a la unidad. Cuando una entrada x es presentada a la red, el vector peso m´as cercano a x gira hacia ´el. Consecuentemente, los vectores de peso se mueven hacia aquellas ´areas donde m´as entradas aparecen y eventualmente los vectores peso se vuelven los centros de los grupos para el conjunto de datos.

Usar la distancia Euclidiana como una medida de disimilitud es un esquema m´as general de aprendizaje competitivo en el cual la activaci´on de la unidad de salida j es

aj = Ã 3 X i=1 (xi−wij)2 !0.5 =kxwj k. (42)

Los pesos de la unidad de salida con la m´as peque˜na activaci´on son actualizados de acuerdo a

wk(t+ 1) = wk(t) +η(x(t)wk(t)). (43) En la ecuaci´on anterior, los pesos de la unidad ganadora se mueven hacia la entrada x. En ´este caso, ni los datos ni los pesos deben ser de longitud unidad.

Una red de aprendizaje competitivo realiza un proceso de agrupamiento en l´ınea sobre los patrones de entrada. Cuando el proceso est´a completo, los datos de entrada se dividen en grupos disjuntos tal que las similitudes entre individuos en el mismo grupo son m´as grandes que aquellas en grupos diferentes. Aqu´ı se introducen dos m´etricas de similitud: la medida de similitud del producto interno en la Ecuaci´on (40) y la medida de disimilitud de la distancia Euclideana en la Ecuaci´on (42). Obviamente, otras m´etricas pueden ser empleadas en su lugar, y diferentes selecciones llevan a diferentes resultados de agrupamiento. Cuando la distancia Euclideana es adoptada, puede ser probado que la f´ormula de actualizaci´on en la Ecuaci´on (43), es actualmente una versi´on en l´ınea del descenso de gradiente que minimiza la siguiente funci´on objetivo:

E =X p

kwf(xp)x(p)k

2, (44)

dondef(xp) es la neurona ganadora cuando la entrada xp es tomada y wf(xp) es el centro

de la clase a donde xp pertenece.

Una larga familia de algoritmos de agrupamiento por lote (o fuera de l´ınea) pueden ser utilizados para encontrar centros de grupos que minimicen la Ecuaci´on (44). Uno

de estos algoritmos es el agrupamiento K-medias.

Una limitaci´on del aprendizaje competitivo es que algunos de los vectores peso que son inicializados a valores aleatorios, pueden estar lejos de cualquier vector de entrada y, subsecuentemente, nunca consiguen actualizarse. Tal situaci´on puede ser prevenida inicializando los pesos a muestras de los mismos datos de entrada, de ese modo asegurando que todos los pesos se actualizen cuando todos los patrones de entrada son presentados. Una alternativa ser´ıa actualizar los pesos de ambas unidades las ganadoras y las perdedoras, pero empleando una tasa de aprendizaje significativamente m´as peque˜naη para las perdedoras. Esto es comunmente referido comoaprendizaje de goteo.

Cambiar din´amicamente la tasa de aprendizaje η en la f´ormula de actualizaci´on de pesos de las Ecuaciones (41) o (43) es generalmente lo deseado. Un valor grande inicial de η explora el espacio de datos ampliamente m´as tarde, un valor m´as peque˜no cada vez refina los pesos. La operaci´on es similar a la calendarizaci´on o al templado simulado. Por lo tanto, se utiliza una de las siguientes f´ormulas para cambiar η:

       η(t) = η0e−αt, with α >0, or η(t) = η0t−α, with α 1, or η(t) = η(1−αt), with 0< α <(max{t})1. (45)

El aprendizaje competitivo carece de la capacidad de agregar nuevos grupos cuando se considere necesario. Adem´as, si la tasa de aprendizaje η es constante, el apren- dizaje competitivo no garantiza estabilidad en la formaci´on de los grupos. La unidad ganadora que responde a un patr´on particular puede continuar cambiando durante el entrenamiento. Por otro lado, η, si decrece con el tiempo puede volverse muy peque˜na para actualizar los centros de los grupos cuando nuevos datos de una naturaleza difer- ente de probabilidad sean presentados. Carpenter y Grossberg , 1988, se refieren a

tal ocurrencia como dilema de estabilidad-plasticidad, el cual es com´un en el dise˜no de sistemas de aprendizaje inteligente. En general, un agente aprendiz (o sistema) deber´ıa serpl´astico, o adaptativo en reaccionar a ambientes cambiantes; mientras que, deber´ıa ser estable para preservar el conocimiento adquirido previamente.

Si las unidades de salida de un red de aprendizaje competitivo se arreglan de una manera geom´etrica (tal como en un vector uni-dimensional o un arreglo bi-dimensional), entonces se pueden actualizar los pesos de los ganadores tan bien como los de los vecinos perdedores.

Despu´es de que el aprendizaje competitivo termin´o; el espacio de entrada se divide en un n´umero de grupos disjuntos, cada uno de los cuales est´a representado por un centro de grupo. Estos centros de grupos son tambi´en conocidos como plantillas, vector referencia, o vector c´odigo. Para un vector entrada, se puede utilizar la correspondiente plantilla para representar el vector de entrada m´as que al vector en si mismo. Tal enfoque es llamado cuantizaci´on de vector y ha sido empleado para compresi´on de datos en procesamiento de im´agenes y sistemas de comunicaci´on.