• No se han encontrado resultados

El Perceptr ´on Multicapa

El Perceptr ´on Multicapa es capaz de actuar como un aproximador universal de funciones. Esta propiedad convierte a las redes perceptr ´on multicapa en herramien- tas de prop ´osito general, flexibles y no lineales.

Rumelhart et al. (1986) formalizaron un m ´etodo para que una red del tipo per- ceptr ´on multicapa aprendiera la asociaci ´on que existe entre un conjunto de patrones de entrada y sus salidas correspondientes: m ´etodo backpropagation error (propa- gaci ´on del error hacia atr ´as).

Una red con backpropagation, conteniendo al menos una capa oculta con sufi- cientes unidades no lineales, puede aproximar cualquier tipo de funci ´on o relaci ´on continua entre un grupo de variables de entrada y salida.

Esta red tiene la capacidad de generalizaci ´on: facilidad de dar estimaciones co- rrectas de observaciones que no han sido incluidas en la fase de entrenamiento.

CURSO DE EXPERTOS U.C.M. (2012)

Arquitectura

Un perceptr ´on multicapa est ´a compuesto por una capa de entrada, una capa de salida y una o m ´as capas ocultas; aunque se ha demostrado que para la mayor´ıa de problemas bastar ´a con una sola capa oculta. En la figura siguiente se puede observar un perceptr ´on t´ıpico formado por una capa de entrada, una capa oculta y una de salida.

CURSO DE EXPERTOS U.C.M. (2012)

Las conexiones entre neuronas son siempre hacia delante: las conexiones van desde las neuronas de una determinada capa hacia las neuronas de la siguiente ca- pa; no hay conexiones laterales ni conexiones hacia atr ´as. Por tanto, la informaci ´on siempre se transmite desde la capa de entrada hacia la capa de salida.

Como notaci ´on se denomina wji al peso de conexi ´on entre la neurona de entrada

i y la neurona oculta j, y vkj al peso de conexi ´on entre la neurona oculta j y la

Algoritmo backpropagation

Se considera una etapa de funcionamiento donde se presenta un patr ´on de en- trada y ´este se transmite a trav ´es de las sucesivas capas de neuronas hasta obtener una salida. Despu ´es, hay una etapa de entrenamiento o aprendizaje donde se mo- difican los pesos de la red de manera que coincida la salida objetivo con la salida obtenida por la red.

CURSO DE EXPERTOS U.C.M. (2012)

Etapa de funcionamiento

Cuando se presenta un patr ´on p de entrada Xp: xp1, . . . , xpi, . . . , xpN, ´este se trans- mite a trav ´es de los pesos wji desde la capa de entrada hacia la capa oculta. Las

neuronas de esta capa intermedia transforman las se ˜nales recibidas mediante la aplicaci ´on de una funci ´on de activaci ´on proporcionando, de este modo, un valor de salida. Este se transmite a trav ´es de los pesos vkj hacia la capa de salida, donde

aplicando la misma operaci ´on que en el caso anterior, las neuronas de esta ´ultima capa proporcionan la salida de la red.

Este proceso se resume en lo siguiente:

La entrada total, θjp, que recibe una neurona oculta j es:

θpj =

N

X

i=1

wjixpi + λj

donde λj es un peso asociado a una neurona ficticia con valor de salida igual a 1

que hace el papel de t ´ermino independiente o intercept.

El valor de salida de la neurona oculta j, yjp, se obtiene aplicando una funci ´on de activaci ´on f (·) sobre su entrada neta:

CURSO DE EXPERTOS U.C.M. (2012)

De igual forma, la entrada neta que recibe una neurona de salida k, θpk, es:

θkp =

H

X

j=1

vkjyjp + λk

Por ´ultimo, el valor de salida de la neurona de salida k, ykp, es: ykp = f (θkp)

Etapa de aprendizaje

En la etapa de aprendizaje, el objetivo es hacer m´ınimo el error entre la salida ob- tenida por la red y la salida ´optima ante la presentaci ´on de un conjunto de patrones, denominado grupo de entrenamiento.

As´ı, el aprendizaje en las redes backpropagation es de tipo supervisado.

La funci ´on de error que se pretende minimizar para cada patr ´on p viene dada por: Ep = 1 2 M X k=1 (dpk − ykp)2

donde dpk es la salida deseada para la neurona de salida k ante la presentaci ´on del patr ´on p.

CURSO DE EXPERTOS U.C.M. (2012)

A partir de esta expresi ´on se puede obtener una medida general del error total mediante: E = P X p=1 Ep

La base del algoritmo backpropagation para la modificaci ´on de los pesos es la t ´ecnica conocida como gradiente decreciente.

Como Ep es funci ´on de todos los pesos de la red, el gradiente de Ep es un vector igual a la derivada parcial de Ep respecto de cada uno de los pesos.

El gradiente toma la direcci ´on que determina el incremento m ´as r ´apido en el error, mientras que la direcci ´on opuesta, es decir, la direcci ´on negativa, determina el decremento m ´as r ´apido en el error.

Por tanto, el error puede reducirse ajustando cada peso en esa direcci ´on:

− P X p=1 ∂Ep ∂wji

CURSO DE EXPERTOS U.C.M. (2012)

Un peligro que puede surgir al utilizar el m ´etodo del gradiente decreciente es que el aprendizaje converja a un m´ınimo local. Sin embargo, el problema potencial de los m´ınimos locales se da en raras ocasiones en datos reales.

A nivel pr ´actico, la forma de modificar los pesos de forma iterativa consiste en aplicar la regla de la cadena a la expresi ´on del gradiente y a ˜nadir una tasa dada de aprendizaje η. As´ı, en una neurona de salida se tendr´ıa:

∆vkj (n + 1) = −η ∂Ep ∂vkj = η P X p=1 δkpyjp donde δkp = (dpk − ykp) f0 (θkp) y n indica la iteraci ´on.

En una neurona oculta: ∆wji (n + 1) = η P X p=1 δjpxpi donde δjp = f θjp M X k=1 δkpvkj

Se puede observar que el error o valor δ asociado a una neurona oculta j, viene determinado por la suma de los errores que se cometen en las k neuronas de salida que reciben como entrada la salida de esa neurona oculta j. De ah´ı que el algoritmo tambi ´en se denomine propagaci ´on del error hacia atr ´as.

CURSO DE EXPERTOS U.C.M. (2012)

Para la modificaci ´on de los pesos, la actualizaci ´on se realiza despu ´es de ha- ber presentado todos los patrones de entrenamiento. Este es el modo habitual de proceder y se denomina aprendizaje por lotes o modo batch.

Otra modalidad denominada aprendizaje en serie o modo on line consiste en actualizar los pesos tras la presentaci ´on de cada patr ´on de entrenamiento que ha de hacerse en orden aleatorio.

Para acelerar el proceso de convergencia de los pesos, Rumelhart et al. (1986) sugirieron a ˜nadir un t ´ermino α, denominado momento, que tiene en cuenta la direc- ci ´on del incremento tomada en la iteraci ´on anterior:

∆vkj (n + 1) = η   P X p=1 δkpyjp   + α∆vkj (n)

Fases en la aplicaci ´on de un perceptr ´on multicapa

Una red del tipo perceptr ´on multicapa intenta resolver dos tipos de problemas:

– Problemas de predicci ´on, que consisten en la estimaci ´on de una variable continua

de salida, a partir de la presentaci ´on de un conjunto de variables predictoras de entrada (discretas y/o continuas).

– Problemas de clasificaci ´on, que consisten en la asignaci ´on de la categor´ıa de

pertenencia de un determinado patr ´on a partir de un conjunto de variables pre- dictoras de entrada (discretas y/o continuas).

CURSO DE EXPERTOS U.C.M. (2012)

Selecci ´on de las variables relevantes y preprocesamiento de los datos

Para obtener una buena aproximaci ´on, se deben elegir cuidadosamente las va- riables a emplear: se trata de incluir en el modelo las variables predictoras que realmente predigan la variable dependiente o de salida, pero que a su vez no ten- gan relaciones entre s´ı, ya que esto puede provocar un sobreajuste innecesario en el modelo.

Las variables deben seguir una distribuci ´on normal o uniforme, y el rango de posibles valores debe ser aproximadamente el mismo y acotado dentro del intervalo de trabajo de la funci ´on de activaci ´on empleada en las capas ocultas y de salida de la red neuronal.

As´ı, las variables de entrada y salida suelen acotarse en valores comprendidos entre 0 y 1 ´o entre −1 y 1.

Si la variable es discreta, se utiliza la codificaci ´on dummy.

Por ejemplo, la variable sexo podr´ıa codificarse como: 0 = hombre, 1 = mujer; estando representada por una ´unica neurona.

La variable nivel social podr´ıa codificarse como: 100 = bajo, 010 = medio, 001 = alto; estando representada por tres neuronas.

Por su parte, si la variable es de naturaleza continua, ´esta se representa median- te una sola neurona, como, por ejemplo, la renta de una persona.

CURSO DE EXPERTOS U.C.M. (2012)

Entrenamiento de la red neuronal

Elecci ´on de los pesos iniciales

Se hace una asignaci ´on de pesos peque ˜nos generados de forma aleatoria en un rango de valores entre −0,5 y 0,5 o algo similar.

Arquitectura de la red

Respecto a la arquitectura de la red, se sabe que para la mayor´ıa de problemas pr ´acticos bastar ´a con utilizar una sola capa oculta.

El n ´umero de neuronas de la capa de entrada est ´a determinado por el n ´umero de variables predictoras.

As´ı, en los ejemplos anteriores, la variable sexo estar´ıa representada por una neurona que recibir´ıa los valores 0 ´o 1. La variable estatus social estar´ıa repre- sentada por tres neuronas. La variable renta de una persona estar´ıa representada por una neurona que recibir´ıa un valor previamente acotado, por ejemplo, a valores entre 0 y 1.

El n ´umero de neuronas de la capa de salida est ´a determinado seg ´un el mismo esquema que en el caso anterior.

CURSO DE EXPERTOS U.C.M. (2012)

Cuando intentamos discriminar entre dos categor´ıas, bastar ´a con utilizar una ´unica neurona.

Ppor ejemplo, salida 1 para la categor´ıa A, salida 0 para la categor´ıa B.

Si estamos ante un problema de estimaci ´on de una variable continua, tendremos una ´unica neurona que dar ´a como salida el valor de la variable a estimar.

El n ´umero de neuronas ocultas determina la capacidad de aprendizaje de la red neuronal. Para evitar el sobreajuste, se debe usar el m´ınimo n ´umero de neu- ronas ocultas con las cuales la red funcione de forma adecuada. Esto se consigue evaluando el rendimiento de diferentes arquitecturas en funci ´on de los resultados obtenidos con el grupo de validaci ´on.

Tasa de aprendizaje y factor momento

El valor de la tasa de aprendizaje (η) controla el tama ˜no del cambio de los pe- sos en cada iteraci ´on. Se deben evitar dos extremos: un ritmo de aprendizaje de- masiado peque ˜no puede ocasionar una disminuci ´on importante en la velocidad de convergencia y la posibilidad de acabar atrapado en un m´ınimo local; en cambio, un ritmo de aprendizaje demasiado grande puede conducir a inestabilidades en la funci ´on de error, lo cual evitar ´a que se produzca la convergencia debido a que se dar ´an saltos en torno al m´ınimo sin alcanzarlo.

Por tanto, se recomienda elegir un ritmo de aprendizaje lo m ´as grande posible sin que provoque grandes oscilaciones. En general, el valor de la tasa de aprendizaje suele estar comprendida entre 0.05 y 0.5.

El factor momento (α) acelera la convergencia de los pesos. Se suele tomar un valor pr ´oximo a 1 (por ejemplo, 0.9).

CURSO DE EXPERTOS U.C.M. (2012)

Funci ´on de activaci ´on de las neuronas ocultas y de salida

Se unan dos funciones b ´asicas: la funci ´on lineal (o identidad) y funciones sig- moidales (como la funci ´on log´ıstica o la funci ´on tangente hiperb ´olica).

En general, se utiliza una funci ´on sigmoidal como funci ´on de activaci ´on en las neuronas de la capa oculta.

La elecci ´on de la funci ´on de activaci ´on en las neuronas de la capa de salida depender ´a del tipo de tarea que se considera.

En tareas de clasificaci ´on, se toma la funci ´on de activaci ´on sigmoidal.

En cambio, en tareas de predicci ´on o aproximaci ´on de una funci ´on, general-

Evaluaci ´on del rendimiento del modelo

Una vez seleccionado el modelo de red que ha obtenido el mejor resultado con el conjunto de validaci ´on, se debe evaluar la capacidad de generalizaci ´on de la red con otro grupo de datos independiente, o conjunto de datos de test.

Se utiliza la media cuadr ´atica del error para evaluar el modelo:

M Cerror = P P p=1 M P k=1 (dpk − ykp)2 P · M

En problemas de clasificaci ´on de patrones es mejor usar el porcentaje de cla- sificaciones correctas e incorrectas. Se puede construir una tabla de confusi ´on y calcular diferentes ´ındices de asociaci ´on y acuerdo entre el criterio y la decisi ´on

CURSO DE EXPERTOS U.C.M. (2012)

Interpretaci ´on de los pesos obtenidos

Se trata de interpretar los pesos de la red neuronal. El m ´etodo m ´as popular es el an ´alisis de sensibilidad.

El an ´alisis de sensibilidad est ´a basado en la medici ´on del efecto que se observa en una salida yk debido al cambio que se produce en una entrada xi. Cuanto mayor

efecto se observe sobre la salida, mayor sensibilidad se puede deducir que presenta respecto a la entrada.

Un m ´etodo com ´un consiste en fijar el valor de todas las variables de entrada a su valor medio e ir variando el valor de una de ellas a lo largo de todo su rango, registrando el valor de salida de la red.

Redes Neuronales como generalizaci ´on de las t ´ecnicas de

Documento similar