El Perceptr ´on Multicapa - Introducción a las Redes Neuronales Aplicadas

El Perceptr ón Multicapa es capaz de actuar como un aproximador universal de funciones. Esta propiedad convierte a las redes perceptr ón multicapa en herramien- tas de prop ósito general, flexibles y no lineales.

Rumelhart et al. (1986) formalizaron un m étodo para que una red del tipo perceptr ón multicapa aprendiera la asociaci ón que existe entre un conjunto de patrones de entrada y sus salidas correspondientes: m étodo backpropagation error (propagaci ón del error hacia atr ás).

Una red con backpropagation, conteniendo al menos una capa oculta con sufi- cientes unidades no lineales, puede aproximar cualquier tipo de funci ´on o relaci ´on continua entre un grupo de variables de entrada y salida.

Esta red tiene la capacidad de generalizaci ´on: facilidad de dar estimaciones correctas de observaciones que no han sido incluidas en la fase de entrenamiento.

CURSO DE EXPERTOS U.C.M. (2012)

Arquitectura

Un perceptr ón multicapa est á compuesto por una capa de entrada, una capa de salida y una o m ás capas ocultas; aunque se ha demostrado que para la mayor´ıa de problemas bastar á con una sola capa oculta. En la figura siguiente se puede observar un perceptr ón t´ıpico formado por una capa de entrada, una capa oculta y una de salida.

CURSO DE EXPERTOS U.C.M. (2012)

Las conexiones entre neuronas son siempre hacia delante: las conexiones van desde las neuronas de una determinada capa hacia las neuronas de la siguiente capa; no hay conexiones laterales ni conexiones hacia atr ´as. Por tanto, la informaci ´on siempre se transmite desde la capa de entrada hacia la capa de salida.

Como notaci ´on se denomina wji al peso de conexi ´on entre la neurona de entrada

i y la neurona oculta j, y vkj al peso de conexi ´on entre la neurona oculta j y la

Algoritmo backpropagation

Se considera una etapa de funcionamiento donde se presenta un patr ón de entrada y éste se transmite a trav és de las sucesivas capas de neuronas hasta obtener una salida. Despu és, hay una etapa de entrenamiento o aprendizaje donde se mo- difican los pesos de la red de manera que coincida la salida objetivo con la salida obtenida por la red.

CURSO DE EXPERTOS U.C.M. (2012)

Etapa de funcionamiento

Cuando se presenta un patr ón p de entrada Xp: xp₁, . . . , xp_i, . . . , xp_N, éste se transmite a trav és de los pesos wji desde la capa de entrada hacia la capa oculta. Las

neuronas de esta capa intermedia transforman las se ñales recibidas mediante la aplicaci ón de una funci ón de activaci ón proporcionando, de este modo, un valor de salida. Este se transmite a trav és de los pesos vkj hacia la capa de salida, donde

aplicando la misma operaci ´on que en el caso anterior, las neuronas de esta ´ultima capa proporcionan la salida de la red.

Este proceso se resume en lo siguiente:

La entrada total, θ_jp, que recibe una neurona oculta j es:

θp_j =

i=1

wjixp_i + λj

donde λj es un peso asociado a una neurona ficticia con valor de salida igual a 1

que hace el papel de t ´ermino independiente o intercept.

El valor de salida de la neurona oculta j, y_jp, se obtiene aplicando una funci ´on de activaci ´on f (·) sobre su entrada neta:

CURSO DE EXPERTOS U.C.M. (2012)

De igual forma, la entrada neta que recibe una neurona de salida k, θp_k, es:

θ_kp =

j=1

vkjy_jp + λk

Por ´ultimo, el valor de salida de la neurona de salida k, y_kp, es: y_kp = f (θ_kp)

Etapa de aprendizaje

En la etapa de aprendizaje, el objetivo es hacer m´ınimo el error entre la salida obtenida por la red y la salida ´optima ante la presentaci ´on de un conjunto de patrones, denominado grupo de entrenamiento.

As´ı, el aprendizaje en las redes backpropagation es de tipo supervisado.

La funci ´on de error que se pretende minimizar para cada patr ´on p viene dada por: Ep = 1 2 M X k=1 (dp_k − y_kp)2

donde dp_k es la salida deseada para la neurona de salida k ante la presentaci ´on del patr ´on p.

CURSO DE EXPERTOS U.C.M. (2012)

A partir de esta expresi ´on se puede obtener una medida general del error total mediante: E = P X p=1 Ep

La base del algoritmo backpropagation para la modificaci ´on de los pesos es la t ´ecnica conocida como gradiente decreciente.

Como Ep es funci ´on de todos los pesos de la red, el gradiente de Ep es un vector igual a la derivada parcial de Ep respecto de cada uno de los pesos.

El gradiente toma la direcci ón que determina el incremento m ás r ápido en el error, mientras que la direcci ón opuesta, es decir, la direcci ón negativa, determina el decremento m ás r ápido en el error.

Por tanto, el error puede reducirse ajustando cada peso en esa direcci ´on:

− P X p=1 ∂Ep ∂w_ji

CURSO DE EXPERTOS U.C.M. (2012)

Un peligro que puede surgir al utilizar el m ´etodo del gradiente decreciente es que el aprendizaje converja a un m´ınimo local. Sin embargo, el problema potencial de los m´ınimos locales se da en raras ocasiones en datos reales.

A nivel pr áctico, la forma de modificar los pesos de forma iterativa consiste en aplicar la regla de la cadena a la expresi ón del gradiente y a ñadir una tasa dada de aprendizaje η. As´ı, en una neurona de salida se tendr´ıa:

∆vkj (n + 1) = −η ∂Ep ∂vkj = η P X p=1 δ_kpy_jp donde δ_kp = (dp_k − y_kp) f0 (θ_kp) y n indica la iteraci ´on.

En una neurona oculta: ∆wji (n + 1) = η P X p=1 δ_jpxp_i donde δ_jp = f θ_jp M X k=1 δ_kpv_kj

Se puede observar que el error o valor δ asociado a una neurona oculta j, viene determinado por la suma de los errores que se cometen en las k neuronas de salida que reciben como entrada la salida de esa neurona oculta j. De ah´ı que el algoritmo tambi én se denomine propagaci ón del error hacia atr ás.

CURSO DE EXPERTOS U.C.M. (2012)

Para la modificaci ón de los pesos, la actualizaci ón se realiza despu és de ha- ber presentado todos los patrones de entrenamiento. Este es el modo habitual de proceder y se denomina aprendizaje por lotes o modo batch.

Otra modalidad denominada aprendizaje en serie o modo on line consiste en actualizar los pesos tras la presentaci ´on de cada patr ´on de entrenamiento que ha de hacerse en orden aleatorio.

Para acelerar el proceso de convergencia de los pesos, Rumelhart et al. (1986) sugirieron a ñadir un t érmino α, denominado momento, que tiene en cuenta la direcci ón del incremento tomada en la iteraci ón anterior:

∆vkj (n + 1) = η   P X p=1 δ_kpy_jp   + α∆vkj (n)

Fases en la aplicaci ´on de un perceptr ´on multicapa

Una red del tipo perceptr ´on multicapa intenta resolver dos tipos de problemas:

– Problemas de predicci ´on, que consisten en la estimaci ´on de una variable continua

de salida, a partir de la presentaci ´on de un conjunto de variables predictoras de entrada (discretas y/o continuas).

– Problemas de clasificaci ´on, que consisten en la asignaci ´on de la categor´ıa de

pertenencia de un determinado patr ´on a partir de un conjunto de variables predictoras de entrada (discretas y/o continuas).

CURSO DE EXPERTOS U.C.M. (2012)

Selecci ´on de las variables relevantes y preprocesamiento de los datos

Para obtener una buena aproximaci ´on, se deben elegir cuidadosamente las variables a emplear: se trata de incluir en el modelo las variables predictoras que realmente predigan la variable dependiente o de salida, pero que a su vez no ten- gan relaciones entre s´ı, ya que esto puede provocar un sobreajuste innecesario en el modelo.

Las variables deben seguir una distribuci ón normal o uniforme, y el rango de posibles valores debe ser aproximadamente el mismo y acotado dentro del intervalo de trabajo de la funci ón de activaci ón empleada en las capas ocultas y de salida de la red neuronal.

As´ı, las variables de entrada y salida suelen acotarse en valores comprendidos entre 0 y 1 ´o entre −1 y 1.

Si la variable es discreta, se utiliza la codificaci ´on dummy.

Por ejemplo, la variable sexo podr´ıa codificarse como: 0 = hombre, 1 = mujer; estando representada por una ´unica neurona.

La variable nivel social podr´ıa codificarse como: 100 = bajo, 010 = medio, 001 = alto; estando representada por tres neuronas.

Por su parte, si la variable es de naturaleza continua, ´esta se representa mediante una sola neurona, como, por ejemplo, la renta de una persona.

CURSO DE EXPERTOS U.C.M. (2012)

Entrenamiento de la red neuronal

Elecci ´on de los pesos iniciales

Se hace una asignaci ´on de pesos peque ˜nos generados de forma aleatoria en un rango de valores entre −0,5 y 0,5 o algo similar.

Arquitectura de la red

Respecto a la arquitectura de la red, se sabe que para la mayor´ıa de problemas pr ´acticos bastar ´a con utilizar una sola capa oculta.

El n úmero de neuronas de la capa de entrada est á determinado por el n úmero de variables predictoras.

As´ı, en los ejemplos anteriores, la variable sexo estar´ıa representada por una neurona que recibir´ıa los valores 0 ´o 1. La variable estatus social estar´ıa representada por tres neuronas. La variable renta de una persona estar´ıa representada por una neurona que recibir´ıa un valor previamente acotado, por ejemplo, a valores entre 0 y 1.

El n úmero de neuronas de la capa de salida est á determinado seg ún el mismo esquema que en el caso anterior.

CURSO DE EXPERTOS U.C.M. (2012)

Cuando intentamos discriminar entre dos categor´ıas, bastar ´a con utilizar una ´unica neurona.

Ppor ejemplo, salida 1 para la categor´ıa A, salida 0 para la categor´ıa B.

Si estamos ante un problema de estimaci ón de una variable continua, tendremos una única neurona que dar á como salida el valor de la variable a estimar.

El n úmero de neuronas ocultas determina la capacidad de aprendizaje de la red neuronal. Para evitar el sobreajuste, se debe usar el m´ınimo n úmero de neuronas ocultas con las cuales la red funcione de forma adecuada. Esto se consigue evaluando el rendimiento de diferentes arquitecturas en funci ón de los resultados obtenidos con el grupo de validaci ón.

Tasa de aprendizaje y factor momento

El valor de la tasa de aprendizaje (η) controla el tama ño del cambio de los pesos en cada iteraci ón. Se deben evitar dos extremos: un ritmo de aprendizaje demasiado peque ño puede ocasionar una disminuci ón importante en la velocidad de convergencia y la posibilidad de acabar atrapado en un m´ınimo local; en cambio, un ritmo de aprendizaje demasiado grande puede conducir a inestabilidades en la funci ón de error, lo cual evitar á que se produzca la convergencia debido a que se dar án saltos en torno al m´ınimo sin alcanzarlo.

Por tanto, se recomienda elegir un ritmo de aprendizaje lo m ´as grande posible sin que provoque grandes oscilaciones. En general, el valor de la tasa de aprendizaje suele estar comprendida entre 0.05 y 0.5.

El factor momento (α) acelera la convergencia de los pesos. Se suele tomar un valor pr ´oximo a 1 (por ejemplo, 0.9).

CURSO DE EXPERTOS U.C.M. (2012)

Funci ´on de activaci ´on de las neuronas ocultas y de salida

Se unan dos funciones b ásicas: la funci ón lineal (o identidad) y funciones sig- moidales (como la funci ón log´ıstica o la funci ón tangente hiperb ólica).

En general, se utiliza una funci ón sigmoidal como funci ón de activaci ón en las neuronas de la capa oculta.

La elecci ón de la funci ón de activaci ón en las neuronas de la capa de salida depender á del tipo de tarea que se considera.

En tareas de clasificaci ón, se toma la funci ón de activaci ón sigmoidal.

En cambio, en tareas de predicci ón o aproximaci ón de una funci ón, general-

Evaluaci ´on del rendimiento del modelo

Una vez seleccionado el modelo de red que ha obtenido el mejor resultado con el conjunto de validaci ´on, se debe evaluar la capacidad de generalizaci ´on de la red con otro grupo de datos independiente, o conjunto de datos de test.

Se utiliza la media cuadr ´atica del error para evaluar el modelo:

M Cerror = P P p=1 M P k=1 (dp_k − y_kp)2 P · M

En problemas de clasificaci ón de patrones es mejor usar el porcentaje de cla- sificaciones correctas e incorrectas. Se puede construir una tabla de confusi ón y calcular diferentes ´ındices de asociaci ón y acuerdo entre el criterio y la decisi ón

CURSO DE EXPERTOS U.C.M. (2012)

Interpretaci ´on de los pesos obtenidos

Se trata de interpretar los pesos de la red neuronal. El m étodo m ás popular es el an álisis de sensibilidad.

El an álisis de sensibilidad est á basado en la medici ón del efecto que se observa en una salida yk debido al cambio que se produce en una entrada xi. Cuanto mayor

efecto se observe sobre la salida, mayor sensibilidad se puede deducir que presenta respecto a la entrada.

Un m ´etodo com ´un consiste en fijar el valor de todas las variables de entrada a su valor medio e ir variando el valor de una de ellas a lo largo de todo su rango, registrando el valor de salida de la red.

Redes Neuronales como generalizaci ´on de las t ´ecnicas de

In document Introducción a las Redes Neuronales Aplicadas (página 37-61)