1.3. Metodología
1.3.2. Algoritmo de red neuronal
1.3.2.4. Procedimiento de entrenamiento
El procedimiento de entrenamiento de la red neuronal de dos capas consta de cuatro pasos: inicialización, entrenamiento, validación y generalización.
En el primer paso, la inicialización de los pesos se asigna de acuerdo al algoritmo Ngyue-Widrow, los pesos se inicializan en su propio intervalo.
38
Como afirma Wang (2014), para preparar una red neuronal para el entrenamiento, también hay otros parámetros que se deben inicializar:
Objetivo de entrenamiento. El objetivo es el rendimiento de la red que se espera lograr, expresado como error cuadrático medio (MSE) y calculado por los datos de salida de la red y los datos que se espera alcanzar. El caso ideal es establecer la meta en cero, lo que significa que no hay error entre los datos pronosticados del modelo y los datos a alcanzar.
Época de entrenamiento. El número máximo de épocas de entrenamiento se utiliza para evitar el caso de over-fitting, que pertenece a la técnica de detención temprana.
Número de iteración máximo de validación. El número de validación también se usa para monitorear el procedimiento de entrenamiento..
Tamaño oculto. El número de neuronas ocultas.
Después del primer paso, la red está preparada para el entrenamiento con un algoritmo de aprendizaje seleccionado. El paso de entrenamiento de la red también se llama la capacidad de aprendizaje de la red, dado los pares entrada y objetivo, la red se entrena con configuraciones de red predefinidas.
Se ha mencionado que cualquier problema de aproximación de funciones se puede resolver con una red neuronal de dos capas siempre que el tamaño oculto sea el adecuado. Por lo tanto, el número de capas ocultas es de una sola capa, pero el método para elegir un tamaño oculto adecuado es mucho más complejo que el nùmero de capas. No existe un teorema universal sobre el tamaño óptimo de una red neuronal, sin embargo, existe un equilibrio entre la precisión del modelo y el costo del modelo, y existe una limitación de la precisión del modelo debido al nivel de ruido de fondo. Se ha demostrado que un tamaño más grande de capa oculta no hace más preciso el rendimiento de la red. A veces, el tamaño de red grande causa un problema de ajuste excesivo. Por lo tanto, como regla general, se espera que cuanto menor sea el tamaño de la red, mejor, bajo alguna limitación precisa del modelo predefinido. Las experiencias muestran que el tamaño de capa oculta debe ser de 3 a 5 veces mayor que el número de parámetros de entrada.
39
Si con el análisis de datos el número de variables de entrada es 5, y si se establece el tamaño de neuronas en la capa oculat en el intervalo 5 a 25, con un tamaño de paso de 5, como se muestra en la figura 9, se observa que, cuando el número de neuronas en la capa oculta aumenta, el rendimiento de la red tiende a crecer, el umbral que limita la precisión se muestra con una linea discontinua roja en la figura 9, el número más pequeño de neuronas en la capa oculta se muestra con una elipse naranja, por lo que 15 es el tamaño óptimo.
Figura 9. Número de neuronas en la capa oculta
El rendimiento de la red generalmente se denota como Error Cuadrático Medio (MSE),
𝑀𝑆𝐸 =1
𝑛∑𝑛𝑖=1(𝑎𝑖 − 𝑜𝑖)2 (20)
y se espera que cuanto más pequeño sea el MSE, mejor será el rendimiento de la red.
El entrenamiento de la red generalmente puede dar un resultado bastante bueno de la aproximación de funciones. Sin embargo, este buen resultado del procedimiento de entrenamiento de red no puede garantizar la generalización de una red neuronal entrenada. El fenómeno se denomina sobreajuste, lo que significa que la red específica entrenada ofrece un buen rendimiento de un conjunto de datos de muestra, mientras que el rendimiento de otro conjunto diferente de datos de muestra de la
0.0000 0.0050 0.0100 0.0150 0.0200 0.0250 0.0300 0.0350 0.0400 0.0450 0.0500
5 10 15 20 25
Entrenamiento Validación Evaluación
40
misma población es bastante peor. En este caso, la red simplemente memorizó las muestras de entrenamiento, pero no pudo generalizar a nuevas situaciones. Para evitar este fenómeno, se implementan varios métodos para mejorar la generalización de las ANN.
1. División de datos
La división de datos significa que los datos de la muestra se usan no solo para entrenamiento sino también para validación y evaluación. El punto clave de la división de datos es validar la red con un conjunto de datos totalmente diferente de los datos de entrenamiento.
En este trabajo, se selecciona el método de división aleatoria, con tres conjuntos de datos: datos de entrenamiento, datos de validación y datos de evaluación con la proporción 0.7, 0.15 y 0.15 respectivamente.
Durante el procedimiento de entrenamiento, los datos de entrenamiento se usan para el entrenamiento de la red neuronal, mientras que los datos de validación se usan para monitorear el rendimiento de la red. El entrenamiento continuará hasta que no haya una mejora en el rendimiento de validación para las iteraciones máximas de validación. Los datos de evaluación se utilizan para comparar diferentes estructuras de red en los mismos datos de muestra. (Wang, 2014)
Con el monitoreo del procedimiento de validación, la red puede proporcionar una buena capacidad de generalización, como se presenta en la figura 9, la línea azul indica el resultado del entrenamiento, mientras que la línea roja y la verde indican los datos de validación y prueba por separado. Cuando los tres conjuntos de datos tienen resultados similares, significa que la red tiene una buena generalización. (Wang, 2014)
2. Parada temprana
En la red neuronal artificial, la parada temprana es un método utilizado para evitar el sobreajuste de la red. Este método se combina con el método de validación durante el procedimiento de entrenamiento de la red. Si el error de validación sigue aumentando durante varias iteraciones, la red se detiene para el entrenamiento y da un resultado de falla. El aumento del error de validación significa que no hay mejora
41
en el rendimiento de la red para una mayor iteración. (Wang, 2014)