Arquitectura del modelo VAE - Entrenamiento de los Modelos Generativos

4. EXPERIMENTACI ´ ON

4.6 Entrenamiento de los Modelos Generativos

4.6.1 Arquitectura del modelo VAE

fácilmente en overfitting, y puede ser algo más compleja la optimización.

Perceptr´on Multicapa

Por último el MLP, es un tipo de red neuronal artificial utilizada para el aprendizaje supervisado. Un MLP consta de una capa de entrada, una o más capas ocultas y una capa de salida. La capa de entrada recibe las caracter´ısticas de los datos y cada neurona de las capas ocultas transforma la entrada utilizando una función de activación no lineal.

La capa de salida proporciona la predicción final. Los parámetros del modelo, como los pesos y los sesgos de las neuronas, se estiman a partir de los datos de entrenamiento mediante algoritmos de optimización como el descenso de gradiente.

Tiene como ventaja que puede manejar relaciones tanto lineales como no lineales entre las variables independientes y dependientes, y puede manejar múltiples variables independientes. Sin embargo, es muy sensible a la elección de hiperparámetros, como la cantidad de capas ocultas y el tamaño de cada capa. En general requiere recursos computacionales significativos para el entrenamiento.

Se utilizaron dos capas intermedias, con 40 y 60 nodos respectivamente, y la función de activación fue la LeakyReLu con alpha = 0.001. El espacio latente se definió de dimensión 30. La Tabla4.4 resume la arquitectura considerada.

Table 4.4 Encoder

Capa Dimensi´on Activaci´on

Input 37

Dense 1 40 LeakyReLu

Dense 2 60 LeakyReLu

z mean, z log var 30

En relación al Decoder, el input está dado por el output del Encoder de dimensión 30. Luego se agregaron dos capas intermedias con 60 y 40 nodos respectivamente, y se eligió la ReLu como función de activación para dichas capas. Por último, se agregó la

ultima capa arrojando un output de dimensión 37, como el original, y con una función de activación Lineal acorde a la normalización de los inputs. La Tabla 4.5 resume la arquitectura considerada.

Table 4.5 Decoder

Capa Dimensi´on Activaci´on

Input 30

Dense 1 60 ReLu

Dense 2 40 ReLu

Output 37 Linear

Se utiliz´o el optimizador de Adam con una learning rate de 0.001 y el tama˜no del Batch fue definido en 512.

Para ponderar la función de pérdida Kullback - Leibler divergence dentro de la función de perdida total se trabajó con un parámetro de -0.001.

4.6.1.1 Diferentes variantes del VAE

Se entrenaron varios modelos antes de arribar al modelo final. Se probaron distintas arquitecturas con distintos números de capas ocultas. Se realizaron pruebas cambiando el optimizador GDS y Adam, y en este último se probó con distintas learning rate. En relación a la función de pérdida se probó con distintos ponderadores para la función de Kullback Leibler.

En relación a la transformación de los Inputs, se probó Normalizando, restando la media y dividiendo por el desv´ıo estándar y escalando, entre -1 y 1 y entre 0 y 1.

Por ´ultimo se hicieron pruebas con distintos tama˜nos de batch como podemos ver en la Tabla 4.6

Table 4.6 Variantes de los modelos

Par´ametro/Criterio Variantes testeadas

Optimizador Adam, GDS

LR en Optimizador Adam 0.01, 0.0001, 0.005

Transformaci´on de los Inputs Normalizaci´on (-inf,+inf), Scale (-1,1)

Capas Ocultas 1, 2, 3

Par´ametro de KL 0.001, 0.002, 0.003

Batch 56, 128, 256, 512

4.6.1.2 Resultados del VAE

Los hiperparámetros finales elegidos para el Modelo VAE son los descritos en la Tabla 4.5. La cantidad de epochs alcanzó elearly stopping en 2000. De la representación de la función de perdidas en las Figuras4.3y 4.4, se observa que luego de los 1000epochs la mejora es marginal. También es importante destacar que la pérdida del conjunto de entrenamiento y de validación son casi indiferenciables, se trabajó con unValidation split de 30%.

Figure 4.3 Funci´on de P´erdida para la clase 0 del VAE

Figure 4.4 Funci´on de P´erdida para la clase 1 del VAE

El valor m´ınimo de pérdida de la clase 1 fue 0.0060 y de la clase 0 fue 0.0020. La pendiente de la pérdida en los últimos epochs en la clase 0 es más pronunciada que la clase 1, lo que podr´ıa indicar que el entrenamiento podr´ıa haber continuado. Sin embargo, cuando continuaba el entrenamiento, el output de la clase 1, no era el esperado, ya que sol´ıa degenerar en pocas variables diferentes a 0 y varias variables las dejaba en 0.

Al igual que cualquier método de aprendizaje profundo, la VAE funciona mejor con un mayor número de datos, sin embargo en la muestra de entrenamiento para la clase 1 solo contiene 47 observaciones, mientras que la red neuronal tiene más de 13.000 parámetros

para optimizar. Por este motivo a la muestra se la multiplic´o por 300, obteni´endose resultados sustancialmente mejores.

De la misma manera y para igualar el tama˜no de muestra de la VAE para la clase 0, se multiplico por 10 la muestra original.

Otro aspecto clave en el entrenamiento fue la elección de la dimensión de espacio latente. En la mayor´ıa de los trabajos encontrados para la generación de imágenes se utiliza una dimensión de 2, dado que se pueden graficar los resultados en un plano y es muy sencillo de visualizar. En este trabajo se probó con distintas dimensiones, pero la que arrojó mejores resultados fue con 30.

In document Modelos Generativos para el tratamiento de clases desbalanceadas aplicado a un problema de predicción de caídas severas en el precio del Bitcoin (página 46-50)