Entrenamiento Evolutivo de Autoencoders

(1)

Escuela T´ ecnica Superior de Ingenieros Inform´ aticos

Universidad Polit´ ecnica de Madrid

Entrenamiento Evolutivo de Autoencoders

Trabajo Fin de M´ aster

M´ aster Universitario en Inteligencia Artificial

AUTOR: Dario Goikoetxea Pardo TUTOR/ES: Daniel Manrique Gamo Emilio Serrano Fern´ andez

2018

(2)

1

AGRADECIMIENTOS

A mi padre, por ser el técnico informático del laboratorio casero, y a mi abuela, por aguantar el calor generado. A Dani y Emilio, por su inestimable ayuda con mi terrible redacción y las referencias. El resto, ya sabéis quienes sois. Gracias a todos.

(3)

(4)

2

RESUMEN

Pese a que la retropropagaci´on de gradiente es el principal algoritmo de aprendizaje utilizado en Deep Learning, tiene limitaciones como la tendencia a cero de los pesos durante el entrenamiento, el sobre-ajuste o su elevado coste computacional.

Estos problemas se tratan con soluciones como el entrenamiento por lotes, el uso de funciones de activación que no saturan para valores elevados, como la ReLU o méto- dos de inicialización heur´ısticos. En trabajos previos se ha estudiado la posibilidad de utilizar algoritmos genéticos para llevar a cabo el proceso de entrenamiento con mejores resultados y menor coste que utilizando la retropropagación de gradiente, aunque no se han probado en redes neuronales de tamaño medio o mayores. El objetivo del presente trabajo es implementar un algoritmo genético con codificación real para el entrenamiento evolutivo de autoencoders utilizando el operador de cruce MMX. As´ı mismo, se evalua su comportamiento en redes con más de un millón de conexiones. Para ello, se proponen dos aportaciones nuevas: realizar un entrenamiento evolutivo por lotes para reducir el coste de cada iteración del algoritmo sin afectar a la calidad de las soluciones, y la utilización de los métodos de inicialización heur´ısticos propuestos por Glorot y He.

(5)

3

SUMMARY

Backpropagation is the most used training algorithm in Deep Learning, however, it has limitations, such as vanishing or exploding gradient, overﬁtting and its high computational cost. Those problems are addressed with solutions like batch training, the usage of activations functions that don’t saturate on high values, like ReLU, or heuristic initialization methods. Genetic Algorithms using the crossover operator MMX have been used to train neural networks with better results and lower computational costs than using gradient backpropagation, however, those methods have not been tested on medium-sized or big neural networks. The goal of this work is to implement a real-coded genetic algorithm to train autoencoders using the MMX crossover operator and evaluate its behavior in neural networks with more than one million connections. In order to do that, two contributions are proposed: batch evolutionary training to reduce the computational cost per generation without aﬀec- ting the quality of the solutions and the usage of the heuristic initialization methods proposed by Glorot and He.

(6)

4 ´Indice

´Indice

I Introducci´on 1

II Computaci´on Evolutiva 3

1. Codiﬁcaci´on . . . 4

2. Algoritmos Gen´eticos . . . 5

2.1. Evaluaci´on . . . 6

2.2. Condici´on de parada . . . 6

2.2.1. Convergencia . . . 6

2.3. Selecci´on . . . 6

2.4. Cruce . . . 7

2.5. Mutaci´on . . . 8

2.6. Reemplazo . . . 8

3. Operadores de cruce para individuos con codiﬁcaci´on real . . . 8

3.1. Blend Crossover operator (BLX) . . . 8

3.2. Blend alpha (BLX–α) . . . . 9

3.3. Operador de Cruce Morfol´ogico (MMX) . . . 10

3.3.1. Calculo de la diversidad de poblaci´on . . . 10

3.3.2. Intervalo de cruce . . . 11

III Redes de Neuronas Artiﬁciales 12 4. Estructura de las Redes de Neuronas Artiﬁciales . . . 12

5. Aprendizaje . . . 13

6. Funcionamiento de las Redes de Neuronas Artiﬁciales . . . 13

6.1. Funciones de Activaci´on . . . 14

6.1.1. Lineal . . . 14

6.1.2. Tangente hiperb´olica . . . 15

6.1.3. Log´ıstica . . . 15

6.1.4. Rectiﬁed Linear Unit - ReLU . . . 15

6.1.5. SoftMax . . . 16

6.2. Algoritmos de entrenamiento . . . 16

6.2.1. Retropropagaci´on de gradiente . . . 16

6.3. M´etodos de inicializaci´on . . . 17

6.3.1. Inicializaci´on Xavier - Glorot . . . 18

6.3.2. Inicializaci´on He . . . 18

6.4. Autoencoders . . . 18

7. Limitaciones de la retropropagaci´on del gradiente en redes de neuronas profundas . . . 20

7.1. Problema de la tendencia a cero o inﬁnito del gradiente . . . 20

7.2. Sobre-ajuste . . . 20

7.3. Elevado coste computacional . . . 22

(7)

´Indice de ﬁguras 5

8. Soluciones . . . 22

8.1. Retropropagaci´on de gradiente con factor momento . . . 22

8.2. Entrenamiento por lotes . . . 23

8.3. Dropout y Dropconnect . . . 24

8.4. Pretraining . . . 25

9. Entrenamiento de redes neuronales mediante algoritmos gen´eticos . . 26

IV Planteamiento 28 V Soluci´on propuesta 29 10. Modelo B´asico . . . 29

11. Entrenamiento por Lotes . . . 30

12. Inicializaci´on heur´ıstica . . . 31

VI Resultados 32 13. Experimentos . . . 32

13.1. Coste computacional . . . 32

14. Conjunto de Datos . . . 33

14.1. Experimento 1 . . . 33

14.1.1. Resultados . . . 34

14.2. Experimento 2 . . . 39

14.2.1. Resultados . . . 39

14.3. Experimento 3 . . . 40

14.3.1. Resultados . . . 42

VII Conclusiones y l´ıneas futuras 43

´Indice de ﬁguras

1. Esquema gen´erico de los Algoritmos Evolutivos. . . 3

2. Esquema SSGA con operadores b´asicos. . . 5

3. M´etodo de la ruleta. [Font et al., 2009b] . . . 7

4. Funci´on ϕ de MMX. [Barrios et al., 2003] . . . 11

5. Red Neuronal Completamente Conectada Hacia Adelante (FCFFNN). 13 6. Gráficas de las funciones de activación más utilizadas. . . 15

7. Autoencoder. . . 19

8. Codiﬁcador y Decodiﬁcador obtenidos a partir del autoencoder de la Figura 7. . . 19

9. A la izquierda, la red neuronal, a la derecha la red tras aplicar Dro- pout. [Hinton et al., 2014] . . . 24

(8)

6 ´Indice de cuadros

10. A la izquierda, los pesos durante la fase de entrenamiento, a la derecha

durante la fase de pruebas. [Hinton et al., 2014] . . . 24

11. Redes neuronales entrenadas y su cromosoma equivalente. [Barrios et al., 2003] . . . 27

12. Evoluci´on del entrenamiento mediante BP. . . 35

13. Evoluci´on del entrenamiento mediante BPM. . . 35

14. Evoluci´on del entrenamiento mediante BPM por lotes. . . 37

15. Evoluci´on del entrenamiento mediante BPM por lotes con inicializaci´on heur´ıstica. . . 37

16. Entrenamiento evolutivo funci´on de activaci´on sigmoide. . . 38

17. Sobre-ajuste del entrenamiento evolutivo. . . 38

18. Entrenamiento evolutivo por lotes funci´on de activaci´on sigmoide. . . 41

19. Sobre-ajuste del entrenamiento evolutivo por lotes funci´on de activaci´on sigmoide. . . 41

´Indice de cuadros

1. Error cuadr´atico medio de distintos m´etodos de entrenamiento de redes neuronales para el autoencoder del experimento 1. . . 36

2. Coste de distintos m´etodos de entrenamiento de redes neuronales para el autoencoder del experimento 1. . . 36

3. Comparativa del error entre los distintos algoritmos gen´eticos del experimento. . . 40

4. Coste de distintos m´etodos de entrenamiento gen´eticos. . . 40

(9)

1

Parte I. Introducci´ on

La cantidad de información producida por el ser humano diariamente excede con mucho nuestras capacidades cognitivas para procesarla manualmente. Los métodos de aprendizaje automático buscan extraer patrones de conocimiento a partir de los datos. El ámbito de aplicación del aprendizaje automático va desde el análisis automatizado de fraude fiscal hasta el análisis de opinión pol´ıtica en redes sociales.

El Deep Learning, uno de los campos que actualmente goza de mayor atención dentro del aprendizaje automático, surgió en 2006 gracias a los trabajos de Hinton, LeCun y Bengio [LeCun et al., 2015]. El algoritmo de retropropagación de gradiente es el método de entrenamiento más utilizado en redes neuronales profundas. No obstante, la retropropagación del gradiente presenta una serie de limitaciones que dificultan el entrenamiento cuando se trabaja con redes neuronales profundas [Glorot and Bengio, 2010, Bengio et al., 1994]. Algunas de estas limitaciones son: el problema de tendencia a cero de los pesos de las conexiones [Pascanu et al., 2013], el sobre- ajuste [Geman et al., 1992], que se produce cuando la red neuronal proporciona resultados mejores para el conjunto de vectores de entrenamiento que para el de pruebas o el elevado coste computacional del algoritmo.

Algunas de las soluciones existentes para las limitaciones son: las funciones de activación ReLU [Glorot et al., 2011], cuya derivada siempre vale 1 para valores positivos; el entrenamiento por lotes, que reduce el sobre-ajuste y el coste computacional del entrenamiento; el uso de métodos de inicialización heur´ısticos [Glorot and Bengio, 2010, He et al., 2015]; los algorimtos Dropout [Hinton et al., 2014]

y Dropconnect [Le Cun et al., 2013], dise˜nados para reducir el sobreajuste, entre otras. A su vez, las soluciones presentan sus propias limitaciones, como la ReLU, que en algunos escenarios toma valores que llevan a la muerte de algunas neuronas.

Se denomina muerte de una neurona a la situaci´on en la que los pesos de las conexiones entrantes de una neurona toman valores tales que la neurona nunca vuelve a activarse durante el entrenamiento (su salida toma siempre valor cero).

Los algoritmos genéticos son una rama de la computación evolutiva, que estudia algoritmos basados en la evolución natural, cuyos elementos distintivos son la codificación de individuos como vectores de genes y el uso del cruce como principal operador. En el presente trabajo se estudia un método alternativo de entrenamiento de redes neuronales mediante algoritmos genéticos con codificación real utilizando el operador de cruce MMX [Rolan´ıa, 1992]. Se ha demostrado que el entrenamiento genético obtiene mejores resultados con menor coste computacional en redes pe- queñas [Barrios et al., 2003]. El objetivo del presente trabajo es aplicar el algoritmo a Autoencoders [LeCun, 1987] de tamaño medio, con más de un millón de conexiones. Adicionalmente se proponen dos nuevas aportaciones. La primera consiste en una adaptación del entrenamiento por lotes a los algoritmos genéticos cuyo objetivo es reducir el coste computacional de evaluar los individuos sin empeorar la calidad de los resultados. La segunda consiste en la aplicación de los métodos de inicialización heur´ısticos de Xavier y He [Glorot and Bengio, 2010, He et al., 2015], t´ıpicamente empleados en retropropagación de gradiente, al algoritmo genético.

(10)

2

La arquitectura escogida es el Autoencoder debido a su versatilidad, y a la naturaleza no supervisada del entrenamiento que requiere. Los autoencoders se emplean t´ıpicamente para la reducci´on de dimensionalidad de datos [Hinton and Salakhut- dinov, 2006], la extracci´on de caracter´ısticas [LeCun, 1987] o en aprendizaje por refuerzo [Lange and Riedmiller, 2010], entre otros [Goodfellow et al., 2016].

El presente documento se organiza en siete cap´ıtulos. El primer cap´ıtulo corresponde a la presente introducción. El segundo cap´ıtulo describe las técnicas de computación evolutiva y algoritmos genéticos con codificación real utilizadas en la solución. El tercer cap´ıtulo describe las redes neuronas artificiales y sus métodos de entrenamiento más comunes. Asimismo se exponen las soluciones actuales a las limitaciones del algoritmo de retropropagación de gradiente en redes neuronales profundas y se presenta el algoritmo genético de entrenamiento de redes neuronales original.

En el cuarto cap´ıtulo se plantea el problema, as´ı como los objetivos e hipótesis de trabajo. El quinto cap´ıtulo describe la solución propuesta y las nuevas aportaciones de este trabajo. El sexto cap´ıtulo contiene la descripción de los experimentos y el análisis de los resultados. En el séptimo cap´ıtulo se presentan las conclusiones y las l´ıneas futuras de investigación.

(11)

3

Parte II. Computaci´ on Evolutiva

La computación evolutiva (CE) estudia algoritmos basados en la evolución natural. Los primeros estudios en el campo se remontan a los años 60, aunque no fue hasta 1991 que se acuñó oficialmente el término computación evolutiva [Bäck et al., 1997]. Estos algoritmos se denominan algoritmos evolutivos (AE).

Los algoritmos evolutivos utilizan métodos basados en los mecanismos evolutivos naturales, como la reproducción, la mutación y la selección natural. Existen tres aproximaciones principales para emular dichos mecanismos: los algoritmos genéticos, las estrategias evolutivas y la programación genética [B¨ack et al., 1997].

Fig. 1: Esquema gen´erico de los Algoritmos Evolutivos.

La Figura 1 describe el funcionamiento de un algoritmo evolutivo genérico. Ini- cialmente se crea una población del tamaño deseado compuesta por individuos que codifican soluciones muestreadas aleatoriamente dentro del espacio de búsqueda.

Cada individuo codifica una posible solución al problema, y los operadores trabajan sobre estos individuos, no sobre las soluciones. El proceso de evaluación consiste en decodificar el individuo para obtener la solución que representa y evaluar la calidad de la misma.

Si alguna de las soluciones cumple con los criterios especiﬁcados el algoritmo termina y devuelve las mejores soluciones. En caso contrario, se inicia un proceso iterativo que consiste en aplicar operadores gen´eticos basados en los mecanismos evolutivos para obtener nuevas soluciones que reemplacen a las antiguas.

La función evaluación simula el desempeño de tareas importantes para su supervivencia por parte del organismo. A diferencia de en la naturaleza, basta con ejecutar la función de evaluación una única vez para cada nuevo individuo, salvo que la fun- ción de evaluación dependa de parámetros externos (no codificados en el individuo) cambiantes durante el paso de las generaciones, aunque esto no es habitual.

El operador de reemplazo simula la competición por los recursos que tiene lugar en la naturaleza. Debido a que el tamaño de la población es constante, lo cual simula un medio con recursos finitos, los individuos deben competir entre s´ı por

(12)

4 1 Codiﬁcaci´on

la supervivencia. Existen diversas estrategias de reemplazo, aunque el denominador com´un es dar mayor probabilidad de supervivencia a individuos mejor adaptados.

Los nuevos individuos, que se evalúan y se introducen en la población reemplazan a los peores individuos. Algunos operadores de reemplazo enfrentan a los individuos existentes con los nuevos, mientras que otros garantizan la introducción de los nuevos individuos. Esta estrategia favorece la diversidad genética sin perjudicar demasiado a los resultados, puesto que si se introduce en la población un nuevo individuo con un grado de adaptación muy bajo éste tendrá probabilidad más alta de ser eliminado en la siguiente generación.

Posteriormente se verifican las condiciones de parada. Si se cumplen, el algoritmo devuelve los mejores resultados, en caso contrario continúa el bucle. El comportamiento esperado del algoritmo es que la calidad media de las soluciones encontradas mejore en cada iteración hasta converger en el óptimo o hasta que se encuentre la solución o se cumpla alguna de las condiciones de parada destinadas a controlar el tiempo de ejecución.

Las condiciones de parada más comunes son que el grado de adaptación tome un valor dentro de un determinado rango, que se haya producido la convergencia de la población o que haya transcurrido un determinado número de generaciones, ya sea total o sin mostrar mejoras en las soluciones.

La evolución es un proceso de optimización [Mayr, 1988], por lo que el dominio natural de la computación evolutiva es la resolución de problemas de optimización para los que no existen algoritmos espec´ıficos, con la peculiaridad de utilizar pobla- ciones con múltiples soluciones [Bäck et al., 1997].

1. Codiﬁcaci´ on

El conjunto de genes (también llamado cromosoma) que componen un indivi- duo se denomina genotipo, y la solución que representan fenotipo. Los m´etodos de codificación tradicionales utilizan una representación binaria, aunque actualmente existen métodos de codificación con números reales. El método de codificación utilizado depende del problema a resolver, aunque lo ideal es utilizar funciones biyectivas siempre que sea posible.

El problema más grave de una función de codificación inapropiada es la existencia de soluciones no codificables, que puede ocasionar que el algoritmo no encuentre la solución apropiada. El siguiente problema en orden de gravedad es la existencia de individuos que codifiquen soluciones no válidas. Este problema puede mitigarse añadiendo una penalización a los individuos en la función de evaluación. Otro problema es que distintos individuos representen la misma solución. Esto aumenta el espacio de búsqueda, aunque esto no tiene por qué ser algo negativo si las soluciones repetidas son relativamente buenas.

(13)

5

Fig. 2: Esquema SSGA con operadores b´asicos.

2. Algoritmos Gen´ eticos

Los algoritmos genéticos (AG) son una rama de la computación evolutiva cuyos elementos distintivos son la codificación de individuos como vectores de genes y el uso del cruce como principal operador.

La figura 2 muestra el esquema de un algoritmo genético que hace uso de los operadores genéticos estándar: selección, cruce, mutación y reemplazo.

La primera fase del algoritmo, denominada inicialización de población, consiste en generar una población inicial de individuos. Normalmente la inicialización es aleatoria [Bäck et al., 1997, Spears et al., 1993], aunque existen métodos inteligentes que normalmente suelen ser espec´ıficos del problema.

La segunda fase consiste en evaluar la población y determinar si algún individuo cumple alguna de las condiciones de parada. Si la condición se cumple el algoritmo finaliza, en caso contrario comienza el bucle de operadores genéticos hasta que se cumple una condición de parada. A cada iteraci´on del bucle se le denomina gene- ración. Tras cumplirse la condici´on de parada, el algoritmo devuelve las mejores soluciones.

La selección emula al proceso de emparejamiento, mediante el cual los individuos compiten entre ellos por reproducirse. Al igual que en la naturaleza, los individuos mejor adaptados tienen mayor probabilidad de reproducirse. El cruce simula la re- producción. Los operadores de cruce combinan el genoma de varios progenitores para producir nuevos individuos. La mutación pretende introducir pequeños cam- bios aleatorios en el genoma con la intención de introducir diversidad en el acervo genético. Al igual que su análogo en la naturaleza, sus resultados son impredecibles.

El algoritmo gen´etico de la Figura 2 es un Steady State Genetic Algorithm (SS- GA). Esta variación se caracteriza por realizar un único cruce entre n padres en cada generación y aplicar el resto de operadores sobre la descendencia generada, por lo que los operadores no modifican la población de generaciones anteriores, excepto

(14)

6 2 Algoritmos Gen´eticos

en los reemplazos [Syswerda, 1991]. Los descendientes se introducen a la población en cada iteración, por lo que nunca se produce un reemplazo de toda la población simultáneamente.

2.1. Evaluaci´ on

La función de evaluación (o funci´on fitness) mide la calidad (o grado de adapta- ción) del fenotipo del individuo. La función de evaluación descodifica el genotipo del individuo para obtener el fenotipo y aplica un algoritmo o una función para obtener el grado de adaptación del individuo. El objetivo del algoritmo genético es encontrar un individuo cuyo grado de adaptación sea m´ınimo (o máximo).

2.2. Condici´ on de parada

La condición de parada determina el fin del bucle principal del algoritmo evolutivo. La condición de parada principal detiene el algoritmo cuando el grado de adaptación del mejor individuo toma un valor dentro del rango deseado. Esta condi- ción de parada no garantiza la finalización del algoritmo, pues éste puede converger prematuramente y estancarse en un óptimo local, por lo que es conveniente medir la convergencia de la población y detener el algoritmo si converge prematuramente.

Otro problema t´ıpico es el tiempo de ejecución, por lo que también puede introdu- cirse un número máximo de generaciones totales o de generaciones sin mejorar la solución encontrada.

2.2.1. Convergencia

Un gen con codificación finita converge cuando al menos el 95 % de los individuos de la población comparte el valor de dicho gen [De Jong, 1975]. En el caso de individuos con codificación real, se da cuando la variación en los valores del gen a través de toda la población es menor del 5 %. [Font et al., 2009b]

2.3. Selecci´ on

También llamado operador de reproducción. El operador de selección escoge los individuos que se utilizarán en el operador de cruce, también denominados padres y los almacena en el matting pool. Existen numerosos operadores de selecci´on, aunque normalmente son estocásticos y asignan mayor probabilidad a los individuos con mejor grado de adaptación. Los operadores pueden permitir seleccionar a un individuo varias veces.

El número de padres necesarios para un cruce satisfactorio puede variar depen- diendo del operador de cruce utilizado. En el m´etodo de la selección proporcional a la función objetivo [Barrios, 1991] la probabilidad de selecci´on es directamente proporcional al grado de adaptación, aunque este método puede asignar demasiado peso a individuos cuyo grado de adaptación sobresale de la media ocasionando sesgo.

(15)

2.4 Cruce 7

Fig. 3: M´etodo de la ruleta. [Font et al., 2009b]

El muestreo universal estocástico o m´etodo de la ruleta [Baker, 1987] utiliza un c´ırculo dividido en sectores de tamaño proporcional al grado de adaptación de la función objetivo. Los individuos se seleccionan utilizando marcadores equidistantes colocando el primero aleatoriamente. La Figura 3 ilustra el proceso de selección de 4 padres en una población de 4 individuos.

El orden de los individuos puede producir sesgo en la selecci´on, por lo que es conveniente colocarlos de forma aleatoria para reducirlo.

El m´etodo de selección por torneo [Brindle, 1981] selecciona al azar un n´umero predeterminado de individuos, y se realiza una competición para escoger k individuos. Se repite el proceso hasta obtener el número de padres deseado. Si la competición selecciona los k individuos de manera determinista se denomina torneo determinista, mientras que si lo hace de forma estocástica se denomina torneo probabil´ıstico. En los torneos probabil´ısticos, el mejor individuo tiene una probabilidad p de ser escogido.

2.4. Cruce

El operador de cruce genera nuevos individuos (llamados descendencia) a partir de los padres. Es un operador muy dependiente de la función de codificación. Aun- que existen operadores de cruce diseñados ad hoc para un método de codificación espec´ıfico, en general se distingue entre operadores de cruce con alfabeto finito y operadores de cruce con alfabeto real. La descendencia se genera aplicando operaciones aritméticas o combinatorias sobre los cromosomas de los padres. Normalmente es un operador explotativo, aunque existen variantes más explorativas, como MMX [Barrios et al., 2003].

(16)

8 3 Operadores de cruce para individuos con codiﬁcaci´on real

2.5. Mutaci´ on

El operador de mutación es un operador explorativo que modifica aleatoriamente genes del cromosoma del individuo. La probabilidad de ocurrencia y el número y naturaleza de las modificaciones dependen del operador utilizado. T´ıpicamente la probabilidad de ocurrencia es baja. Depende del método de codificación en menor medida que el operador de cruce, salvo si el método codificación permite codificar individuos no válidos, en cuyo caso debe ser tenido en cuenta a la hora de producir nuevos individuos.

2.6. Reemplazo

Introduce la descendencia en la población. El número total de individuos de la población normalmente no var´ıa, por lo que es necesario eliminar individuos para introducir los nuevos. Existen distintos operadores de reemplazo que se diferencian en la estrategia utilizada para seleccionar los individuos a eliminar. Los operadores son similares a los de selección, aunque dan mayor probabilidad a los peores individuos.

Si la introducción de individuos se produce antes de la eliminación, los hijos pueden ser eliminados en la misma iteración en la que han sido introducidos.

3. Operadores de cruce para individuos con codiﬁcaci´ on real

Los operadores de cruce tradicionales trabajan sobre individuos con codificación binaria, por lo que no son efectivos para codificación real. Esto se debe a que los operadores binarios se limitan a recombinar los genes de los progenitores, por tanto, el único operador capaz de generar nuevos genes es el de mutación, y dada su baja probabilidad de ocurrencia evita que se produzca la convergencia del algoritmo [Font et al., 2009b]

Normalmente los operadores de cruce con codificación real operan gen a gen, por lo que son altamente paralelizables. A continuación se explican los más utilizados.

3.1. Blend Crossover operator (BLX)

El operador BLX [Wright, 1991] act´ua sobre dos padres gen a gen. Toma los genes en la posici´on i de cada padre (a_i ,b_i) y obtiene los genes en la posici´on i de los hijos (c_i ,d_i). Las formulas utilizadas son las siguientes.

I = [a_i, b_i], con a_i ≤ bi (1)

c_i ∈ I (2)

d_i = a_i+ b_i− ci (3)

(17)

3.2 Blend alpha (BLX–α) 9

donde I es el int´ervalo de cruce, c_iel valor elegido aleatoriamente dentro del intervalo I y d_i el valor del gen calculado a partir del primero. La ecuaci´on (3) describe la selecci´on de un punto d_i sim´etrico a c_i con respecto al centro del intervalo I.

Se denomina intervalo de cruce I a los valores comprendidos entre los valores de los genes de los progenitores, [a_i, b_i]. Se obtiene el gen del primer hijo de forma aleatoria dentro del intervalo de cruce. El valor del gen del segundo hijo es simétrico al primero con respecto al centro del intervalo de cruce. Esto implica que el algoritmo es totalmente explotativo. Si se desea incluir exploración debe hacerse utilizando el operador de mutación. El método es altamente dependiente de una buena función de inicialización que distribuya la población inicial por todo el espacio de búsqueda.

3.2. Blend alpha (BLX–α)

El operador BLX–α [Eshelman and Schaﬀer, 1993] est´a basado en BLX. La meto- dolog´ıa para crear la descendencia es similar, aunque se a˜nade un factor explorativo al ensanchar el intervalo de cruce.

α∈ [0, 1] (4)

donde α es el factor de exploraci´on / explotaci´on. La distancia entre a_i y b_i, D, es el valor absoluto del resultado de restar el valor de un gen al otro gen:

D =|ai− bi| (5)

El producto de α y D se utiliza para ensanchar el intervalo I de BLX en ambos sentidos:

I = [a_i− αD, bi+ αD], con a_i ≤ bi (6) El gen del primer hijo se calcula de la misma forma que en BLX:

c_i ∈ I (7)

Si el rango de valores de los genes es [−∞, ∞] el gen del segundo hijo se calcula utilizando la misma ecuaci´on que BLX,

d_i = a_i+ b_i− ci (8)

debido a que αD− αD = 0.

Si el rango de valores no es inﬁnito, adem´as de tenerlo en cuenta a la hora de calcular el intervalo de cruce I para garantizar que est´a dentro del rango de valores permitidos.

I = [min(a_i− αD, L_inf), max(b_i+ αD, L_sup)], con a_i ≤ b_i (9) d_i = min(a_i− αD, Linf) + max(b_i+ αD, L_sup)− ci, con a_i ≤ bi (10) donde L_iinf es el l´ımite inferior del rango I y L_isup el l´ımite superior.

(18)

10 3 Operadores de cruce para individuos con codiﬁcaci´on real

Cuanto mayor es la diversidad gen´etica mayores son D y el intervalo de cruce, por lo que evita la convergencia prematura. El par´ametro α permite balancear entre explotación y exploración, aunque es estático, por lo que no puede adaptarse en función del estado actual de la población.

3.3. Operador de Cruce Morfol´ ogico (MMX)

El operador MMX [Barrios et al., 2003] est´a basado en BLX–α. La metodo- log´ıa es similar a éste, aunque el intérvalo de cruce se calcula mediante el gradiente morfológico, t´ıpicamente usado en procesamiento de imágenes para detectar bordes. Permite un número arbitrario de padres, aunque el número recomendado por el autor es 7.

I = [min(f_i) + ϕ(g_i), max(f_i)− ϕ(g_i)] (11)

c_i ∈ I (12)

d_i = min(f_i) + max(f_i)− c_i (13) Donde f_i es la columna de valores de los genes en la posici´on i de todos los proge- nitores, g_i es la medida de diversidad del gen en la posici´on i entre los progenitores y ϕ es la funci´on de exploración / explotación. Esta función determina el nivel de exploración y explotación en cada momento en función de la diversidad genética.

max() y min() son las funciones m´aximo y m´ınimo, respectivamente. Si el rango de búsqueda es limitado, hay que tenerlo en cuenta y modificar el cálculo del intervalo y del gen del segundo hijo:

I = [min(min(f_i) + ϕ(g_i), L_inf), max(max(f_i)− ϕ(gi), L_sup)] (14) d_i = min(min(f_i) + ϕ(g_i), L_inf) + max(max(f_i)− ϕ(gi), L_sup)− ci (15) donde L_inf y L_sup son los l´ımites inferior y superior del rango, respectivamente

3.3.1. Calculo de la diversidad de poblaci´on

La medida ideal de diversidad de población es la desviación t´ıpica, aunque tiene un alto coste computacional. Se utiliza como alternativa el gradiente morfológico, empleado en la detección de bordes de imágenes.

g_i = max(f_i)− min(fi) (16)

donde max(f_i) es el valor m´aximo de la columna de genes f_i y min(f_i) el m´ınimo.

Si g_i es pr´oximo a cero la diversidad gen´etica es baja.

(19)

3.3 Operador de Cruce Morfol´ogico (MMX) 11

Fig. 4: Funci´on ϕ de MMX. [Barrios et al., 2003]

3.3.2. Intervalo de cruce

El intervalo de cruce depende de los valores máximo y m´ınimo de cada gen, de la diversidad genética y de los parámetros de la función de exploración.

I = [min(f_i) + ϕ(g_i), max(f_i)− ϕ(gi)] (17) La Figura 4 muestra la funci´on ϕ. La funci´on tiene 4 parámetros predefinidos, a, b, c y d y se describe con la siguiente expresión anal´ıtica.

ϕ(g_i) =

⎧⎨

⎩

a + g_i^b−a_c si g_i < c dg_i− c

1− c si g_i ≥ c (18)

(20)

12 4 Estructura de las Redes de Neuronas Artiﬁciales

Parte III. Redes de Neuronas Artiﬁciales

Las redes de neuronas artificiales (RNA) son un modelo computacional inspirado en la estructura neuronal del cerebro. El modelo consiste en un conjunto de unidades de cómputo simples, llamadas neuronas artificiales, conectadas entre ellas mediante conexiones. No debe considerarse a las redes neuronales como una imitación fiel de la cognición de los seres vivos, puesto que no se conoce exactamente cómo funciona, sino como un mecanismo que intenta aproximar su método de resolver problemas aplicándolo a la ingenier´ıa.

El modelo original de neurona fue propuesto en 1943 [McCulloch and Pitts, 1943].

En 1959 se propuso ADALINE (Neurona Adaptativa Lineal), el primer modelo de red de neuronas aplicado a problemas del mundo real [Widrow, 1959]. En 1969 Minsky demuestra en su libro Perceptrons [Minsky and Papert, 1969] las limitaciones de las redes neuronales con una única capa oculta, lo que lleva al declive del campo. Pese a que siguen apareciendo ciertos avances, [Font et al., 2009b] el campo resurge en los 80 gracias a los trabajos de Hopfield [Hopfield, 1982] y especialmente al algoritmo de retropropagación de gradiente [Rumelhart et al., 1986], que es la base del aprendizaje profundo actualmente.

4. Estructura de las Redes de Neuronas Artiﬁciales

La estructura de una red de neuronas se denomina arquitectura y se representa mediante un grafo dirigido. La dirección de los arcos representa el flujo de informa- ción. Las neuronas que reciben como entrada los datos desde el exterior de la RNA se denominan neuronas de entrada, las neuronas cuya salida env´ıa la información fuera de la RNA se denominan neuronas de salida.

En función del recorrido que sigue la información las redes neuronales se clasifican en: alimentadas hacia adelante y recurrentes. Las redes neuronales alimentadas hacia adelante se organizan en capas. Las neuronas de una capa solo pueden tener entradas desde neuronas de capas anteriores y salidas hacia capas posteriores, y no pueden tener conexiones con ninguna neurona de su propia capa. El estado de activación de cada neurona sólo se calcula una vez, puesto que el sentido de la información siempre es hacia adelante. Las redes neuronales recurrentes no se organizan en capas, y las neuronas pueden tener conexiones con cualquier neurona de la red y consigo mismas.

Debido a la retroalimentaci´on, el estado de las neuronas cambia constantemente, por lo que la red debe de alcanzar un estado de equilibrio. En el presente trabajo s´olo se utilizan redes neuronales alimentadas hacia adelante.

La ﬁgura 5 muestra una red neuronal completamente conectada alimentada hacia adelante (FCFFNN). Esta arquitectura es un caso part´ıcular de red neuronal ali- mentada hacia adelante en la que cada neurona tiene su entrada conectada a todas las neuronas de la capa anterior, y su salida conectada a todas las neuronas de la siguiente capa.

(21)

13

Fig. 5: Red Neuronal Completamente Conectada Hacia Adelante (FCFFNN).

5. Aprendizaje

El aprendizaje automático es un campo de la Inteligencia Artificial (IA) que se dedica a la extracción automática de patrones relevantes a partir de datos [Shalev- Shwartz and Ben-David, 2014]. Las redes neuronales son un campo del aprendizaje automático. En una red neuronal el aprendizaje consiste en aproximar una función y = f (x) que sea capaz de calcular correctamente el valor de y para vectores x no vistos previamente. Esto se hace ajustando los pesos de las conexiones entre las neuronas utilizando un algoritmo de entrenamiento o aprendizaje.

El aprendizaje supervisado emplea un conjunto de vectores de entrenamiento etiquetado, P = {{p1, l₁}, {p2, l₂}...{pn, l_n}}, donde pi es el vector de datos que se le suministra a la red y l_i la etiqueta con el resultado esperado. Para entrenar las redes, se calcula alguna métrica de distancia o error entre la salida obtenida al eva- luar p_i y l_i, como por ejemplo el error cuadrático medio. Para que el aprendizaje se considere supervisado no es necesario que el conjunto de entrenamiento esté expl´ıci- tamente etiquetado: si se utiliza un algoritmo para verificar los resultados, o incluso la verificación humana, se considera aprendizaje supervisado.

El aprendizaje no supervisado emplea un conjunto de vectores de entrenamiento que no está etiquetado. T´ıpicamente empleado para clasificación, donde los elementos se catalogan en función de su distancia a las clases creadas. El autoencoder es una estructura de red neuronal cuyas entradas deben ser iguales a las salidas, por lo que se considera aprendizaje no supervisado: no requiere una etiqueta asociadas a cada vector de entrada.

6. Funcionamiento de las Redes de Neuronas Artiﬁciales

La red neuronal recibe los vectores de entrada por las neuronas de la capa de entrada, y proporcionan los resultados por la capa de salida.

Las neuronas est´an interconectadas por conexiones ponderadas por pesos que

(22)

14 6 Funcionamiento de las Redes de Neuronas Artiﬁciales

Algorithm 1 evaluacionF F N N (p) Datos: (p = vector de entrada)

Alimentar la capa de entrada (capa 1) de la RNA con p Calcular la salida de todas las neuronas de la capa de entrada capaActual = 2

mientras queden capas hacer

Calcular net_i de todas las neuronas de la capa capaActual Calcular la salida de todas las neuronas de la capa capaActual capaActual = capaActual + 1

ﬁn mientras

return resultado en la capa de salida ﬁn

cada neurona combina en un ´unico valor utilizando la regla de propagaci´on (net).

Normalmente la regla de propagaci´on consiste en la suma ponderada de las entradas de la neurona multiplicadas por los pesos de cada conexi´on:

net_i =

j

w_ijs_j (19)

donde net_i es el resultado de la regla de propagaci´on de la neurona i, w_ij es el peso de la conexi´on que va de la neurona j hacia la neurona i y s_j el valor de salida de la neurona j de la capa anterior.

La salida de una neurona (s_i) se calcula aplicando la funci´on de activaci´on F al valor calculado por la regla de propagaci´on:

s_i = F (net_i) (20)

Habitualmente la funci´on de activaci´on de las neuronas de la capa de entrada es la funci´on identidad, su net es la entrada suministrada.

Cada iteración del bucle del algoritmo 1 corresponde al cálculo de las neuronas de una capa y depende del resultado de la iteración anterior debido a que cada capa necesita las salidas de la capa anterior para calcular las propias, por lo que la evaluación de las neuronas de una misma capa puede hacerse en paralelo sin dependencias de datos.

6.1. Funciones de Activaci´ on

6.1.1. Lineal

La función de activación lineal es una ecuación lineal.

f (x) = mx + b (21)

La función de identidad es un caso particular de ésta función de activación.

(23)

6.1 Funciones de Activaci´on 15

(a) Tangente hiperb´olica. (b) Funci´on log´ıstica. (c) ReLU.

Fig. 6: Gráficas de las funciones de activación más utilizadas.

f (x) = x (22)

Es habitual utilizar la función identidad en la capa de entrada, aunque también puede estar presente en las neuronas de la capa de salida. El intervalo de salida es [-∞,∞]. Si dos capas consecutivas utilizan funciones de activación lineales pueden simplificarse en una única capa [Font et al., 2009b]. Debido a ello, este tipo de funciones raramente se utiliza en las capas ocultas, puesto que una red neuronal profunda con un número arbitrario de capas lineales se simplifica.

6.1.2. Tangente hiperb´olica

Es una funci´on de activaci´on continua (Figura 6a) [Fausett et al., 1994]. Su intervalo de salida es [-1,1]. Com´unmente abreviada como tanh.

f (x) = 1− e^−2x

1 + e^−2x (23)

Esta función es muy utilizada clásicamente con el algoritmo de entrenamiento de retropropagación de gradiente.

6.1.3. Log´ıstica

La función de activación log´ıstica o sigmoide es una función continua represen- tada por una curva log´ıstica simple [Fausett et al., 1994] (Figura 6b). Su intervalo de salida [0,1].

f (x) = 1

1 + e^−x (24)

Esta función es muy utilizada clásicamente con el algoritmo de entrenamiento de retropropagación de gradiente.

6.1.4. Rectiﬁed Linear Unit - ReLU

La función ReLU es una función identidad para valores positivos del dominio que devuelve 0 para valores negativos (Figura 6c). Se ha demostrado emp´ıricamente que es capaz de obtener mejores resultados que las log´ısticas y tangentes hiperbólicas [Glorot et al., 2011].

(24)

f (x) =

x si x > 0

0 si x≤ 0 (25)

Las ReLU reducen la densidad del flujo de información de la red debido a que todas las neuronas cuyo net sea negativo tienen sus salidas a cero, aunque si se desea una mayor densidad en el flujo de información de la red puede utilizarse la Leaky ReLU,

f (x) =

x si x > 0

ax si x≤ 0 (26)

T´ıpicamente a = 0,01 6.1.5. SoftMax

A diferencia de la mayor´ıa de funciones, que solo dependen del estado de activa- ción de la propia neurona, la función SoftMax depende de los estados de activación de las neuronas de toda la capa. La suma total de todas las salidas de una capa SoftMax es 1, por lo que se utilizan para calcular la probabilidad de pertenencia a una clase en problemas de clasificación.

La función se define mediante la ecuación, f (x) = e^netⁱ

netj

e^net^j

(27)

donde el denominador corresponde a la suma de e^net^j de todas las neuronas j de la capa y el numerador e^netⁱ de la neurona actual i.

6.2. Algoritmos de entrenamiento

Los algoritmos de entrenamiento o aprendizaje suministran a la red neuronal vectores de entrada y reajustan los pesos de las conexiones en función de las salidas de la red. Los métodos se dividen en aprendizaje supervisado (SL) si los vectores de entrenamiento están etiquetados con la salida correcta, o no supervisados (UL) en caso contrario.

6.2.1. Retropropagaci´on de gradiente

Propuesto por Rumelhart y Mclelland [Rumelhart et al., 1986]. Junto con sus modiﬁcaciones, es el algoritmo de entrenamiento m´as utilizado [Font et al., 2009a, Schmidhuber, 2015].

El c´alculo del net y las salidas de todas las neuronas se lleva a cabo mediante las ecuaciones 19 y 20.

El gradiente de la neurona i de la capa de salida para el vector p (δ_ip) se calcula mediante la ecuaci´on

(25)

6.3 M´etodos de inicializaci´on 17

Algorithm 2 BP (p)

Datos: (p = vector de entrada)

Calcular net y salidas de todas las neuronas para p

Calcular el gradiente δ_ip de todas las neuronas i de la capa de salida capaActual = numeroCapasRed− 1

mientras capaActual no sea la capa de entrada hacer

Calcular el gradiente δ de todas las neuronas de la capa oculta capaActual capaActual = capaActual− 1

ﬁn mientras

Calcular el incremento de los pesos de todas las conexiones, Δw_ij Actualizar pesos

ﬁn

δ_ip= (t_ip− sip)F(net_ip) (28) donde F es la derivada de la funci´on de activaci´on F y t_ip la salida esperada de la neurona i para el vector p.

El gradiente de las neuronas de las capas ocultas se calcula mediante la propa- gación hacia atrás del gradiente de las capas posteriores mediante la ecuación

δ_ip = F(net_ip)

k

w_kiδ_kp (29)

donde i son las neuronas con conexiones salientes hacia la neurona k El incremento de los pesos Δw_ij se calcula mediante la ecuaci´on

Δw_ij = μδ_ips_jp (30)

donde μ es la tasa de aprendizaje.

Existe cierta confusión con respecto al término ´epoca o epoch. Lo m´as habitual es considerar que una época consiste en la evaluación del conjunto de entrenamiento completo, aunque algunos trabajos hacen referencia a la época dando a entender que consiste en la evaluación y ajuste de pesos para un único subconjunto de vectores, también llamado lote. En adelante se considerará el primer supuesto: una

´

epoca consiste en la evaluaci´on del conjunto de entrenamiento completo y todas las actualizaciones de pesos correspondientes.

6.3. M´ etodos de inicializaci´ on

Al inicio del entrenamiento es necesario inicializar los pesos de las conexiones entre neuronas. El uso de inicialización completamente aleatoria junto con métodos de entrenamiento derivados de la retropropagación de gradiente puede causar problemas como la ca´ıda en óptimos locales, además de ralentizar el entrenamiento. El entrenamiento de una red neuronal es en esencia un problema de optimización, por

(26)

lo que seleccionar los pesos iniciales próximos al objetivo reduce estos problemas y acorta el tiempo de entrenamiento. El método de inicialización más apropiado depende de la estructura de la red y de las funciones de activación utilizadas.

Si un método requiere vectores de entrenamiento para calcular los pesos iniciales se denomina método de pre-entrenamiento, si no los necesita, método de inicializa- ción.

6.3.1. Inicializaci´on Xavier - Glorot

Propuesto por Xavier Glorot en 2010 [Glorot and Bengio, 2010]. Funciona mejor con las funciones de actibaci´on tanh y log´ıstica. Se trata de inicializar los valores de los pesos de cada conexión de forma aleatoria utilizando una distribución gaussiana, con media 0 y varianza basada en el número de entradas y salidas de la neurona,

V arianza_Xavier = 2

inputs + outputs (31)

donde inputs es el n´umero de conexiones entrantes hacia la neurona y outputs el n´umero de conexiones salientes.

Algunas implementaciones de redes neuronales como Caffe o TensorFlow [Abadi et al., 2015] utilizan funciones ligeramente distintas debido a que en su implementa- ción la estructura de datos utilizada para representar una capa solo guarda referencia a los pesos de las conexiones entrantes, por lo que contar el número de conexiones salientes tiene un coste computacional mayor:

V arianza_{XavierT F} = 1

inputs (32)

6.3.2. Inicializaci´on He

Propuesto en 2015 por He et al. [He et al., 2015]. Funciona mejor con la función de activación ReLU que la inicialización Xavier. Es similar al de Xavier, aunque difiere en el calculo de la varianza:

V arianza_He = 2

inputs (33)

6.4. Autoencoders

Un autoencoder es una red neuronal cuyos valores de entrada son iguales a los de salida (Figura 7), por lo que emplea aprendizaje no supervisados. [LeCun, 1987, Ballard, 1987, Schmidhuber, 2015]

T´ıpicamente los autoencoders son simétricos con respecto a la capa central y se componen de dos partes: Desde la capa de entrada hasta la capa central, ambas incluidas, se denomina codificador, y desde la capa central hasta la capa de salida, decodificador. Esta nomenclatura se debe a que si se divide el autoencoder en dos redes neuronales funcionan como un algoritmo de codificación (Figura 8): la red

(27)

6.4 Autoencoders 19

Fig. 7: Autoencoder.

neuronal cuya entrada es la entrada del autoencoder y su salida la capa central actúa como una función compresión de información, mientras que la red cuya capa de entrada es la capa central del autoencoder y su capa de salida la capa de salida del autoencoder actúa como una función de descompresión. El codificador (Figura 8a) funciona también como extractor de caracter´ısticas.

(a) Codiﬁcador. (b) Decodiﬁcador.

Fig. 8: Codiﬁcador y Decodiﬁcador obtenidos a partir del autoencoder de la Figura 7.

Los autoencoders se emplean t´ıpicamente para la reducci´on de dimensionalidad de datos [Hinton and Salakhutdinov, 2006], la extracci´on de caracter´ısticas [LeCun, 1987] o en aprendizaje por refuerzo [Lange and Riedmiller, 2010], entre otros [Good- fellow et al., 2016].

(28)

20 7 Limitaciones de la retropropagaci´on del gradiente en redes de neuronas profundas

7. Limitaciones de la retropropagaci´ on del gradiente en redes de neuronas profundas

Actualmente los algoritmos de entrenamiento más ampliamente utilizados son la retropropagación de gradiente y sus derivados. Estos métodos están presentes en las primeras posiciones en la mayor´ıa de competiciones de aprendizaje profundo, y fueron la causa del resurgimiento del campo de las redes neuronales [Font et al., 2009b]. Pese a todo ello, causa una serie de limitaciones que dificultan el entrenamiento, especialmente en sus fases más tard´ıas. Normalmente se obtienen los mejores resultados cuando se trata estas limitaciones utilizando enfoques espec´ıficos del problema tratado, aunque existen métodos genéricos.

7.1. Problema de la tendencia a cero o inﬁnito del gradiente

Introducido por [Bengio et al., 1994] (vanishing or exploding gradient ), es la mayor limitación a la hora de entrenar redes neuronales recurrentes para recono- cer relaciones muy separadas en el tiempo [Pascanu et al., 2013], aunque debido al mismo principio dificultan el aprendizaje en cualquier red neuronal lo suficien- temente profunda que utilice métodos de entrenamiento basados en el gradiente.

Las redes recurrentes t´ıpicamente presentan el problema de tendencia a infinito de los pesos durante el proceso de aprendizaje, mientras que en las redes alimentadas hacia adelante los pesos tienden a cero, especialmente cuando se utilizan funciones de activación que saturan en valores pequeños.

En redes neuronales profundas alimentadas hacia adelante entrenadas mediante algoritmos basados en la retropropagación de gradiente es posible que en las primeras capas los incrementos en los pesos tiendan a cero. La ecuación para el cálculo de gradiente de las neuronas de las capas ocultas ilustra el problema:

δ_ip = F(net_ip)

k

w_kiδ_kp (34)

La función se compone de la derivada de la función de activación de la neurona actual y la suma ponderada de los gradientes de la siguiente capa. En el caso de funciones sigmoides (tanh y log´ıstica) el problema se agrava, puesto que su derivada vale 0 para valores pequeños. La función ReLU resuelve este problema, pues su derivada siempre vale 1 para entradas positivas y 0 para negativas. El segundo factor es el responsable de la propagación hacia atrás del valor de pesos cercanos a cero, por tanto al aumentar el número de capas ocultas los pesos se hacen cada vez más pequeños.

7.2. Sobre-ajuste

El objetivo del entrenamiento supervisado es aproximar una funci´on y = f (x) a partir de un conjunto de vectores de entrenamiento {(x₁, y₁), (x₂, y₂)...(x_n, y_n)}, donde x_i es el vector de datos de entrada de la red e y_i la salida esperada. La red

(29)

7.2 Sobre-ajuste 21

debe ser capaz de estimar correctamente los valores de y para x no presentes en el conjunto de entrenamiento (generalización). El sesgo (bias) mide la diferencia entre las predicciones del modelo de entrenamiento y el resultado esperado, es decir, el error de entrenamiento. Un bias alto supone malos resultados para el conjunto de entrenamiento. La varianza mide la diferencia entre el error del conjunto de pruebas y el de entrenamiento. Una varianza elevada contribuye a obtener peores resultados al utilizar la red con vectores de datos no evaluados previamente. Normalmente la varianza se reduce suavizando la funci´on f (x), aunque esto aumenta el sesgo debido a la pérdida de precisión al suavizarla (compromiso varianza/sesgo). [Geman et al., 1992]

V arianza = Error_pruebas− Errorentrenamiento (35)

Sesgo = Errorentrenamiento (36)

El cálculo de la varianza puede realizarse durante las fases del entrenamiento utilizando el error de la red para el conjunto de pruebas, y hacer un cálculo final utilizando el error del conjunto de validación en su lugar.

Si se desea comparar el rendimiento de la red con el del ser humano, es posible restar el valor del error humano al error de entrenamiento para calcular el sesgo:

Sesgo_h = Errorentrenamiento − Errorhumano (37) Según esta definición, un sesgo negativo significa que la red neuronal es capaz de clasificar el conjunto de entrenamiento mejor que la media de los seres humanos.

Se dice que una red neuronal está sobre-ajustada cuando obtiene resultados significativamente peores evaluando vectores no vistos anteriormente que evaluando los presentes en el conjunto de entrenamiento. Debido al compromiso varianza/sesgo es dif´ıcil determinar la fuente del error y solucionarlo. Una estrategia habitual para medir el sobre-ajuste en tiempo real durante el entrenamiento consiste en dividir el conjunto de vectores de entrenamiento en tres conjuntos de datos: conjunto de en- trenamiento, conjunto de pruebas y conjunto de validación. Si el conjunto de datos es muy grande la distribución recomendada de vectores es 98 %, 1 %, 1 %, respectivamente, mientras que si el conjunto de datos es pequeño alrededor de 85 %,10 %,5 % para garantizar que los conjunto de pruebas y validación sean representativos.

Durante la fase de entrenamiento se utilizan los datos del conjunto de entrenamiento para calcular el error que se utiliza para ajustar los pesos de la red neuronal.

Cada cierto número de iteraciones se evalúan las entradas y salidas del conjunto de pruebas y se mide el error medio de la red sin actualizar los pesos. La medida de error obtenida se utiliza como referencia, aunque nunca tiene influencia en el resultado del entrenamiento, por lo que a efectos prácticos se puede decir que la red nunca ha visto esos vectores, por lo que pueden seguir utilizándose en iteraciones sucesivas. El conjunto de validación sólo se utiliza cuando se considera que la red está completamente entrenada y lista para su uso. Su función es validar que el entrenamiento ha sido correcto y asegurar que no se ha producido sobre-ajuste para el conjunto de pruebas.

(30)

22 8 Soluciones

7.3. Elevado coste computacional

El entrenamiento de redes neuronales conlleva un elevado coste computacional.

Con una implementación eficiente de la red neuronal el coste en memoria de almace- narla y entrenarla no es excesivo. El coste radica en el elevado número de operaciones necesarias para entrenar los pesos de la red.

Este problema se ha tratado clásicamente mejorando la capacidad de cómputo y la eficiencia de la implementación de los sistemas de redes de neuronas. En este campo, el mayor salto en capacidad de cómputo se produjo mediante la introducción de la computación con GPUs. También se han utilizando estrategias que reduzcan el número de épocas necesario para entrenar la red neuronal, como el entrenamiento por lotes (batch). Algunos métodos, como la distorsión de los vectores de entrada [Ciresan et al., 2012], permiten utilizar conjuntos de datos de entrenamiento más pequeños, reduciendo número de operaciones por época.

8. Soluciones

Pese a las limitaciones vistas anteriormente, la retropropagación de gradiente es el algoritmo de entrenamiento más utilizado en deep learning[Font et al., 2009b]. Se han desarrollado numerosos métodos destinados a reducir los problemas de tendencia a cero o infinito del gradiente, como la función ReLU, cuya derivada siempre es 0 para valores negativos y 1 para positivos, eliminando el problema que se produc´ıa al utilizar derivadas de funciones que se saturan.

Las funciones de inicialización vistas anteriormente, as´ı como numerosos méto- dos de pre-entrenamiento buscan encontrar buenos puntos de partida dentro del espacio de búsqueda de pesos. Los métodos de inicialización de He y Xavier arrojan buenos resultados [Glorot and Bengio, 2010, He et al., 2015] y, aunque aumentan el tiempo de inicialización, este tiempo es despreciable en comparación con el de entrenamiento, puesto que se realiza una única vez al comienzo del algoritmo.

8.1. Retropropagaci´ on de gradiente con factor momento

Es una modificación del algoritmo de retropropagación de gradiente. Se utiliza principalmente con objeto de reducir el tiempo de entrenamiento. El algoritmo es el mismo, aunque añade un factor de inercia o factor momento a la ecuación del cálculo del incremento de pesos:

Δw_ij(t) = μδ_i(t)s_j(t) + αΔw_ij(t− 1) (38) donde Δw_ij(t) es el incremento de peso, s_j(t) la salida de la neurona j para el vector actual, α es el factor momento y Δw_ij(t− 1) es el anterior incremento de peso.

El algoritmo reduce enormemente el número de iteraciones si el sentido del gradiente se mantiene. La desventaja de éste algoritmo es la misma que en todos los algoritmos de búsqueda con factor de inercia: el posible efecto rebote acrecentado por la inercia. El efecto rebote consiste en la oscilación producida en torno al objetivo o a un m´ınimo local. El par´ametro α determina el comportamiento del algoritmo.

(31)

8.2 Entrenamiento por lotes 23

Para valores elevados del factor de inercia, si el gradiente se mantiene el incremento de los pesos crece rápidamente, causando que la función de búsqueda avance con mayor velocidad hacia el objetivo, permitiéndole escapar con mayor facilidad de

´

optimos locales, aunque una vez próxima al objetivo, es probable que el factor de inercia ocasione que la búsqueda pase de largo el objetivo. En este caso se produce el efecto rebote, con el coste añadido de amortiguar la inercia acumulada. Si el factor momento es demasiado bajo, la inercia añadida el movimiento no supone una mejora significativa en el tiempo de entrenamiento.

8.2. Entrenamiento por lotes

El entrenamiento por lotes (batch) es una estrategia ampliamente utilizada en aprendizaje profundo. Disminuye el problema del sobre-ajuste, y se producen mejores resultados en menor tiempo. El algoritmo eval´ua un conjunto de n vectores de datos de entrenamiento, llamado lote o batch, calculando los incrementos en los pesos y acumul´andolos sin actualizar los pesos de las conexiones. Actualiza los pesos s´olo cuando ha terminado de evaluar el conjunto completo con la suma de los incrementos de cada peso en cada vector almacenados.

Algorithm 3 BP Lotes(P )

Datos: (T = Conjunto completo de vectores de entrenamiento agrupados en lotes {P₁, P₂...P_m}, P = Lote de vectores de entrenamiento {p₁, p₂...p_n})

i = 1

mientras i≤ m hacer k = 1

mientras k ≤ n hacer

Calcular net y salidas de todas las neuronas para el vector p_k

Calcular el gradiente δ de todas las neuronas de la capa oculta capaActual capaActual = capaActual− 1

ﬁn mientras

Calcular el incremento de los pesos de todas las conexiones, Δw_ij Acumular el incremento

k = k + 1 ﬁn mientras

Actualizar pesos con el incremento acumulado del lote completo i = i + 1

ﬁn mientras ﬁn

Puede utilizarse con cualquier versión de la retropropagación de gradiente y apenas aumenta el coste computacional en cada épocas a cambio de una notable

(32)

24 8 Soluciones

Fig. 9: A la izquierda, la red neuronal, a la derecha la red tras aplicar Dropout.

[Hinton et al., 2014]

Fig. 10: A la izquierda, los pesos durante la fase de entrenamiento, a la derecha durante la fase de pruebas. [Hinton et al., 2014]

mejora en los resultados y una reducción en el número total de épocas, reduciendo el coste computacional total. Una posible desventaja del método es que introduce un hiperparámetro adicional al algoritmo de entrenamiento, el tama˜no del lote, n, aumentando el tiempo requerido para el ajuste de los mismos.

8.3. Dropout y Dropconnect

Dropout es un algoritmo diseñado para reducir el sobre-ajuste. Propuesto en 2013, demostró obtener resultados significativamente mejores entrenando con retro- propagación de gradiente dos arquitecturas idénticas, una con dropout y otra sin

´

el para clasiﬁcar MNIST [LeCun and Cortes, 2010] y otros conjuntos de datos de pruebas. [Hinton et al., 2014].

El método consiste en desactivar temporalmente neuronas de forma aleatoria durante la fase de entrenamiento como se muestra en la Figura (9). Los net de dichas neuronas no se calculan, y las neuronas conectadas a sus salidas no reciben entradas de las neuronas desactivadas. Durante la fase de retropropagación dichas neuronas tampoco están activas, por lo que los pesos de sus conexiones entrantes y salientes tampoco se actualizan. Para cada vector evaluado las neuronas desactivadas son diferentes.

(33)

8.4 Pretraining 25

Algorithm 4 DropoutBP (p)

Datos: (t = vector de entrenamiento)

Seleccionar aleatoriamente las neuronas a desactivar Calcular net y salidas de las neuronas activas para t

Calcular el gradiente δ de todas las neuronas activas de la capa capaActual capaActual = capaActual− 1

ﬁn mientras

Calcular el incremento de los pesos de todas las conexiones activas, Δw_ij Actualizar pesos de todas las conexiones activas

Reactivar todas las neuronas.

ﬁn

Durante la fase de entrenamiento, se asigna una probabilidad p a cada neurona de mantenerse activada. En ésta fase el c´alculo del net no var´ıa con respecto al algoritmo normal de retropropagación de gradiente, aunque, como se muestra en la Figura 10, en la fase de pruebas los pesos se multiplican temporalmente por p para mantener la suma total consistente con la suma de red generada con dropout. Los pesos de la red final tambi´en deben multiplicarse por p. Los valores t´ıpicos de p son:

0,5 para las neuronas ocultas y entre 0,75 y 1 para las de entrada [Hinton et al., 2014].

Dropconnect [Le Cun et al., 2013] es una generalizaci´on del algoritmo de dropout.

En esta versión se desactivan las conexiones individualmente, en lugar de desactivar neuronas completas. El algoritmo ostenta desde 2013 el récord mundial de clasifica- ción de MNIST, con un error del 0.21 %, similar al error humano para ese dataset.

[Le Cun et al., 2013] Si el error humano es igual o mayor al error del conjunto de entrenamiento el sesgo es 0 %. Dado que en este caso la diferencia de errores entre los conjuntos de entrenamiento y test es también muy reducida, la varianza es también próxima a 0.

8.4. Pretraining

El objetivo del pre-entrenamiento es es mismo que el de los métodos de inicia- lización inteligentes: proporcionar un buen punto de partida al algoritmo de entrenamiento. Al igual que los métodos de inicialización, reducen el tiempo de entrenamiento, reducen el riesgo de ca´ıda en óptimos locales y ralentizan la tendencia a cero o infinito de los pesos de las conexiones. Todo ello contribuye también a reducir el sobre-ajuste de la red.

La diferencia con los métodos de inicialización es que el pre-entrenamiento necesita vectores de entrenamiento. No es imperativo que éstos datos sean idénticos a los que se utilizan en el algoritmo de entrenamiento. Durante el pre-entrenamiento