Algoritmos evolutivos - Desempeño de los modelos regresivos

ÍNDICE DE TABLAS

1. MARCO TEÓRICO

1.4. ANÁLISIS DE DATOS

1.4.8. Desempeño de los modelos regresivos

1.4.8.2. Algoritmos evolutivos

La selección de variables es un problema de optimización. Por lo tanto, algoritmos de optimización inspirados en la biología del proceso de la selección natural han estado en uso desde la década de 1950 (Mitchell, 1998), y se conocen a menudo como algoritmos evolutivos. El algoritmo genético (AG) es uno de esos métodos, y fue inventado por John Holland en 1960 (Holland, 1975), otro son las estrategias de evolución (EE) que fueron introducidas por Storn y Price, 1990 (Storn y Price, 1997). A continuación se realiza una breve descripción de estos métodos de optimización.

a) Algoritmos genéticos

Los algoritmos genéticos se aplican a operaciones lógicas, por lo general la selección particular de las variables puede ser denotado por un vector que consiste en

o po e tesà i a ios:à u à à i di aà ueà seà sele io aà laà a ia le,à u à 'à oà seà

selecciona. Tal vector de longitud (el número total de variables) define uno de los posibles subconjuntos de variables y es simplemente una cadena de bits. Dicho vector recibe el nombre de cromosoma que contiene genes. Un conjunto de cromosomas diferentes (cada uno en representación de los posibles subconjuntos de variables), se llama población (Figura 19). En el transcurso de sucesivas generaciones, los miembros de la población tienen más probabilidades de representar un mínimo de una función objetivo (Varmuza y Filzmoser, 2009; Ardia et al., 2011). Los algoritmos genéticos han demostrado ser útiles para los métodos heurísticos de optimización global, en particular para los problemas de optimización combinatoria (e.g. calibración de múltiples parámetros de un modelo de forma simultánea) (Mullen et al., 2011).

Figura 19- Esquema de un AG aplicado a la selección de variables. El primer cromosoma define un subconjunto de cuatro variables, seleccionadas de variables. Fitness es una medida del

desempeño de un modelo construido a partir del correspondiente subconjunto de variables

En general, la población contendrá cromosomas con diferente estado físico, y la estrategia de AG es producir mejores poblaciones. La siguiente población en cadena de la evolución se obtiene por acciones inspiradas en la biología de la siguiente manera:

 Algunos de los peores cromosomas se eliminan y sustituyen por nuevos cromosomas (Competencia).

 Nuevos cromosomas se derivan a partir de pares de cromosomas buenas, sobre todo por una llamada de cruce (Figura 4.21). La idea es que una combinación de dos buenos cromosomas puede producir una aún mejor.

 Un pequeño porcentaje de los genes se cambian aleatoriamente por mutación, es

de i à algu osà à seà a ia à po à 1 y viceversa. Esta acción aleatoria se debe evitar para ser atrapado en óptimos locales. La tasa de mutación puede disminuir durante la formación para lograr una mejor convergencia.

Determinar la aptitud o fitness para los nuevos cromosomas completa una generación de un entrenamiento del AG. El procedimiento se repite hasta que se alcanza un criterio de terminación (por ejemplo, ningún aumento en la aptitud de los mejores cromosomas o el máximo número definido de las generaciones alcanzadas).

b) Estrategias de evolución

En la década de 1990 Rainer Storn y Kenneth Price desarrollaron una estrategia de evolución que denominaron Evolución Diferencial (ED) (Storn y Price, 1997). ED está particularmente bien adaptado para encontrar el óptimo global de una función de valor real de los parámetros con valores reales, y no requiere que la función sea continua o diferenciable. En los casi 16 años desde su invención, ED ha sido aplicado con éxito en una

amplia variedad de campos, desde la física computacional a diferentes operaciones de investigación, como catalogaron (Price et al., 2005).

Este algoritmo es una técnica evolutiva que en cada generación transforma un conjunto de vectores de parámetros, denominado población, en otro conjunto de vectores de parámetros, cuyos miembros tienen más probabilidades de minimizar la función objetivo. Con el fin de generar un nuevo vector de parámetros, ED perturba un viejo vector de parámetros con la diferencia escalada entre dos vectores de parámetros seleccionados al azar (Ardia et al., 2011).

La variable NP representa el número de vectores de parámetros en una población. En la generación 0, NP supone que valor óptimo del vector de parámetros se realiza, o bien utilizando valores aleatorios entre los límites superior e inferior para cada parámetro o utilizando valores dados por el usuario. Cada generación implica la creación de una nueva población a partir de los miembros actuales de la población , donde hace referencia a los índices de los vectores que componen la población y indexa la generación. Esto se logra mediante una mutación diferencial de los miembros de la población. Un vector de prueba de parámetros mutante es creado mediante la selección de forma aleatoria de tres miembros: y (Price et al., 2005; Ardia et al., 2011). Entonces, es generado como: ) ( ₁_, ₂_, , 0 ,g r g r g r g i x F x x v     Ecuación 40-

donde es un factor escalar positivo, que controla la tasa en la cual el algoritmo evoluciona. Mientras que no se determine un límite superior en , los valores efectivos son rara vez superiores a 1 (Price et al., 2005).

Después de completar la primera mutación, ésta continua hasta que las mutaciones equivalentes a la longitud de ( ) se han hecho o hasta que , donde es la probabilidad cruzada3 _{[ ]}, y se utiliza para denotar un numero aleatorio

. La probabilidad de cruce es un valor definido por el usuario que controla la fracción de los valores de los parámetros que se copian de los mutantes. Si el número aleatorio es menor o igual a , el parámetro de ensayo se hereda del mutante, , de lo contrario, el parámetro se copia a partir del vector, . es solo una aproximación de la verdadera probabilidad, , pero no representa exactamente la probabilidad que el valor de un parámetro será heredado del mutante, ya que siempre se produce al menos una mutación. La mutación se aplica de esta manera a cada miembro de la población (Ardia et al., 2011).

Probabilidad de cruce para indicar una relación de cuántos miembros de una población serán seleccionados como parejas para el apareamiento.

Si se encuentra un elemento del vector de parámetros violando los límites después de la mutación y cruce, éste es reiniciado, donde es el índice dentro de un vector de parámetro. Esto garantiza que los candidatos miembros de la población considerados como infractores se establezcan una cierta cantidad aleatoria lejos de los demás miembros, de tal manera que se garantice el cumplimiento de los límites (Ardia et al., 2011).

Luego, se determinan los valores de la función objetivo asociados con los herederos de . Si un vector de ensayo , tiene un valor en la función objetivo igual o menor que el vector , éste se sustituye por en la población, de lo contrario permanece. El algoritmo se detiene después de un número determinado de generaciones, o después de que el valor de la función objetivo asociada con el mejor miembro se ha reducido por debajo de un umbral establecido, o si no es capaz de reducir el mejor miembro encontrado en las iteraciones establecidas (Ardia et al., 2011). Por último, Price et al. (2005) encontraron que la variación de los valores de NP y resultaron ser más efectivos en solución de una variedad de problemas.

In document Métodos Machine Learning aplicados para estimar la concentración de los contaminantes de la DQO y de los SST en hidrosistemas de saneamiento urbano a partir de espectrometría UV-Visible (página 68-71)