La Relatividad en la Comparación de Algoritmos de Optimización Ciega: Hacia la Coevolución de Algoritmos y Problemas-Edición Única

(1)

Instituto Tecnológico y de Estudios Superiores de Monterrey Campus Monterrey

Monterrey, Nuevo León a

Por medio de la presente hago constar que soy autor y titular de la obra

titulada"

en los sucesivo LA OBRA, en virtud de lo cual autorizo a el Instituto Tecnológico

y de Estudios Superiores de Monterrey (EL INSTITUTO) para que efectúe la divulgación, publicación, comunicación pública, distribución y reproducción, así como la digitalización de la misma, con fines académicos o propios al objeto de

EL INSTITUTO.

El Instituto se compromete a respetar en todo momento mi autoría y a

otorgarme el crédito correspondiente en todas las actividades mencionadas anteriormente de la obra.

De la misma manera, desligo de toda responsabilidad a EL INSTITUTO

por cualquier violación a los derechos de autor y propiedad intelectual que cometa el suscrito frente a terceros.

Nombre y Firma

AUTOR (A)

de 200

Lic. Arturo Azuara Flores:

(2)

c

(3)

La Relatividad en la Comparación de Algoritmos de

Optimización Ciega: Hacia la Coevolución de Algoritmos y

Problemas-Edición Única

Title La Relatividad en la Comparación de Algoritmos de Optimización Ciega: Hacia la Coevolución de Algoritmos y Problemas-Edición Única

Authors Carlos David Toledo Suárez

Affiliation ITESM-Campus Monterrey

Issue Date 2006-12-01

Item type Tesis

Rights Open Access

Downloaded 19-Jan-2017 10:23:22

(4)

La Relatividad en la Comparaci´

on de

Algoritmos de Optimizaci´

on Ciega: Hacia

la Coevoluci´

on de Algoritmos y Problemas

T E S I S

Maestr´ıa en Ciencias en Sistemas Inteligentes

Instituto Tecnol´

ogico y de Estudios Superiores de Monterrey

Por

Ing. Carlos David Toledo Su´

arez

(5)

La Relatividad en la Comparaci´

on de

Algoritmos de Optimizaci´

on Ciega: Hacia

la Coevoluci´

on de Algoritmos y Problemas

TESIS

Maestr´ıa en Ciencias en

Sistemas Inteligentes

Instituto Tecnol´

ogico y de Estudios Superiores de Monterrey

Por

Ing. Carlos David Toledo Su´

arez

(6)

Instituto Tecnol´

ogico y de Estudios Superiores de

Monterrey

Divisi´

on de Tecnolog´ıas de Informaci´

on y Electr´

onica

Programa de Graduados de la División de Tecnolog´ıas de Información y Electrónica

Los miembros del comité de tesis recomendamos que la presente tesis de Carlos David Toledo Suárez sea aceptada como requisito parcial para obtener el grado académico

de Maestro en Ciencias en: Sistemas Inteligentes

Comit´

e de tesis:

Dr. Manuel Valenzuela Rend´on

Asesor de la tesis

Dr. Hugo Terashima Mar´ın

Sinodal

Dr. Eduardo Uresti Charre

Sinodal

Dr. Graciano Dieck Assad

Director del Programa de Graduados de la Divisi´on de Tecnolog´ıas de

Informaci´on y Electr´onica

(7)

La Relatividad en la Comparaci´

on de

Algoritmos de Optimizaci´

on Ciega: Hacia

la Coevoluci´

on de Algoritmos y Problemas

Por

Ing. Carlos David Toledo Su´

arez

TESIS

Presentada a la División de Tecnolog´ıas de Información y Electrónica Este trabajo es requisito parcial para obtener el grado académico de Maestro en

Ciencias en Sistemas Inteligentes

Instituto Tecnol´

ogico y de Estudios Superiores de Monterrey

Campus Monterrey

(8)

(9)

Reconocimientos

Al Consejo Nacional de Ciencia y Tecnolog´ıa y a la cátedra de Optimización Evo-lutiva del Instituto Tecnológico y de Estudios Superiores Campus Monterrey por el apoyo en la realización de mis estudios de maestr´ıa y en la investigación que dio origen a esta tesis.

A mi asesor de tesis y sinodales.

A mi familia. . .

Carlos David Toledo Su´

arez

(10)

La Relatividad en la Comparaci´

on de

Algoritmos de Optimizaci´

on Ciega: Hacia

la Coevoluci´

on de Algoritmos y Problemas

Carlos David Toledo Su´arez, M.C.

Instituto Tecnol´ogico y de Estudios Superiores de Monterrey, 2006

Asesor de la tesis: Dr. Manuel Valenzuela Rend´on

Un sueño de la computación evolutiva es generar algoritmos que puedan adaptarse a los problemas que enfrentan y a través de estas adaptaciones volverse más aptos, análogamente a los procesos mediante los cuales las especies biológicas evolucionan en conjunto, coevolucionan. Con esta analog´ıa en mente es que se llama coevolución de

algoritmos y problemas al proceso de adaptaci´on de algoritmos para resolver problemas

sucesivamente más dif´ıciles. Saber qué es fácil o dif´ıcil para cierto algoritmo de opti-mización es un problema de investigación abierto para el que se cree no puede existir un marco teórico definitivo, por la complejidad de los sistemas implicados.

La tesis descrita en este documento propone que es posible usar a la coevolución de algoritmos y problemas para resolverlo, basándose en la hipótesis de que planteado como problema de optimización sólo es posible saber qué es fácil o dif´ıcil para un algoritmo de optimización ciega tomando en cuenta a otro.

La principal contribución de la tesis es mostrar que asumir la hipótesis de la re-latividad en la comparación de algoritmos de optimización ciega hace posible la imple-mentación de la coevolución de algoritmos y problemas, que el problema planteado por dicha coevolución es complementario al de buscar problemas que hagan quedar mejor a un algoritmo frente a otro, a los que se les da el nombre deproblemas tendenciosos.

(11)

´Indice general

Reconocimientos VII

Resumen VIII

´Indice de tablas XI

´Indice de figuras XII

Cap´ıtulo 1. Introducci´on 1

1.1. Antecedentes . . . 1

1.2. Definici´on del problema . . . 2

1.3. Preguntas de investigaci´on . . . 2

1.4. Hip´otesis . . . 3

1.5. Objetivo . . . 3

1.6. Contribuci´on de la investigaci´on . . . 3

1.7. Organizaci´on del documento . . . 3

Cap´ıtulo 2. Algoritmos de optimización ciega y su comparación vista como problema de optimización 5 2.1. Definiciones . . . 5

2.2. No Free Lunch is No Big Deal . . . 7

2.3. La relatividad en la comparaci´on de algoritmos de optimizaci´on . . . . 8

2.4. Medida de desempe˜no y problemas tendenciosos . . . 9

2.5. Resumen . . . 10

Cap´ıtulo 3. Algoritmo de coevolución incremental 12 3.1. Contras a la búsqueda de problemas tendenciosos como problema de optimización . . . 12

3.2. Algoritmo gen´etico generacional simple y coevoluci´on . . . 13

3.3. Algoritmo de coevoluci´on incremental . . . 15

3.4. Coevoluci´on incremental de algoritmos y problemas . . . 16

(12)

Cap´ıtulo 4. La arena y los contendientes 20

4.1. Codificaci´on de problemas . . . 20

4.2. Algoritmos a competir y la codificaci´on de sus afinaciones . . . 23

4.2.1. AG generacional simple . . . 23

4.2.2. Recocido simulado . . . 24

4.2.3. B´usqueda aleatoria . . . 26

4.3. Operadores de cruce y mutaci´on . . . 26

4.4. Resumen . . . 27

Cap´ıtulo 5. Experimentos y an´alisis de resultados 29 5.1. AG vence a recocido simulado . . . 30

5.2. Recocido simulado vence a AG . . . 30

5.3. B´usqueda aleatoria vence a AG . . . 31

5.4. B´usqueda aleatoria vence a recocido simulado . . . 31

5.5. An´alisis de resultados y comparaci´on con teor´ıas de dificultad . . . 32

5.5.1. Intermezzo mutacional . . . 35

5.5.2. Teor´ıa de enga˜no . . . 36

5.5.3. Escalamiento y multimodalidad . . . 40

5.5.4. Espacios de aptitudes . . . 41

5.6. Conclusiones del an´alisis . . . 47

5.7. Resumen . . . 48

Cap´ıtulo 6. Conclusiones 50 6.1. Investigaciones futuras . . . 51

6.1.1. Codificaci´on de problemas y algoritmos . . . 51

6.1.2. Medida de desempe˜no y eficiencia . . . 51

6.1.3. Ecuaciones de ajuste y parámetros del ACI e inclusión de más poblaciones . . . 52

6.2. Comentarios finales . . . 52

Bibliograf´ıa 53

(13)

´Indice de tablas

3.1. Pasos b´asicos de un AG generacional simple . . . 14

3.2. Pasos b´asicos de un ACS . . . 15

3.3. Pasos b´asicos de un ACI . . . 17

4.1. Codificaci´on de la afinaci´on del AG . . . 24

4.2. Pasos b´asicos del recocido simulado . . . 25

4.3. Codificaci´on de la afinaci´on del recocido simulado . . . 25

4.4. Cruce de un punto en un cromosoma binario de 10 bits . . . 27

5.1. Par´ametros del ACI usados en todos los experimentos . . . 29

5.2. Datos sobre ganadores de competencias de 19 bits para el problema de la figura 5.1: (a) Evaluación, (b) diferencia entre miembros que lo forman, (c) número de bits que no coinciden con el óptimo global, (d) máxima separación entre bits no coincidentes. El promedio de las evaluaciones es 0.3399. . . 43

5.3. Datos sobre ganadores de competencias de 19 bits para el problema de la figura 5.3: (a) Evaluación, (b) diferencia entre miembros que lo forman, (c) número m´ınimo de bits que no coinciden con uno de los 351 óptimos globales, (d) m´ınima de las máximas separaciones entre bits no coincidentes con alguno de los óptimos globales. El promedio de las evaluaciones es 0.0214. . . 44

5.4. Datos sobre ganadores de competencias de 19 bits para el problema de la figura 5.5: (a) Evaluación, (b) diferencia entre miembros que lo forman, (c) número m´ınimo de bits que no coinciden con uno de los 2 óptimos globales, (d) m´ınima de las máximas separaciones entre bits no coincidentes con alguno de los óptimos globales. El promedio de las evaluaciones es 0.1387. . . 45

(14)

´Indice de figuras

2.1. Curvas de mejor encontrado para dos algoritmos a1 y a2 (con n grande). 10

3.1. Funci´on tanh(x) . . . 19 4.1. Ejemplo de pasos en la codificaci´on de funciones a usar: (a) la longitud

del segmento ies ri y Pji=1θj es el ´angulo entre los segmentosi−1 e i

, (b) rotaci´on, (c) reordenamiento de dominio y escalamiento. . . 21 4.2. Funci´on con α =π/100 yN = 103 _{. . . .} ₂₂

4.3. Funci´on con α =π/10 yN = 103 _{. . . .} ₂₂

4.4. Ejemplo del efecto del cruce para posibles funciones g o h con N = 103

y α=π/100 . . . 27 5.1. Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas

y gr´afica del mejor problema tendencioso en el que AG vence a RS . . . 30 5.2. Historia de las mejores aptitudes de las afinaciones en la corrida del ACI

en que se encontr´o el problema de la figura 5.1. . . 31 5.3. Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas

y gr´afica del mejor problema tendencioso en el que RS vence a AG . . . 32 5.4. Historia de las mejores aptitudes de las afinaciones en la corrida del ACI

en que se encontr´o el problema de la figura 5.3. . . 33 5.5. Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas

y gr´afica del mejor problema tendencioso en el que BA vence a AG . . 34 5.6. Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas

y gr´afica del mejor problema tendencioso en el que BA vence a RS . . . 35 5.7. Ejemplos de problemas en los que es derrotado el AG. En los dos

supe-riores fue derrotado por RS y en los infesupe-riores por BA. . . 36 5.8. (a) Distribución de frecuencias de la evaluación de los máximos locales,

(15)

5.9. (a) Distribución de frecuencias de la evaluación de los máximos locales, (b) distribución de las evaluaciones de los máximos locales versus su m´ınima distancia de Hamming a uno de los 351 máximos globales , (c) distribución de frecuencias de la cantidad de pasos dados antes de encontrar un máximo local; todos para el problema de la figura 5.3. . . 38 5.10. (a) Distribución de frecuencias de la evaluación de los máximos locales,

(b) distribución de las evaluaciones de los máximos locales versus su m´ınima distancia de Hamming a uno de los dos máximos globales , (c) distribución de frecuencias de la cantidad de pasos dados antes de en-contrar un máximo local; todos para el problema de la figura 5.5. . . . 39 5.11. (a) Distribución de frecuencias de la evaluación de los máximos locales,

(b) distribución de las evaluaciones de los máximos locales versus su distancia de Hamming al máximo global, (c) distribución de frecuencias de la cantidad de pasos dados antes de encontrar un máximo local; todos para el problema de la figura 5.6. . . 40 5.12. Curvas de mejor encontrado para el problema de la figura 5.3 asignando

al AG una probabilidad de mutaci´on del 50 %. . . 41 5.13. Curvas de mejor encontrado para el problema de la figura 5.5 asignando

al AG una probabilidad de mutaci´on del 50 %. . . 42 5.14. Gr´afica en la que cada punto blanco situado en (x, y) significa que es

(16)

Cap´ıtulo 1

Introducci´

on

1.1. Antecedentes

Casi cualquier problema de diseño ingenieril e incluso cient´ıfico puede traducirse como un proceso de optimización combinatoria. Teniendo un modelo matemático del comportamiento de algo que recibiendo datos de entrada brinda otros de salida, llamado

espacio de búsqueda, suele resultar útil encontrar para qué valores de entrada los de salida son máximos o m´ınimos. Los casos en que pueden encontrarse óptimos por medios anal´ıticos tradicionales como el cálculo son escasos en la práctica, lo que ha dado origen a la creación de una infinidad de algoritmos de optimización. Se llama optimización

ciega a todo aquel caso en que no se cuenta con una forma de saber el valor del ´optimo

a buscar.

A pesar de la existencia del teorema No Free Lunch (NFL) que afirma que, pro-mediados sobre el espacio de todos los problemas posibles, todos los algoritmos de optimizaci´on ciega son igualmente eficientes (Wolpert y Macready, 1995a), se ha man-tenido la sospecha de que algunos son mejores que otros ante algunos problemas. Hasta ahora no se ha dado un nombre propio a este tipo de problemas, por lo que por fines de referencia f´acil en esta tesis se denominanproblemas tendenciosos.

Se llama computación evolutiva al conjunto de técnicas computacionales basadas en la mecánica de la selección natural y la idea darwiniana de la supervivencia de acuerdo a la aptitud. Un ejemplo caracter´ıstico es el algoritmo genético (Goldberg, 1989), que en su versión más simple es un método estocástico de búsqueda en el que las posibles soluciones a un problema son codificadas en forma de tiras de caracteres de un alfabeto que asemejan los cromosomas de seres vivos. Un algoritmo genético evoluciona una población de estos individuos aplicando los operadores genéticos de selección, cruce y mutación.

(17)

sus-tentados en la selección natural mediante los cuales las especies biológicas evolucionan en conjunto, coevolucionan. Con esta analog´ıa en mente es que se llama coevolución de

algoritmos y problemas al proceso de adaptaci´on de algoritmos para resolver problemas

sucesivamente m´as dif´ıciles.

1.2. Definici´

on del problema

Todo proceso de computaci´on evolutiva requiere que existan caracter´ısticas medi-bles en lo que se desea evolucionar mediante las cuales sea posible distinguir combina-ciones buenas de ellas que valga la pena explotar. El problema de lograr la coevoluci´on de algoritmos y problemas implica resolver tres sub-problemas principales:

1. Encontrar una representación de problemas tal que la aplicación de operadores genéticos sobre ellos brinden resultados significativos, que se hereden y recombi-nen a lo largo de las generaciones las caracter´ısticas que los hacen aptos y que sirva para representar muchos espacios diferentes.

2. Encontrar la forma de medir la aptitud de un problema de optimización frente a un algoritmo haciendo búsqueda en él, es decir, que el hecho de que los máximos y m´ınimos de dos espacios sean numéricamente diferentes esto no afecte en demas´ıa la selección de uno sobre el otro, sino primordialmente cómo se comporta un algoritmo en ellos.

3. Si lo que se desea evolucionar son las caracter´ısticas que definen el comportamien-to de un algoritmo, eso significa que lograrlo requiere disponer de formas de com-parar el desempe˜no de dicho comportamiento con otros.

Saber qué es fácil o dif´ıcil para cierto algoritmo de optimización ciega es otro problema de investigación abierto para el que se cree no puede existir un marco teórico definitivo, por la complejidad de los sistemas implicados.

1.3. Preguntas de investigaci´

on

Las preguntas que gu´ıan la investigaci´on presentada en esta tesis son:

(18)

1.4. Hip´

otesis

La presente tesis está basada en la hipótesis de que sólo es posible medir las caracter´ısticas que determinan qué es fácil o dif´ıcil para un algoritmo en términos de otro algoritmo, es decir que si se plantea como problema de optimización sólo es posible saber qué es fácil o dif´ıcil para un algoritmo de optimización ciega tomando en cuenta a otro, que no hay una forma absoluta de evaluar una búsqueda ciega. Esta es lahipótesis de la relatividad en la comparación de algoritmos de optimización ciega. A partir de las caracter´ısticas que un algoritmo debe tener para poder implementar este proceso de optimización es que aparece como respuesta natural la coevolución de algoritmos y problemas.

1.5. Objetivo

Esta tesis tiene el objetivo principal de mostrar que asumir la hipótesis de la relatividad en la comparación de algoritmos de optimización ciega hace posible la im-plementación de la coevolución de algoritmos y problemas, es decir que el problema planteado por dicha coevolución es complementario al de buscar problemas tenden-ciosos.

1.6. Contribuci´

on de la investigaci´

on

Son dos las principales contribuciones del trabajo mostrado en esta tesis:

La introducción de la hipótesis de la relatividad en la comparación de algoritmos de optimización ciega, como un paradigma que resuelve automáticamente los sub-problemas 2 y 3 mencionados en la definición del problema.

La presentación de una codificación de funciones que hace posible ocuparlas como individuos de un algoritmo genético, suficiente para lidiar con el sub-problema 1 mencionado en la definición del problema.

1.7. Organizaci´

on del documento

Este documento est´a organizado de la siguiente forma:

(19)

comunidad de investigadores. Esta exposici´on sirve como marco para introducir la idea de hacer comparaciones de algoritmos mediante la b´usqueda de problemas tendenciosos, basada en la relatividad de dichas comparaciones.

Cap´ıtulo 3 Se presenta al algoritmo de coevolución incremental (ACI) y algunos de los detalles de su implementación (que son complementados en el siguiente cap´ıtulo) para encontrar problemas tendenciosos mediante la coevolución de problemas y afinaciones de algoritmos.

Cap´ıtulo 4 Se presenta la forma en que se codifican los problemas de optimización que constituyen a la población de problemas del ACI, as´ı como los algoritmos —genético generacional simple, recocido simulado y búsqueda aleatoria— y las codificaciones de sus afinaciones que dan forma a las otras dos poblaciones im-plicadas en él, y se explica la forma como se aplican los operadores de cruce y mutación sobre estas codificaciones.

Cap´ıtulo 5 Se presentan los resultados de la implementación exitosa de la coevolución de afinaciones de algoritmos y problemas detallada en los cap´ıtulos anteriores, se muestra el análisis de los problemas tendenciosos obtenidos y se compara con teor´ıas de dificultad existentes.

(20)

Cap´ıtulo 2

Algoritmos de optimizaci´

on ciega y su comparaci´

on

vista como problema de optimizaci´

on

En este cap´ıtulo se expone en qué consiste un problema de optimización combi-natoria, un algoritmo de optimización ciega para resolver esta clase de problemas y en qué formas puede pensarse que un problema es dif´ıcil, todo en el contexto del teorema

No Free Lunch (NFL) y las reacciones comunes que ha generado entre la comunidad

de investigadores. Esta exposici´on sirve como marco para introducir la idea de hacer comparaciones de algoritmos mediante la b´usqueda de problemas tendenciosos basada en la relatividad de dichas comparaciones.

2.1. Definiciones

Teniendo el mapeo de un espacio finito X de tamaño |X | hacia un conjunto de valores numéricos finitoY de tamaño|Y|dado por la funciónf :X → Y, un problema de optimización combinatoria consiste en encontrar el valor de X que corresponda al valor óptimo (máximo o m´ınimo) dado porf.

Es inagotable la cantidad de problemas ingenieriles y cient´ıficos que pueden ser traducidos a un problema de optimización de este tipo, puesto que es común que se cuente con modelos matemáticos que describen el diseño o el funcionamiento de al-go para lo cual resulta útil conocer bajo qué condiciones ciertas medidas que se le apliquen son máximas o m´ınimas. Hallar formas eficientes de encontrar (o por lo menos acercarse) a esos óptimos resulta vital cuando |X | es tan grande que evaluar opciones exhaustivamente es inviable, a lo que se ha dado por llamarexplosión combinatoria y que llevó al reconocimiento del nuevo campo de investigación de lossistemas complejos. La forma en que los algoritmos lidian con esta explosión para una clase de problemas recurrentes en la práctica es lo que está detrás de las definiciones de las clases P yN P en la teor´ıa de la complejidad computacional (Garey y Johnson, 1979).

Siguiendo con la notaci´on usada por Wolpert y Macready (1995a, 1995b), sea dm ≡ {(dxm(1), d

y

m(1)), . . . ,(d x

m(m), d y

(21)

una muestra de m puntos de X ordenados de acuerdo a como son visitados donde dx

m(i) indica el valor deX ydym(i) el valor deY deli-´esimo elemento de la muestra, con

dx

m ≡ {dxm(1), . . . , dxm(m)}ydym ≡ {dym(1), . . . , dym(m)}. El espacio de todas las muestras

de tama˜nom es Dm = (X × Y) m

tal que dm ∈ Dm y el conjunto de todas las posibles

muestras de tama˜no arbitrario es D ≡ ∪m≥0Dm.

Un algoritmo de optimizaci´on ciega a se define como un mapeo de conjuntos de puntos previamente visitados a uno nuevo en X, es decir

a:d∈ D → {x|x∈ X } (2.1)

esta definición de algoritmo incluye a técnicas comunes de búsqueda ciega (no necesitan un modelo expl´ıcito anal´ıtico def sino que la emplean como una caja negra a la que se le dan datos de entrada y brinda datos de salida sin tener idea de qué pasa adentro), de entre las cuales dos de las más populares son recocido simulado y algoritmos genéticos, técnicas que sirven en cap´ıtulos posteriores para confirmar las hipótesis de esta tesis.

Dada la definición 2.1, ¿qué significa decir que un algoritmo es bueno o que es mejor que otro? ¿Cómo hacer comparaciones entre algoritmos? La costumbre extendida entre quienes diseñan algún algoritmo de optimización es presentarlo junto con un conjunto de problemas frente a los cuales, mediante una afinación minuciosa de sus parámetros, suelen dar buenos resultados —como en el caso de as funciones de DeJong para algoritmos genéticos (DeJong, 1975). ¿Es posible llegar a una evaluación más imparcial?

Tomando aF =YX _{como el espacio de todos los posibles problemas, cuyo tama˜}_no

es |Y||X |, y a P(dy

m|f, m, a) como la probabilidad condicional de obtener la muestra

dm bajo las condiciones dadas, Wolpert y Macready llegaron a trav´es de una elegante

demostración anal´ıtica a la polémica conclusión de que, para cualquier par de algoritmos a1 y a2 con cualquier medida de desempeño Φ(dym) que diga qué tan buena es una

muestra

X

f

P(dym|f, m, a1) = X

f

P(dym|f, m, a2) (2.2)

para el caso en que a : d ∈ D → {x|x /∈dx_}_{, es decir para algoritmos que no visitan}

puntos en X más de una vez, lo que significa que para cualquier medida de desempeño ninguno de este tipo de algoritmos de optimización es mejor que otro cuando su de-sempeño es promediado sobre todas las posibles funciones discretas F =YX _(Wolpert

y Macready, 1997). Wolpert y Macready llamaron a este resultado el teorema No Free

Lunch (NFL).

Una variante del teorema NFL consiste en, dadas las mismas condiciones, siendo Apply(a, f, m) un meta-algoritmo que da como salida el orden en que a visita m ele-mentos deY despu´es dem pasos, para cada par de algoritmosa1 ya2 y para cualquier

(22)

Apply(a1, f1, m)≡Apply(a2, f2, m) (2.3)

lo que significa que el comportamiento agregado de cualquier par de algoritmos es equivalente comparado sobre todas las posibles funciones discretas F =YX _(Whitley

y Watson, 2004).

El teorema NFL, junto con las reacciones que ha generado, ha sido la aportación teórica más importante de los últimos años concerniente a la comparación entre al-goritmos de optimización, por lo que resulta insoslayable usarlo como marco para los objetivos de esta tesis.

2.2. No Free Lunch is No Big Deal

Las principales reacciones de los investigadores ante el teorema NFL pueden re-sumirse en dos (Whitley y Watson, 2004):

El conjunto de todas las posibles F no es aplicable al mundo real puesto que existen muchas funciones que no son representativas de problemas reales, es in-finitamente grande tal que la mayor´ıa de las funciones son incompresibles en el sentido de que no hay representaciones de ellas que sean significantemente menores que el tama˜no de la funci´on enumerada en su totalidad.

En la práctica para mejorar el desempeño de los algoritmos acaba incluyéndose conocimiento del problema en espec´ıfico, por lo que el teorema NFL no es más que la confirmación de la intuición de que la búsqueda ciega no es una panacea capaz de resolver todos los problemas.

Aunado a estas actitudes la mayor´ıa de quienes utilizan algoritmos de optimizaci´on no se preocupan en modificarlos de forma que se cumpla a : d ∈ D → {x|x /∈dx_}_.

Asumir que el que cualquier algoritmo pueda modificarse para no visitar el mismo punto más de una vez sea una condición indispensable —algunos dirán ad hoc— para poder llegar a una demostración anal´ıtica de la igualdad 2.2, no significa que sea práctico en su implementación. Como se puede ver en la definición del teoremaNFLqueda excluida cualquier noción de la eficiencia de un algoritmo.

(23)

tiempo satisfacer la igualdad 2.2, mas no dice algo m´as de las propiedades de estos subcojuntos con respecto a los algoritmos.

Uno de los objetivos principales de esta tesis es el hallar una forma pr´actica de introducir la idea de eficiencia en la comparaci´on de algoritmos, mas lo complejo que resulta anal´ıticamente indica que hacerlo implica abandonar la esperanza de llegar a un resultado tan general del tipo del teorema NFL:

The larger lesson here is the existence of what might be called theNFL

The-orem for TheThe-orems in Complex Systems. This theorem —really a conjecture—

says that there is no free lunch with respect to theorem proving in complex systems science and engineering in the sense that it is not possible to say anything definitive or profound about a complex system without an appro-priately complex proof (Goldberg, 2002, pp. 75,76)

2.3. La relatividad en la comparaci´

on de algoritmos

de optimizaci´

on

Un algoritmo de optimización es una forma de usar a la complejidad para encontrar soluciones a problemas. ¿Cómo convertir el problema de no saber qué es fácil o dif´ıcil para un algoritmo en un problema de optimización?

Para un conjunto finito de valores numéricos Z de tamaño |Z| supongamos que hay un mapeow:F → Z que adjudica a cada problemaf una evaluación de su dificul-tad, por lo que visto como problema de optimización consiste en encontrar problemas fáciles o dif´ıciles en F. ¿Es posible hallar una medida w que sea independiente de los algoritmos que se empleen para optimizar a miembros de F? ¿Es posible hallar una medida absoluta de la dificultad de un problema? Si hacemos caso a la conjetura NFL

para teoremas en sistemas complejos podemos concluir que el hallar una medida de este tipo ser´ıa una forma simple de hablar de la complejidad de F, por lo que es altamente probable que no exista.

Para corregir el planteamiento anterior se podr´ıa tomar a w como la medida del desempeño Φ de un algoritmo a, por lo que optimizando F podr´ıamos responder a la pregunta de qué es fácil o dif´ıcil para dicho algoritmo. Este enfoque se enfrenta a la dificultad de que la comparación de la medida numérica del desempeño de un algoritmo en dos problemas por s´ı sola no nos dice cuál es más dif´ıcil. Supongamos que dm es

una muestra del algoritmo a en el problema f1 cuyo m´aximo global es M1 y em una

muestra de a en el problema f2 cuyo m´aximo global es M2, con Φ(dym) = max(dym)

y Φ(ey

m) = max(eym), entonces es posible que M1 −Φ(dym) < M2 −Φ(eym) y al mismo

tiempo Φ(ey

m)>Φ(dym) si es queM2 > M1, lo que se cumple en el caso en queF incluye

(24)

en el teorema NFL pues en el caso de una auténtica búsqueda ciega no conocemos el valor deM1 ni deM2. Esta dificultad sugiere que también es poco probable hallar una

medida absoluta de qué es fácil o dif´ıcil para un algoritmo de búsqueda ciega.

Las dificultades anteriores sustentan una la principal hipótesis de esta tesis, que es la de la relatividad en la comparación de algoritmos de optimización ciega:

Hipótesis 1 Planteado como problema de optimización, sólo es posible saber qué es fácil o dif´ıcil para un algoritmo de optimización ciega en términos del desempeño de otro algoritmo.

Para entender la hip´otesis anterior supogamos que1_d

m es una muestra del

algorit-mo a1 y 2dm del algoritmoa2 ambas en el problemaf1, 1em es una muestra del

algorit-mo a1 y 2em del algoritmoa2 ambas en el problema f2. Tomando Φ(1dym) = max(1dym),

Φ(2_dy

m) = max(2dym), Φ(1eym) = max(1eym) y Φ(2eym) = max(2eym), si recordamos que

todas las funciones en F tienen como codominios a subconjuntos de Y por lo que la diferencia entre el máximo y el m´ınimo global en cada una de ellas está acotada, el que se dé Φ(1_dy

m)−Φ(2dym)>Φ(1eym)−Φ(2eym) indica que el problema f1 es m´as f´acil para

el algoritmo a1 que el problema f2 con respecto al algoritmo a2, independientemente

de los valores espec´ıficos de los m´aximos globales de ambos problemas.

La siguiente sección y los próximos cap´ıtulos están dedicados a los aspectos prácti-cos sobre cómo implementar un algoritmo de optimización de tipo evolutivo basado en la hipótesis 1.

2.4. Medida de desempe˜

no y problemas tendenciosos

El planteamiento mostrado de la comparación de algoritmos como un proceso de optimización no presenta la polémica restricción a :d ∈ D → {x|x /∈dx_} _{que sustenta}

al teorema NFL, por lo que es posible utilizar una medida de desempe˜no que tome en cuenta la eficiencia con que el algoritmo funciona.

Concentrándonos de ahora en adelante en el caso de maximización (sin menoscabar el planteamiento), se define a la curva de mejor encontrado (Valenzuela-Rendón, 2004) del algoritmoa frente al problema f como

Ωf a(i) =

1 n n X j=1 max

k≤i j_dy

m(k) (2.4)

donde i = 1, . . . , m y j_dy

m es la j-´esima de n muestras de tama˜no m. La figura 2.1

muestra ejemplos de curvas de mejor encontrado para dos algoritmos. En el caso (a)a1

siempre es mejor que a2 mientras que en (b) qui´en es mejor depende de cu´anto tiempo

(25)

(a)

Ω_a f

(i)

i−ésimo elemento de las muestras

a₁ a

2

(b)

Ω_a f

(i)

[image:25.595.131.509.98.274.2]

i−ésimo elemento de las muestras

Figura 2.1: Curvas de mejor encontrado para dos algoritmos a1 y a2 (con n grande).

El área bajo la curva de mejor encontrado es una medida que además de brindar el máximo de una muestra refleja la evolución temporal —la eficiencia— de la búsqueda y que al ser obtenida empleando varias muestras reduce los efectos fortuitos en la eva-luación del comportamiento de un algoritmo. La medida del desempeño del algoritmo a1 con respecto al algoritmo a2 que se buscará maximizar explorandoF será:

m

X

i=1

Ωfa1(i)−Ω f a2(i)

, f ∈ F (2.5)

que es la diferencia entre las ´areas de sus curvas de mejor encontrado.

Un problema para el que la medida 2.5 es mayor a cero tiende a beneficiar al algoritmo a1 sobre el algoritmo a2, por lo que por motivos de referencia f´acil se le

denominar´aproblema tendencioso.

El objetivo principal de esta tesis es proponer a la búsqueda de problemas ten-denciosos como una forma práctica de usar a la complejidad para saber qué es fácil o dif´ıcil para un algoritmo, como una forma de suplir a la demostración compleja a la que se refiere Goldberg en su mención a la conjetura NFL para teoremas en sistemas complejos.

2.5. Resumen

(26)

(27)

Cap´ıtulo 3

Algoritmo de coevoluci´

on incremental

En este cap´ıtulo se presentan los algoritmos genético generacional simple y de coevolución simple, como antecedentes a la presentación del algoritmo de coevolución incremental (ACI), finalizando con algunos de los detalles de la implementación de este ´

ultimo —que son complementados en el siguiente cap´ıtulo— para encontrar problemas tendenciosos mediante la coevoluci´on de problemas y algoritmos.

3.1. Contras a la b´

usqueda de problemas

tenden-ciosos como problema de optimizaci´

on

El planteamiento teórico del cap´ıtulo anterior sobre cómo convertir el problema de saber qué es dif´ıcil para un algoritmo en un problema de optimización enfrenta dos problemas principales, a resolver para ser implementado computacionalmente:

Problema 1 Lo que se plantea es buscar en un espacio de problemas. . . ¿C´omo codi-ficar cadaf de tal forma que se pueda implementar un algoritmo de optimizaci´on para explorarF? Esta pregunta es respondida en el siguiente cap´ıtulo.

Problema 2 Suponiendo que se resolvi´o el problema anterior y se implement´o un algo-ritmo que da como resultado un problema que tiende a beneficiar a un algoalgo-ritmo a1 sobre uno a2, alguien podr´ıa argumentar que no puede objetar el proceso de

búsqueda mas que la medida de desempeño fue sesgada por la forma en que los algoritmos fueron afinados. Ya que en la práctica la mayor´ıa de los algoritmos cuentan con un conjunto de parámetros que determinan su comportamiento, nos enfrentamos ante el problema de optimización adicional de encontrar aquellas afinaciones de parámetros que produzcan los mejores comportamientos. ¿Existe algún algoritmo que incluya la optimización de los parámetros junto a la opti-mización de la medida de desempeño presentada en el cap´ıtulo anterior?

(28)

implementando un algoritmo de coevolución incremental (ACI). Para poder entrar a los detalles que explican por qué un algoritmo de coevolución resulta una respuesta natural habrá que dar primero una breve revisión a la definición de algoritmo genético y coevolución.

3.2. Algoritmo gen´

etico generacional simple y

co-evoluci´

on

En su forma más simple un algoritmo genético (Goldberg, 1989; Whitley, 1994) es un método estocástico de búsqueda basado en la mecánica de la selección natural y la idea darwiniana de la supervivencia de acuerdo a la aptitud, en el que un conjunto de puntos en X son codificados en forma de tiras de caracteres de un alfabeto —binario en el caso más común— que asemejan los cromosomas de seres vivos. Un algoritmo genético (AG) evoluciona a esta población realizando las operaciones de selección, cruce y mutación.

La selección consiste en dar un número proporcionalmente mayor de hijos a aque-llos individuos mejor evaluados por la función a optimizar, a fin de que las caracter´ısticas que los hacen aptos predominen en la población. La forma en que estas caracter´ısticas son combinadas para generar nuevos individuos es mediante el operador de cruce, que no es más que el intercambio de porciones de la cadena de caracteres de dos individuos seleccionados apareados al azar para producir dos nuevos hijos que formarán parte de la nueva generación. Adicionalmente con una probabilidad muy pequeña se hacen cambios aleatorios a los caracteres de individuos escogidos al azar, operación llamada mutación. Repitiendo generación tras generación los operadores de selección, cruce y mu-tación el algoritmo genético realiza optimización de funciones a través de la recombi-nación de caracter´ısticas útiles —selección y cruce— alternando ocasionalmente con búsqueda aleatoria —mutación. Mientras el cruce contribuye en mayor proporción a la búsqueda de nuevos individuos cuando hay diferencias entre los actuales mutación hace lo propio cuando los individuos de una generación son muy parecidos entre s´ı, apoyándose uno al otro en casos intermedios (Goldberg, 1989). La tabla 3.1 sintetiza los pasos básicos de un AG generacional simple.

(29)

Generar poblaci´on inicial al azar

Repetir

Generar nueva poblaci´on mediante (a) Selecci´on de acuerdo a aptitud (b) Crucede parejas

(c) Mutaci´on de hijos

[image:29.595.212.424.83.293.2]

Hasta cumplir criterio de terminaci´on

Tabla 3.1: Pasos b´asicos de un AG generacional simple

más fuerte, a lo que la planta podr´ıa responder evolucionando para generar veneno, a lo que los insectos podr´ıan responder generando una enzima que los proteja del efecto de este, y as´ı consecutivamente. En la naturaleza resulta común que como parte de estas guerras armamentistas una especie realice algún tipo de cooperación con una tercera.

Suele pensarse que el tipo de competencia involucrada en un proceso coevoluti-vo llevada al terreno de los algoritmos funciona como un catalizador para lograr un mejor desempeño de un algoritmo genético en la búsqueda de soluciones. La idea de coevolución ha sido empleada para resolver problemas como selección de algoritmos de ordenamiento (Hillis, 1992), buscadores de estrategias de juegos (Pollack, Blair, y Land, 1997; Rosin y Belew, 1995), generación de predictores (Ficici y Pollack, 1998) y búsqueda de estrategias de persecución y evasión (Cliff y Miller, 1995). La tabla 3.2 sintetiza los pasos básicos de un algoritmo de coevolución simple (ACS) para el caso competitivo entre una población de anfitriones y otra de parásitos (Palacios-Durazo, 2002).

Un proceso de coevolución resulta una respuesta natural al problema de opti-mización múltiple que se señaló en la sección anterior. En este caso se cuenta con tres poblaciones: 1) una población de afinaciones dea1, 2) una población de afinaciones de

a2 y 3) una poblaci´on de problemas. En el caso en que busquemos problemas que hagan

quedar bien aa1 la relaci´on entre las poblaciones 1) y 2) as´ı como aquella entre 2) y 3)

(30)

Generar al azar poblaciones iniciales de anfitriones y par´asitos

Repetir

Se hace unacompeticiónentre cada posible par anfitrión-parásito. La aptitud de cada individuo de ambas poblaciones corresponde al número de competencias que gane

Generar nuevas poblaciones de anfitriones y par´asitos mediante (a) Selecci´on de acuerdo a aptitud

(b) Cruce de parejas (c) Mutaci´on de hijos

Tabla 3.2: Pasos b´asicos de un ACS

3.3. Algoritmo de coevoluci´

on incremental

El ACS —tabla 3.2— tiene algunos problemas para hacer efectiva la idea de que un proceso coevolutivo genera individuos m´as aptos que el de un AG simple:

No suele llevar a las poblaciones a un estado estable ya que tienden a oscilar alrededor de zonas del espacio ya visitadas, lo que se ejemplifica con el caso en que una de las poblaciones de deshaga de un “arma” adquirida recientemente, por lo cual la otra ya no necesita la “defensa” que hab´ıa desarrollado para combatirla y al deshacerse de ella ambas regresan a una situaci´on en la que ya hab´ıan estado con anterioridad.

El número de competiciones por hacer en cada generación tiene un costo com-putacional alto. Un ACS conpanfitriones yq parásitos implica pqcompetencias. Es dif´ıcil medir el progreso del algoritmo puesto que no se cuenta con una función objetivo expl´ıcita con la que medir la aptitud de los individuos, sino impl´ıcita debido a la dependencia de ambas poblaciones, por lo que es dif´ıcil saber cuándo detenerlo.

(31)

con las dificultades pricipales del ACS, como lo demuestra experimentalmente al bus-car con éxito identidades trigonométricas que se acoplen lo mejor posible a una función dada, teniendo una población de funciones cuyos genes son operadores trigonométricos y otra de parásitos que busquen concentrarse en las zonas del dominio de la función a igualar cuyas aproximaciones propuestas sean malas.

Las principales caracter´ısticas del ACI para resolver los problemas del ACS son: Es no generacional, es decir se permite que hayan individuos que sobrevivan a los cambios de generaci´on por lo que la poblaci´on funciona como memoria de lo aprendido, ayudando a evitar que oscile alrededor de zonas ya visitadas.

Los individuos de cada poblaci´on compiten con una muestra aleatoria de la poblaci´on oponente.

La aptitud de cada individuo en un tiempot es una medida expl´ıcita cuyo ajuste se inspira en el ajuste de aptitudes del sistema de aprendizaje de un sistema adaptable de clasificadores (J. Holland, 1986; Valenzuela-Rend´on y Uresti-Charre, 1997). SeaS la aptitud de un individuo, su ajuste para un tiempot+ 1 se realiza mediante la siguiente ecuaci´on

S(t+ 1) =S(t) + Recompensa−Costo de competir

la evaluación de la recompensa refleja la comparación con cada individuo con que compita y junto con el costo de competir se calcula de tal forma que esté acotada y que haga que la aptitud de los mejores individuos tienda a un valor fijo en estado estable conformet crece, es decir que llegue un momento en queS(t+ 1)≈S(t). Lo incremental del algoritmo proviene de aprovechar la coexistencia de indivi-duos en una población —al no ser generacional— as´ı como del ajuste paulatino de sus aptitudes. La tabla 3.3 muestra los pasos básicos del ACI.

3.4. Coevoluci´

on incremental de algoritmos y

pro-blemas

(32)

Generar al azar poblaciones iniciales de anfitriones y par´asitos

Repetir

Hacer competición entre un número fijo de pares anfitrión-parásito elegidos al azar. La aptitudS de cada individuo de ambas poblaciones se ajusta de la forma

S(t+ 1) =S(t) + Recompensa−Costo de competir

Eliminar al individuo de menor aptitud de cada poblaci´on Generar nuevos individuos para cada poblaci´on mediante

(a) Selecci´on de acuerdo a aptitud del mejor par de individuos (b) Cruce de la pareja seleccionada generando un s´olo individuo

que se incluye a la poblaci´on, con aptitud tomada como el promedio de la de los padres

(c) Mutaci´on

Tabla 3.3: Pasos b´asicos de un ACI

1. Se generan tres poblaciones, la P de problemas y lasA yB de afinaciones de los algoritmos a competir (los detalles de la codificaci´on de estos individuos se trata en el cap´ıtulo siguiente). Se inicializan las aptitudes de P enRP/(10CP), las de

A enRA/(10CA) y las de B en (RB/(10CB) dondeRP, RA y RB representan las

máximas recompensas a dar a los individuos de cada población por su desempeño en una competencia yCP, CA y CB los máximos costos de participar en ella.

2. Se selecciona a un individuo de cada poblaci´on al azar, se corren a ambos algo-ritmos con las afinaciones dadas por los individuos escogidos sobre el problema elegido y se ajustan de manera incremental las aptitudes de los tres. Se supone que buscamos un problema tendencioso que haga quedar mejor al algoritmo A que al B.

(33)

dondeEX es el ´area bajo la curva de mejor encontrado del algoritmoX dividida

entrem, el tama˜no de las muestras.

El ajuste de aptitud para la afinaci´on del algoritmoAse hace mediante la siguiente ecuaci´on:

SA(t+ 1) =SA(t) +RAtanh(2EA) tanh(10CBSB/RB)−CASA(t) (3.2)

dondeSB es la aptitud de la afinaci´on del algoritmoB contra la que se compite.

El ajuste de aptitud para la afinaci´on del algoritmoBse hace mediante la siguiente ecuaci´on:

SB(t+ 1) =SB(t) +RBtanh(2EB) tanh(10CASA/RA)−CBSB(t) (3.3)

dondeSA es la aptitud de la afinaci´on del algoritmo A contra la que se compite.

3. Se repite la competencia entre otros 3 individuos seleccionados al azar un n´umero #c predeterminado de veces.

4. Despu´es de las competencias, se encuentra al individuo con menor aptitud de cada poblaci´on y se elimina.

5. En cada población se seleccionan dos individuos de forma proporcional a su apti-tud y con una probabilidad de cruce se cruzan, generando un sólo individuo —los detalles de la aplicación del operador de cruce para cada población se verán en el cap´ıtulo siguiente— cuya aptitud es el promedio de la de sus padres. El hijo se agrega a la población sustituyendo al individuo con menor aptitud.

6. Se aplica mutación a las poblaciones. Los detalles de cómo se lleva a cabo esta operación para cada población son mostrados en el siguiente cap´ıtulo.

7. Se repite el proceso de competencia.

Las funciones compuestas por tangentes hiperbólicas —véase figura 3.1— que multiplican a la máxima recompensa posible en las ecuaciones de ajuste de aptitudes se encargan de que esta nunca sea rebasada.

(34)

−5 −4 −3 −2 −1 0 1 2 3 4 5 −1

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

[image:34.595.169.470.97.338.2]

x tanh(x)

Figura 3.1: Funci´on tanh(x)

de la cooperaci´on es algo que tienden a confirmar las mejores estrategias encontradas a la fecha para el famosodilema del prisionero (Dawkins, 1986).

En el siguiente cap´ıtulo se presentan a los algoritmos contendientes para tomar los lugares de A y B y cómo sus afinaciones son codificadas, cruzadas y mutadas en el ACI, lo mismo para la representación de problemas cuya población equivale aP.

3.5. Resumen

(35)

Cap´ıtulo 4

La arena y los contendientes

En este cap´ıtulo se presenta la forma en que se codifican los problemas de op-timización que constituyen a la población P del ACI, as´ı como los algoritmos y las codificaciones de sus afinaciones que dan forma a las poblaciones A y B, los cuales son un AG generacional simple, recocido simulado y búsqueda aleatoria. Finalmente se explica la forma como se aplican los operadores de cruce y mutación sobre estas codificaciones.

4.1. Codificaci´

on de problemas

Retomando la pregunta del cap´ıtulo anterior: ¿C´omo codificar cadaf de tal forma que se pueda implementar un algoritmo de optimizaci´on para explorar F?

De acuerdo a las actitudes de la comunidad de investigadores frente al teorema

NFL —cap´ıtulo 2— hay que recordar que una de sus principales posturas es que F

incluye muchas funciones para las que el codificarlas de forma anal´ıtica resulta igual de dif´ıcil que asignar numéricamente uno por uno valores a sus codominios —son incom-presibles. Por el otro lado el codificar funciones combinando exclusivamente expresiones anal´ıticas a pesar de tener la ventaja de facilitar la compresión de información puede que nos remita a un subconjunto deF demasiado limitado o pobre en el que no encon-tremos problemas tendenciosos, que s´ı necesitemos un poco de aleatoriedad. . . ¿Cómo codificar funciones sin caer en uno de estos extremos?

El problema anterior resulta análogo al de decidir cómo codificar numéricamente funciones si se quiere hacer minimización de funcionales en cálculo variacional utilizan-do un algoritmo genético. La minimización de funcionales consiste en encontrar una función que minimice una integral aplicada sobre ella (Arfken y Weber, 2001), por lo cual si se quiere encontrarla usando un AG se necesita una forma de codificar a las posibles soluciones de tal forma que aplicándoles los operadores del AG se pueda llegar a la solución. Toledo (2006) propuso el codificar numéricamente funciones piecewiese

(36)

cada par consecutivo de estos segmentos, codificación con la que pudo resolver satisfac-toriamente algunos problemas variacionales t´ıpicos de la f´ısica como son el de encontrar la curva de m´ınima área de revolución y las energ´ıas del átomo de hidrógeno.

En esta tesis se utiliza una variante de la codificaci´on de Toledo para codificar los problemas que forman aP. Cada problema resulta del producto de dos funcionesg yh, de tal forma que f =g(X1)×h(X2), donde tanto g comoh est´an codificadas cada una

por un par de vectores r y θ, de tal forma que r contiene a las longitudes relativas de los segmentos de la funci´on y Pi

j=1θj es el ´angulo entre los segmentos i−1 ei, como

lo muestra la figura 4.1 (a), posteriormente todo el conjunto de segmentos se rota para que en sus puntos inicial y final la función valga cero —figura 4.1 (b)— y se reordenan los puntos del dominio de forma que al final quede una función 1 a 1 que se escala de forma que la diferencia entre su máximo y su m´ınimo sea 1 —figura 4.1 (c).

−0.4 −0.2 0 0.2 0.4

0 0.2 0.4 0.6 0.8 1 (a) θ₁ θ₁+θ

2

θ₁+θ

2+θ3

0 2 4 6

−0.5 0 0.5 1

(b)

0 2 4 6

−0.5 0 0.5 1

(c)

[image:36.595.110.529.315.471.2]

θ₁+θ₂+θ₃+θ₄

Figura 4.1: Ejemplo de pasos en la codificación de funciones a usar: (a) la longitud del segmento ies ri y Pi_j₌₁θj es el ángulo entre los segmentos i−1 e i, (b) rotación, (c)

reordenamiento de dominio y escalamiento.

Matem´aticamente los pasos anteriores quedan expresados de la siguiente forma:

γ =−tan−1





N

P

i=1

ricos i P j=1 j P l=1 θl ! , N P i=1

risen i P j=1 j P l=1 θl ! 

, (4.1)

gk =ρ k

X

i=1

risen γ+ i X j=1 j X l=1 θl !

, xk=k (4.2)

donde 0< ri ≤1 y−α ≤θi ≤α (α >0) son vectores de n´umeros reales de tama˜noN

y ρ= 1/(maxg−ming).

(37)

que queda decir es que el uso de la codificaci´on presentada basta para lograr los objetivos de esta tesis, como se ve en los cap´ıtulos siguientes.

Para la implementaci´on del ACI del pr´oximo cap´ıtulo se tiene N =|X1|=|X2|=

103_{, es decir} _f _{es una superficie con 10}6 _{puntos que equivale aproximadamente a un}

espacio de b´usqueda de 20 bits, donde los 10 primeros corresponden a una posici´on en

X1 —vista como variable— y los otros 10 a una posici´on en X2. Las figuras 4.2 y 4.3

son ejemplos de la complejidad en la forma de posibles funciones g o h con N = 103 para α=π/100 yα =π/10 respectivamente.

−0.5 0 0.5 1 1.5

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1

Sin reordenar eje x

0 200 400 600 800 1000

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1

[image:37.595.130.507.240.423.2]

Eje x reordenado

Figura 4.2: Funci´on con α=π/100 yN = 103

0 0.5 1 1.5

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1

Sin reordenar eje x

0 200 400 600 800 1000

−0.4 −0.2 0 0.2 0.4 0.6 0.8 1

[image:37.595.129.508.479.668.2]

Eje x reordenado

Figura 4.3: Funci´on conα=π/10 y N = 103

(38)

El tama˜no |X1| × |X2| de los problemas a evolucionar se escogi´o con el fin de

que el ACI sea implementable, por lo que las conclusiones de esta tesis podr´an ser extrapoladas hacia problemas de optimizaci´on en general de dos formas:

Directamente, si se asume que la forma de un problema influye más que su ex-tensión en determinar si es tendencioso, y por tanto el que 20 bits basten para encontrar problemas tendenciosos es suficiente para extrapolar las conclusiones. Si es posible encontrar problemas tendenciosos queda la opción —que no se explo-ra en esta tesis— de estudiar la maneexplo-ra de construir problemas tendenciosos más grandes combinándolos, de forma parecida a como Goldberg (2002) ha construido problemas de 30 bits juntando problemas engañosos de 3 bits —la definición de problema engañoso se da en el cap´ıtulo siguiente.

4.2. Algoritmos a competir y la codificaci´

on de sus

afinaciones

Los algoritmos cuyas afinaciones forman las poblacionesAyB son un AG genera-cional simple, recocido simulado y búsqueda aleatoria. Los dos primeros fueron elegidos debido a su popularidad y por tanto a lo útil que pueden resultar las conclusiones a que se llegue después de analizar los posibles problemas tendenciosos —beneficiando al AG o beneficiando al recocido simulado— que se obtengan, ya que extrapolar estas conclusiones a problemas reales puede servir en una mejor elección del algoritmo a utilizar.

Otro motivo en espec´ıfico para elegir al AG es que es quizás el único algoritmo para el que existen teor´ıas bien desarolladas sobre qué es dif´ıcil para él, de entre las cuales destacan la teor´ıa de engaño (Goldberg, 1989; Whitley, 1991) y NK landscapes (Kauffman, 1993) con las cuales comparar los problemas tendenciosos a obtener. En cuanto a la búsqueda aleatoria a pesar de que intuitvamente uno pensar´ıa que tanto un AG como recocido simulado deben ser en general mejores que simplemente buscar al azar resulta interesante determinar si es posible encontrar problemas tendenciosos en los que sucede lo contrario.

4.2.1. AG generacional simple

(39)

En cuanto a la forma de hacer la selección de acuerdo a la aptitud de cada indi-viduo, se aplicaselección de torneo. En selección de torneo de tamañopse realizan los siguientes pasos (Valenzuela-Rendón, 2004):

1. La población se mezcla en cuanto a la posición de cada individuo en el arreglo donde se guarda la población.

2. Cada individuo participa en p torneos con los individuos que están en posiciones adyascentes a las suya. Los individuos que participan en estos torneos se ob-tienen corriendo una ventana de tamañopsobre la población considerando que el individuo en la última posición es adyascente al individuo en la primera posición. 3. En cada torneo resulta ganador el mejor de los individuos. A este individuo se le asigna una copia para realizar cruce sobre ella apareándola al azar con otra copia seleccionada.

En el valor esperado, selecci´on de torneo de tama˜no p asigna p copias al mejor individuo,p/2 a la mediana y cero al peor.

Cada afinación del AG que forma a la población A o B del ACI está codificada por una cadena de 32 bits. La tabla 4.1 muestra los parámetros a afinar, los bits que les corresponden y los rangos en que se encuentran sus posibles valores.

Par´ametro Bits Rango

[image:39.595.185.458.406.482.2]

Tamaño de población [ 1 , 8 ] [ 50 , 250 ] Tamaño de torneo [ 9 , 16 ] [ 2 , 10 ] Probabilidad de cruce [ 17 , 24 ] [ 0.75 , 1 ] Probabilidad de mutación [ 25 , 32 ] [ 0 , 0.1 ]

Tabla 4.1: Codificaci´on de la afinaci´on del AG

4.2.2. Recocido simulado

Recocido simulado es un algoritmo de optimización de búsqueda local que se basa en el proceso metalúrgico llamado recocido en el cual se somete a un material a un calentamiento a temperatura muy alta y se después se le deja enfriar lentamente, con lo cual sus moléculas se acomodan de tal forma que la energ´ıa potencial es m´ınima, siguiendo en cada temperatura el estado del material la distribución de Boltzman. En el caso de que se busque maximizar una función f partiendo de un punto incial u con energ´ıa f(u) y definiendo un parámetro de control c(k) que cumple la función de la temperatura, con valor inicial c0, los pasos básicos del recocido simulado quedan

sintetizados por la tabla 4.2 (Valenzuela-Rend´on, 2004), en donde Lk es el n´umero de

(40)

Inicializar (u0, c0, L0)

k←0 u←u0

repetir

para l ←hasta Lk hacer

Generar vecino v deu sif(v)≥f(u)

entonces u←v si no

sialeatorio[0,1)<exp−f(u)_c−f(v)

k

entonces u←v fin-si

fin-si fin-para k ←k+ 1

Calcular longitudLk

Calcular controlck

[image:40.595.196.444.83.359.2]

hastaque se cumpla criterio de terminaci´on

Tabla 4.2: Pasos b´asicos del recocido simulado

En la implementación del recocido utilizada cada actualización del parámetro de controlckequivale a multiplicarlo por una constante de decremento, mientras que todas

las cadenas de Markov que forman la corrida del algoritmo tienen la misma longitud. Cada afinación del recocido simulado que forma a la población A o B del ACI está codificada por una cadena de 32 bits. La tabla 4.3 muestra los parámetros a afinar, los bits que les corresponden y los rangos en que se encuentran sus posibles valores.

Par´ametro Bits Rango

Longitud de cadena de Markov [ 1 , 10 ] [ 5 , 25 ] Valor inicial del par´ametro de control [ 11 , 20 ] [ 103 _{, 10}6 _]

Constante de decremento [ 21 , 32 ] [ 0.75 , 0.99 ] Tabla 4.3: Codificaci´on de la afinaci´on del recocido simulado

La peculiaridad del recocido simulado es que es un buscador que, partiendo de un punto en un espacio de b´usqueda, tiene la capacidad de aceptar moverse hacia puntos vecinos peores con la posibilidad de a futuro encontrar vecinos mejores, capacidad que var´ıa de forma proporcional a la temperatura por lo que al final se espera que el comportamiento resulte muy parecido al de una b´usqueda avara.

[image:40.595.146.493.528.590.2]

(41)

a una cadena de 20 bits, donde los 10 primeros corresponden a una posici´on en X1 y

los otros 10 a una posici´on enX2, en la implementaci´on del recocido simulado usada se

generan vecinos cambiando al azar un bit en la parteX1 y en la X2.

4.2.3. B´

usqueda aleatoria

La b´usqueda aleatoria utilizada consiste en obtener al azar una cadena de 20 bits generando por separado las partes X1 y X2. Este proceso no requiere afinaci´on, por

lo que cuando se emplea este algoritmo se tiene una población virtual de afinaciones donde todas son igualmente buenas. Suponiendo que se tiene la población virtualA, el ajuste de la aptitud para cada afinación del algoritmoB después de cada competencia se realiza mediante la ecuación

SB(t+ 1) =SB(t) +RBtanh(2EB)−CBSB(t) (4.3)

4.3. Operadores de cruce y mutaci´

on

Hasta lo expuesto, los operadores de cruce y mutaci´on (Goldberg, 1989; J. H. Holland, 1975) aparecen en tres formas:

Dentro del ACI en la generaci´on de un nuevo individuo deP. Dentro del ACI en la generaci´on de un nuevo individuo deA y B. Dentro del AG generacional simple.

Llamaremos alelo a cada miembro de los vectores que forman a un individuo, mientras que un cromosoma es aquella cadena de alelos en que se aplica el cruce de un punto de la forma en que se muestra en la tabla 4.4, caso en el que los alelos son binarios, es decir pertenecen a {0,1}. El punto en que se realiza el cruce se escoge al azar. La probabilidad de cruce determina si el cruce se realiza o si los hijos ser´an los padres tal cual fueron seleccionados.

Con esto en mente se define que el cruce de un punto se aplica en cada caso de tal forma que cada individuo de P est´a formado por cuatro cromosomas, dos para la parte r y θ de g y otros dos para las de h con alelos definidos por 0 < ri ≤ 1 y −α ≤ θi ≤ α. Cada individuo de A y B est´a formado por un cromosoma binario de

32 bits mientras que cada individuo del AG generacional simple est´a formado por dos cromosomas binarios de 10 bits, uno paraX1 y otro para X2. La figura 4.4 muestra un

ejemplo del efecto del cruce para posibles funciones g o h con N = 103 _y _α₌_π/100.

(42)

0 200 400 600 800 1000 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Padre 1

0 200 400 600 800 1000

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Padre 2

0 200 400 600 800 1000

−0.2 0 0.2 0.4 0.6 0.8 1 1.2 Hijo 1

0 200 400 600 800 1000

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 Hijo 2

Figura 4.4: Ejemplo del efecto del cruce para posibles funciones g o h con N = 103 _y

α=π/100

Padres Hijos

[image:42.595.142.500.99.390.2]

0 1 0 0 0 0 1 1 1 1 0 1 0 0 0 0 1 0 1 0 1 1 0 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 1 1

Tabla 4.4: Cruce de un punto en un cromosoma binario de 10 bits

si la probabilidad de mutación es mayor que un número al azar en el rango [0,1] el alelo se cambia por su complemento. Para el caso de la población de problemas se recorre uno por uno a sus miembros y si su probabilidad de mutación es mayor que un número al azar en el rango [0,1] se ecoge al azar un alelo de cada uno de sus cromosomas para sustituirlo por otro seleccionado al azar dentro del rango definido para cada clase de cromosoma.

4.4. Resumen

(43)

(44)

Cap´ıtulo 5

Experimentos y an´

alisis de resultados

En este cap´ıtulo se presentan los resultados de la implementación exitosa de la coevolución de afinaciones de algoritmos y problemas detallada en los cap´ıtulos ante-riores. Posteriormente se muestra el análisis de los problemas tendenciosos obtenidos y en el caso espec´ıfico del AG se compara con teor´ıas de dificultad existentes.

La tabla 5.1 muestra los par´ametros del ACI empleados en todos los experimentos.

Par´ametro Descripci´on Valor

m Longitud de las muestras a obtener en cada competici´on 2000 n Cantidad de muestras a obtener para calcular EA y EB 10

#c N´umero de competencias por iteraci´on 50

TP Tama˜no de la poblaci´on de problemas 100

TA =TB Tama˜no de la poblaci´on de afinaciones de algoritmos 25

pcP Probabilidad de cruce de la poblaci´on de problemas 1

pcA =pcB Probabilidad de cruce de las poblaci´ones de afinaciones 1

pmP Probabilidad de mutaci´on de la poblaci´on de problemas 0.05

pmA =pmB Probabilidad de mutaci´on de las poblaci´ones de afinaciones 0.05

CP M´aximo costo por competir para miembros de P 0.01

CA =CB M´aximo costo por competir para miembros de A y B 0.01

RP M´axima recompensa por competir para miembros de P 0.1

[image:44.595.106.540.333.542.2]

RA =RB M´axima recompensa por competir para miembros de A y B 1

Tabla 5.1: Par´ametros del ACI usados en todos los experimentos

La longitud de las muestras fue determinada de forma que dividida entre el tamaño del espacio de búsqueda da una fracción —2×10−3_{— que es dif´ıcil alcanzar en la}

práctica, en la que los espacios de búsqueda suelen ser de tamaño astronómico, y que no llevara a un tiempo excesivo en la ejecución del algoritmo.

(45)

5.1. AG vence a recocido simulado

En este caso A corresponde a la población de afinaciones del AG y B a la de afinaciones del recocido simulado. La figura 5.1 muestra las curvas de mejor encontrado obtenidas usando las afinaciones más aptas y la gráfica del mejor problema tendencioso en el que el AG vence a recocido simulado. La medida (EA−EB)/Optimoes la fracción

[image:45.595.111.512.301.491.2]

del área bajo el óptimo que ocupa la diferencia del área de la curva del AG menos la del recocido simulado. La figura 5.2 muestra la historia de las mejores aptitudes de las afinaciones en la corrida del ACI en que se encontró el mejor problema tendencioso.

Figura 5.1: Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas y gr´afica del mejor problema tendencioso en el que AG vence a RS

5.2. Recocido simulado vence a AG

En este caso A corresponde a la población de afinaciones del recocido simulado y B a la de afinaciones del AG. La figura 5.3 muestra las curvas de mejor encontrado obtenidas usando las afinaciones más aptas y la gráfica del mejor problema tendencioso en el que recocido simulado vence al AG, que tiene 351 óptimos globales. La medida (EA−EB)/Optimo es la fracción del área bajo el óptimo que ocupa la diferencia del

(46)

0 0.5 1 1.5 2 2.5 x 104 10

20 30 40 50 60 70

S

max

Competencia

[image:46.595.166.474.99.337.2]

AG RS

Figura 5.2: Historia de las mejores aptitudes de las afinaciones en la corrida del ACI en que se encontr´o el problema de la figura 5.1.

5.3. B´

usqueda aleatoria vence a AG

En este caso A corresponde a la población virtual de afinaciones de búsqueda aleatoria y B a la de afinaciones del AG. La figura 5.5 muestra las curvas de mejor encontrado obtenidas usando las afinaciones más aptas y la gráfica del mejor problema tendencioso en el que búsqueda aleatoria vence al AG, que tiene dos óptimos globales, 11110010011000011111 y 11110010011000100000. La medida (EA−EB)/Optimo es la

fracción del área bajo el óptimo que ocupa la diferencia del área de la curva de búsqueda aleatoria menos la del AG.

5.4. B´

usqueda aleatoria vence a recocido simulado

En este caso A corresponde a la población virtual de afinaciones de búsqueda aleatoria yB a la de afinaciones de recocido simulado. La figura 5.6 muestra las curvas de mejor encontrado obtenidas usando las afinaciones más aptas y la gráfica del mejor problema tendencioso en el que búsqueda aleatoria vence al recocido simulado. La medida (EA−EB)/Optimoes la fracción del área bajo el óptimo que ocupa la diferencia

(47)

[image:47.595.113.522.99.288.2]

Figura 5.3: Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas y gr´afica del mejor problema tendencioso en el que RS vence a AG

5.5. An´

alisis de resultados y comparaci´

on con teor´ıas

de dificultad

Hay tres caracter´ısticas importantes que saltan a la vista en las gr´aficas de resul-tados mostradas:

Ninguna de las curvas de mejor encontrado alcanzó el máximo global de cada problema, incluyendo a aquellas de los algoritmos vencedores. Esto confirma la idea de que los 20 bits de cada problema bastaron para volverlos lo suficientemente complejos tal que con ninguno de los algoritmos se garantice al 100 % que va a obtenerse el máximo global. En la práctica suele darse que los problemas de optimización más interesantes son aquellos para los que se tiene desde un inicio la certeza de no poder obtener la mejor solución posible.

(48)

0 2000 4000 6000 8000 10000 12000 14000 16000 10

20 30 40 50 60 70

S

max

Competencia

[image:48.595.164.474.99.338.2]

RS AG

Figura 5.4: Historia de las mejores aptitudes de las afinaciones en la corrida del ACI en que se encontr´o el problema de la figura 5.3.

que se llega a él para dos algoritmos en espec´ıfico de forma experimental y sin asumir la polémica restriccióna :d∈ D → {x|x /∈dx_}_.

Los casos en que el AG fue derrotado son demasiado planos a diferencia de los demás. Resulta sorprendente que el ACI encontró la forma de producir esta clase de planicies con mesetas y muros, de hallar la exacta combinación de alelos en r y θ para las funciones que los forman. Esta peculiaridad apareció en todas las corridas del ACI en las que el AG fue vencido. Como una muestra de este tipo de problemas está la figura 5.7.

Para analizar más a fondo la relación de la última caracter´ıstica con la distribución de los máximos locales en los problemas mostrados se utilizó un algoritmo de búsqueda local que, iniciando en un punto del problema escogido al azar escoge al azar un vecino en el eje X1 y en el eje X2 al cual se desplaza sólo si es mejor que el punto actual.

Cada que la b´usqueda se topa con un punto peor que el actual se reinicia la b´usqueda, proceso que se repite 104 _{veces. Las figuras 5.8, 5.9, 5.10 y 5.11 muestran cada una: (a)}

(49)

[image:49.595.119.506.102.291.2]

Figura 5.5: Curvas de mejor encontrado obtenidas usando las afinaciones m´as aptas y gr´afica del mejor problema tendencioso en el que BA vence a AG

Desde el punto de vista del recocido simulado las gráficas de tipo (c) revelan que en los casos en que venció la cantidad máxima de pasos que puede dar antes de detenerse prácticamente dobla a aquella de los casos en que fue derrotado. Si se recuerda que la probabilidad de seguir adelante va dismuyendo junto con el parámetro de control el que se pueda avanzar más distancia antes de detenerse explica en parte las diferencias de desempeño del recocido simulado.

Las gráficas de tipo (a) muestran que las evaluaciones de los máximos locales para los casos en que recocido simulado fue derrotado están distribuidas de manera más uniforme alrededor de la evaluación más frecuente, mientras que en los otros dos las evaluaciones más frecuentes están aisladas de manera abrupta. Si pensamos que los algoritmos contra quienes compitió el recocido no tienen la limitación de detenerse en un máximo local a pensar si seguir o no adelante, sino que continuamente están muestreando el espacio sin detenerse, esto explica el que accedan a evaluaciones mejores más rápido que el recocido simulado y por tanto que las áreas bajo sus curvas de mejor encontrado sean mayores. Esto se confirma observando las gráficas de tipo (b) en las que se ve que en los casos en que el AG y la búsqueda aleatoria ganaron conforme uno se acerca al máximo global —en el espacio de Hamming— desde los máximos locales más distantes sus evaluaciones van volviéndose uniformemente mejores hasta llegar a valores cercanos al del máximo global.