M´ etodos Completamente Secuenciales - Ranking y Selecci´ on

3. MARCO TEORICO

3.2. Ranking y Selecci´ on

3.2.3. M´ etodos Completamente Secuenciales

Los métodos de dos etapas en una primera instancia realizan una estimación de los momentos de la distribución de probabilidades del desempeño de un individuo, y a partir de ellas estiman el número de réplicas totales que deben realizarse, las cuales serán completadas en la segunda etapa. Si las estimaciones realizadas en la primera

etapa son poco precisas, las estimaciones del número de réplicas totales también lo serán y esto probablemente se traducirá en la utilización de más recursos de los necesarios.

Para lograr mejores estimaciones, y as´ı evitar este derroche de recursos, se puede extender la primera etapa (i.e. utilizar un valor mayor den0) de manera de que las

estimaciones sean realizadas a partir de muestras más grandes. Sin embargo, se debe lograr un balance, ya que si se buscan estimaciones demasiado precisas se deberá utilizar un valor den0 muy grande, que puede llegar a ser más grande que el número total de réplicas necesarias, y nuevamente se estará incurriendo en un desperdicio de recursos.

Algunos autores han enfrentado este problema desarrollando métodos que utilizan más de dos etapas (generalmente tres) para ir refinando gradualmente las estimaciones (ver Hochberg y Marcus (1981)). Estos procedimientos de dos o tres etapas hac´ıan mucho sentido antiguamente, cuando las simulaciones eran realizadas manualmente por el modelador o en situaciones en que se asocia algún costo al detener una simu- lación y reiniciar una nueva. Sin embargo, en la actualidad lossoftwaresde simulación son desarrollados en modernos ambientes computacionales y, de esta forma, se han disminuido las dificultades para programar softwares que permitan alternar entre di- versas simulaciones para obtener datos de manera incremental. Esto ha permitido el desarrollo de métodos con múltiples etapas, que toman tan sólo una muestra de cada individuo por etapa y eliminan a aquellos con un desempeño inferior tan pronto como esta inferioridad se hace latente.

Estos métodos, conocidos comométodos completamente secuenciales, han probado ser altamente eficientes. Varios autores han establecido su superioridad por sobre los métodos de dos etapas (Bechhofer, Goldsman, Dunnett & Hartmann, 1990; Kim & Nelson, 2001). Paulson (1964) presentó uno de los primeros procedimientos secuenciales para elegir el mejor individuo de un grupo de individuos con varianzas conocidas e iguales. Hartmann (1991) entregó algunas mejoras a este procedimiento. Kim y

Nelson (2001) extendieron estos métodos para el caso de varianzas desconocidas y distintas, poniendo énfasis en el contexto de optimización discreta v´ıa simulación.

Todos estos m´etodos, al igual que los m´etodos de dos etapas revisados anteriormente, suponen que en un principio no se cuenta con muestras de ninguno de los individuos y que por lo tanto, en la primera etapa se deben obtener n0 muestras (n0

igual para todos los individuos) de cada uno para realizar las estimaciones de los momentos. Sin embargo, considerando la aplicación que se le dará a estos métodos en este trabajo, este supuesto es poco real. En una iteración cualquiera del algoritmo genético, existirán individuos dentro de la población para los cuales se cuenta con un gran número de muestras provenientes de iteraciones anteriores. Es más, probablemente el número de muestras disponibles por individuo será distinto a lo largo de la población. Extrapolando los resultados obtenidos en la sección anterior, es esperable que se tengan un gran número de muestras de los mejores individuos y relativamente pocas de los individuos con un desempeño inferior.

Afortunadamente, Pichitlamken, Nelson y Hong (2006) desarrollaron un procedimiento completamente secuencial, llamado selección secuencial con memoria (SSM), que permite manejar un número de muestras iniciales distinto para cada individuo. En otras palabras, se defineni₀como el número de muestras disponibles para eli–ésimo individuo de la población. Sin embargo, si existen algunos individuos de los cuales se tienen muy pocas muestras, como por ejemplo individuos nuevos en la población, el método esta diseñado para tomar más muestras de ellos hasta completar el número m´ınimo de muestras (n0) requeridas por individuo.

Este método toma una muestra, a lo más, de cada individuo vigente de la población e inmediatamente realiza una etapa de eliminación. Esta etapa elimina a los individuos cuyo valor de la función objetivo acumulado excede al valor del mejor individuo más una cierta tolerancia positiva. Mientras más muestras sean tomadas, más pequeña se hace esta tolerancia. Los autores introducen el concepto de región

Figura 3.7. Regi´on de continuaci´on de SSM

de continuación para ilustrar esta etapa de eliminación. La figura 3.7 muestra algunas instancias posibles del proceso de eliminación cuando solamente se tienen dos individuos vigentes, x(i) _y _x(j)_{. El procedimiento continua mientras la suma de las}

diferencias entre las muestras del individuo iy el individuo j,

r X p=1 ˆ fp x(i) −fˆp x(j) (donde ˆfp x(i)

es el valor obtenido para la función objetivo del individuo i en la réplica p), permanezca en el área triangular que define la región de continuación.

Existen tres maneras de que la suma abandone la región de continuación: primero, si la suma se hace muy grande y sobrepasa el l´ımite superior de la región de contin- uación, como el gráfico de la izquierda de la figura 3.7. En ese caso se elimina el individuox(i)_{. Segundo, si la suma se hace muy peque˜}_{na y cae bajo el l´ımite inferior}

de la región de continuación, como en el gráfico de la derecha de la figura 3.7. En ese caso se elimina el individuox(j)_{. Por ´}_{ultimo, si la suma abandona la regi´}_{on triangular}

muy similar y se alcanza el número máximo de iteraciones sin lograr encontrar evi- dencia suficiente como para elegir a alguno de ellos. En este caso se selecciona al individuo cuya función objetivo promedio es menor.

A continuaci´on se presenta formalmente el algoritmo del m´etodo SSM (Pichit- lamken et al., 2006):

(i) Inicializaci´on: Se toma una poblaci´on de N individuos. Seani

0 el n´umero

inicial de muestras disponibles del individuo i y n0 el n´umero m´ınimo de muestras requeridas por individuo. Se realizan n0−ni0 r´eplicas adicionales

de cada individuo cuyo n´umero inicial de muestrasni

0 sea menor quen0.

Se establecen además la probabilidad de elección correcta P∗ = 1−α y el valor del parámetro de indiferencia δ.

(ii) Estimaci´on de la varianza: Se definen los siguientes par´ametros:

n₀ = min

1≤i≤N{n i

0} (3.8)

n_ij = min{ni₀, nj₀} ∀ i6=j. (3.9) Posteriormente se estiman las varianzasσ2

ij =Var

f x(i)

−f x(j) _{, para}

todas las parejas posibles de individuos (i 6= j), a partir de los siguientes estimadores: S_ij2 = 1 n_ij −1 n_ij X p=1 ˆ fp x(i) −fˆp x(j) −¯_ˆ fnij x (i) −f¯ˆnij x (j)2 ∀ i6=j. (3.10) En donde ˆfp x(i)

es el valor obtenido para la funci´on objetivo del individuo

i en la p–ésima réplica del modelo de simulación y f¯ˆn x(i)

es el promedio den de esas r´eplicas.

Se definen adem´as los grados de libertad para cada uno de los estimadores

S_ij2 definidos anteriormente. Estos grados de libertad est´an dados por:

(iii) Definición de la región de continuación: Se definen los siguientes parámetros de la región de continuación:

λ= δ

2c (3.12)

aij =

η fij Sij2

4(δ−λ) ∀ i6=j (3.13)

donde η satisface (para alguna constante c∈_Z+₎

c X `=1 (−1)`+1 1− I(`=c) 2 1 + (2c−`)`η 2c−1 −_fij 2 = α N −1, (3.14) que para c= 1 (recomendado por los autores) se reduce a

η = N −1 2α _fij2 −1. (3.15)

Se definen también los siguientes parámetros del método:

Nij = ja_ij λ k (3.16) Ni = max i6=j {Nij} (3.17) Nmax= max{Ni} (3.18)

El procedimiento termina sin₀ > Nmaxy se retorna el individuo con menor

valor promedio de la función objetivo. En otro caso se define la iteración actual r = n₀ y el número de réplicas acumuladas en la iteración r como

ni,r =ni0 para todos los individuos.

(iv) Etapa de eliminaci´on: Sea I el conjunto de las soluciones vigentes. Definir

I0 =I y actualizar I seg´un I =ni:i∈I0 y rf¯ˆni,r x (i) ≤min j∈I0 j6=i rf¯ˆnj,r x (j) +aij −rλo (3.19) (v) Criterio de parada: El procedimiento termina si |I| = 1 y se retorna el

(a) Realizar una r´eplica adicional y definir ni,r+1 = ni,r + 1 para cada

individuoi que a´un est´a vigente (i.e. i∈I) y queni,r< r+ 1.

(b) Definir ni,r+1 = ni,r para cada individuo i que a´un est´a vigente y que

ni,r ≥r+ 1.

retorna el individuo con menor valor promedio de la funci´on objetivo. En otro caso se vuelve al paso 4 (etapa de eliminaci´on).

Una ventaja de este método es que no sólo se puede utilizar para elegir al mejor de los individuos, sino que además, mediante una simple modificación, permite encontrar el grupo de losk mejores individuos. Para ello basta con detener la búsqueda cuando se tenga que |I| = k en el paso 5 del algoritmo presentado anteriormente. Otra ventaja es que los autores demostraron que este procedimiento conduce a la elección correcta con una probabilidad mayor queP∗.

Un elemento central del método SSM es la región de continuación, que queda definida por las pendientes (λ) y los interceptos (aij) de la familia de rectas que la

forman. Es por esto que estos dos elementos merecen un poco de atención. Obser- vando la ecuación (3.12) es claro que la pendiente es la misma para todas las rectas y que queda completamente definida por parámetros que son fijados por el modelador. En cambio, la ecuación (3.13) hace ver que los interceptos son distintos para todas las rectas y que dependen de variables que no son determinadas por el modelador, como la estimación de las varianzas (S2

ij) y sus grados de libertad (fij). Es importante hacer

notar que estas dos variables son fijadas al comienzo del algoritmo y no se cambian durante todo su desarrollo, sin importar que estas estimaciones sean mejores mientras más iteraciones del método se hayan realizado. Esto abre la posibilidad de realizar algunas modificaciones intuitivas al método, que permitan mejorar su desempeño.

Sin duda, si el método actualizara la región de continuación en todas las iteraciones con una estimación de la varianza más robusta2 se podr´ıan obtener mejores

2_{En el sentido de que es realizada a partir de todas las muestras de las que se dispone, incluyendo}

resultados. Esto se debe a que la región de continuación se irá haciendo cada vez más ajustada (ya que las estimaciones se hacen cada vez más precisas) y las decisiones de eliminación serán cada vez más estrictas y fundamentadas, llevando a la elección correcta con un menor esfuerzo computacional.

En este trabajo se experimentará con una versión modificada del método SSM, que busca corregir la deficiencia presentada anteriormente. Este nuevo método será conocido comoSSM modificado y consiste en reiniciar el método SSM en cada itera- ción con el conjunto de individuos que quedaron vigentes en la iteración anterior. A continuación se presenta una descripción más formal del método:

(i) Llamar a la primera iteración del método SSM, entregándole la población completa de individuos.

(ii) Definir I como el conjunto de individuos que sobrevivieron la etapa de eliminación de la iteración de SSM que se realizó.

(iii) Realizar nuevamente la primera iteración del método SSM, entregándole la población definida por el conjunto I. Volver al paso 2 mientras el criterio de parada de SSM no se cumpla.

Si bien no se cuenta con una desarrollo formal que demuestre que este método modificado llevará a la elección correcta con una probabilidad mayor queP∗, intuiti- vamente se puede prever que si lo hará.

Para comparar el desempeño de los métodos ETSS, SSM y SSM modificado, se realizaron en una primera instancia los mismos experimentos que en la sección anterior (ver tabla 3.2). Si bien estos experimentos no permiten apreciar una de las mayores caracter´ısticas de las dos versiones del método SSM (manejar poblaciones con distinto número de muestras iniciales), son muy útiles para comparar los desempeños de los tres métodos y sacar algunas conclusiones interesantes. La tabla 3.4 muestra los resultados obtenidos.

Tabla 3.4. Desempe˜no de los m´etodos ETSS, SSM y SSM modificado

(SSM2) para el conjunto de experimentos de la tabla 3.2. Cada valor corresponde a un promedio de 1000 r´eplicas del experimento.

Diseño Método Elección Correcta Réplicas Totales Reducción

1 ETSS 97.7% 248 SSM 100% 265 -16 (-6.6%) SSM2 92.7% 111 137 (55.2%) 2 ETSS 99.4% 92 SSM 99.9% 87 5 (5.0%) SSM2 98.4% 73 19 (21.0%) 3 ETSS 89.0% 993 SSM 98.9% 1274 -281 (-28.3%) SSM2 93.1% 439 555 (55.8%) 4 ETSS 99.2% 115 SSM 100% 135 -20 (-17.5%) SSM2 98.3% 86 29 (25.4%) 5 ETSS 100% 71 SSM 100% 70 1 (0.9%) SSM2 100% 70 1 (1.3%) 6 ETSS 96.5% 528 SSM 99.3% 624 -95 (-18.0%) SSM2 95.7% 264 265 (50.1%) 7 ETSS 96.0% 370 SSM 99.5% 394 -24 (-6.5%) SSM2 93.4% 143 227 (61.4%) 8 ETSS 99.1% 117 SSM 99.9% 111 6 (5.4%) SSM2 95.5% 76 41 (35.1%) 9 ETSS 84.0% 1405 SSM 99.2% 1903 -499 (-35.5%) SSM2 93.4% 608 797 (56.7%)

Lo primero que se puede observar es que SSM realiza más réplicas que ETSS en 6 de los 9 experimentos utilizados, lo que se traduce en que requiera en promedio un 11.24% más de esfuerzo computacional que el método de dos etapas. Sin embargo, SSM cumple con la condición de que la probabilidad de elección correcta sea mayor a

1 2 3 4 5 6 7 8 9 10 0 20 40 60 80 100 Individuo Réplicas

Diseño #1 (Varianzas iguales)

1 2 3 4 5 6 7 8 9 10 0 8 16 24 32 40 Individuo Réplicas

Diseño #4 (Varianzas crecientes)

1 2 3 4 5 6 7 8 9 10 0 30 60 90 120 Individuo Réplicas

Diseño #6 (Varianzas crecientes)

1 2 3 4 5 6 7 8 9 10 0 40 80 120 160 200 Individuo Réplicas

Diseño #7 (Varianzas decrecientes) SSM SSM2 ETSS SSM SSM2 ETSS SSM SSM2 ETSS SSM SSM2 ETSS

Figura 3.8. Resultados de 4 experimentos que muestran el desempe˜no de

los m´etodos ETSS, SSM y SSM modificado (SSM2)

P∗ = 0.9 en todos los experimentos; condici´on que, como se vio anteriormente, ETSS no cumple.

Por otro lado, se puede observar que el método SSM modificado tiene un de- sempeño notable, realizando tan sólo un 55.75% y un 59.77% de las réplicas utilizadas por SSM y ETSS respectivamente. Además este método cumple con la condición de realizar la elección correcta en más del 90% de los casos para todos los experimentos realizados.

La figura 3.8 muestra el detalle, individuo a individuo, de las réplicas realizadas por cada método en cuatro experimentos seleccionados. Observando dicha figura es posible notar que SSM modificado realiza prácticamente el mismo número de réplicas

Tabla 3.5. N´umero inicial de muestras por individuo de los experimentos

para comparar el desempeño de técnicas de ranking y selección.

n0 crecientes

Dise˜no n0por individuo (1 →10)

1 7 9 11 13 15 17 19 21 23 25

2 7 11 15 19 23 27 31 35 39 43

n0 decrecientes

Dise˜no n0por individuo (1 →10)

3 25 23 21 19 17 15 13 11 9 7

4 43 39 35 31 27 23 19 15 11 7

que ETSS en los individuos que tienen un valor esperado de la función objetivo alto (individuos 5 en adelante). En cambio, en el caso de los individuos que tienen un valor esperado de la función objetivo bajo (individuos 1 a 4) SSM modificado logra un ahorro sustancial en el número de réplicas necesarias, que explica el notable desempeño exhibido por este método. Este resultado no se consigue con el método SSM y por lo tanto puede ser atribuido a la modificación introducida en este trabajo. Para valorar la capacidad de SSM y SSM modificado de trabajar con poblaciones de individuos que cuentan con distinto número inicial de muestras se desarrolló el siguiente experimento. Nuevamente se supondrá que se cuenta con una población de 10 individuos, cuyos valores de la función objetivo pueden ser modelados a través de una distribución normal (i.i.d. entre los individuos). Las medias de estas distribu- ciones están dadas por µ={1,2,3,4,5,6,7,8,9,10} y las varianzas son iguales para todos los individuos y se mueven dentro del intervalo [0,7]. Se considerará además que el número inicial de muestras es distinto para cada individuo. Para probar a los algoritmos en distintas situaciones, se diseñaron 4 escenarios posibles para el número inicial de muestras. La tabla 3.5 muestras estos diseños.

Como se muestra en la tabla 3.5, existen 2 diseños en que el número inicial de muestras es proporcional a la media del valor de la función objetivo de cada individuo, y 2 diseños en que el número inicial de muestras es inversamente proporcional a la media del valor de la función objetivo de cada individuo. Además en cada caso (n0

creciente y decreciente) se consideraron 2 intensidades para la tendencia exhibida por

n0, siendo suave en los diseños 1 y 3, y fuerte en los diseños 2 y 4. Además, como se

mencionó anteriormente, para cada uno de los diseños se utilizarán varianzas dentro del intervalo [0,7].

Para todos los experimentos se considerar´a una probabilidad de elecci´on correcta

P∗ = 0.9 y un par´ametro de indiferencia δ = 0.9. Cada experimento ser´a repetido 5000 veces de manera de poder eliminar cualquier efecto aleatorio.

Dado que ETSS no puede manejar poblaciones con distinto número inicial de muestras se utilizará una adaptación intuitiva del método, basada en el método de- sarrollado por Boesel, Nelson y Kim (2003). Esta adaptación será conocida como

ETSS m´ınimo y consiste en realizar las siguientes modificaciones al m´etodo ETSS: (i) Calcular h a partir de la ecuaci´on (3.5) reemplazando n0 por el m´ınimo

n´umero de muestras iniciales (i.e. min{ni

0}).

(ii) Utilizar todas las muestras disponibles para cada individuo en la estimaci´on de la media y la varianza muestral de la primera etapa (ecuaciones (3.2) y (3.3) respectivamente).

(iii) En la segunda etapa se realizan Ni−ni0 r´eplicas adicionales, y no Ni−n0

como se postula originalmente.

Estas pequeñas modificaciones permiten al método ETSS manejar poblaciones con distinto número de muestras iniciales sacando el mejor provecho posible al número extra de réplicas de las que se dispone.

La figura 3.9 muestra el desempeño conseguido por cada método en los 4 experimentos realizados. Es importante mencionar que en este caso el número total de réplicas (eje de ordenadas en los gráficos) se refiere al número total de réplicas que el algoritmo necesitó por sobre el número inicial de muestras. Es por esto que las figuras indican que todos los algoritmos no requieren réplicas cuando la varianza es nula, ya que en ese caso todos los algoritmos son capaces de tomar la elección correcta considerando exclusivamente las muestras con se cuenta inicialmente.

0 1 2 3 4 5 6 7 0 50 100 150 200 250 Diseño #1 (n₀ creciente) Varianza (σ2) Réplicas Totales 0 1 2 3 4 5 6 7 0 50 100 150 200 250 Diseño #2 (n₀ creciente) Varianza (σ2) Réplicas Totales 0 1 2 3 4 5 6 7 0 40 80 120 160 200 Diseño #3 (n 0 decreciente) Varianza (σ2) Réplicas Totales 0 1 2 3 4 5 6 7 0 30 60 90 120 150 Diseño #4 (n 0 decreciente) Varianza (σ2) Réplicas Totales ETSS min SSM SSM2 ETSS min SSM SSM2 ETSS min SSM SSM2 ETSS min SSM SSM2

Figura 3.9. Desempe˜no de los m´etodos ETSS m´ınimo, SSM y SSM modificado (SSM2) para el conjunto de experimentos de la tabla 3.5 (varianzas iguales yn0 distintos). Cada punto de las curvas corresponde a un promedio

de 5000 r´eplicas del experimento.

Como es de esperarse, todos los algoritmos necesitan un mayor número de réplicas mientras mayor es la varianza de los individuos, ya que se requieren más réplicas para eliminar el efecto aleatorio y as´ı poder realizar la elección correcta. Sin embargo, se puede observar que el número de réplicas que requiere el método SSM modificado crece mucho más lentamente que los demás, siendo el algoritmo que mejor desempeño presenta en los cuatro experimentos. Además, ahora es posible justificar el desempeño del método SSM por sobre el método ETSS, que en el experimento anterior hab´ıa

quedado en duda. SSM obtiene mejores resultados que ETSS m´ınimo en los cuatro experimentos.

Finalmente, vale la pena destacar el notable desempeño logrado por el método SSM modificado en los diseños con un número de muestras iniciales decrecientes (diseños 3 y 4), que es el escenario que más t´ıpicamente se enfrentará en una iteración cualquiera del algoritmo genético que se presentará en el siguiente cap´ıtulo. En ambos diseños el método prácticamente no necesitó de réplicas adicionales para realizar la elección correcta.

3.3. Discusi´on

En este cap´ıtulo se present´o el marco te´orico necesario para sustentar el desarrollo del algoritmo propuesto en este trabajo, que se introduce formalmente en el cap´ıtulo siguiente.

En una primera parte se introdujeron los algoritmos genéticos como técnica de optimización, poniendo especial énfasis en los algoritmos de codificación real y sus variantes que permiten resolver problemas de variables continuas. Además se presentó

In document Algoritmo para la optimización de parámetros continuos vía simulación basado en un algoritmo genético híbrido (página 49-63)