IV.3 M´etodos de optimizaci´on
IV.3.1 Estrategia de Nelder y Mead
Nelder y Mead (1965) desarrollaron un m´etodo de minimizaci´on de funciones multidi- mensionales llamadodownhill simplex (Presset al., 1994) o estrategiaSimplex (Schwe- fel, 1995). Este m´etodo no tiene relaci´on con el m´etodo de programaci´on lineal simplex propuesto por Dantzing en 1966. La idea original se centra en reducir lo m´as posible, el n´umero de pruebas simult´aneas que se identifican experimentalmente para el dise˜no de problemas de orden factorial (Schwefel, 1995). El n´umero m´ınimo de situaciones si- mult´aneas esn+1 eventos. El m´etododownhill simplextoma entoncesn+1 situaciones simult´aneas, llamadas v´ertices, para cada uno de los n par´ametros desconocidos.
Un simplex es una figura geom´etrica en un espacio n-dimensional, compuesta por
n + 1 puntos o v´ertices y todos los segmentos de interconexi´on entre ellos. En dos dimensiones un simplex es un tri´angulo, en tres dimensiones es un tetraedro, en n- dimensiones es un poliedro. El m´etodo comienza con la generaci´on de un simplex, lo
que equivale a generar n+ 1 v´ertices. Se eval´ua la funci´on objetivo en cada uno de estos puntos. A partir de esta etapa se generan una serie de movimientos geom´etricos de los v´ertices tendientes a conservar el volumen del simplex (proceso no degenerativo) definidos en las siguientes reglas de cada iteraci´on, para el caso de minimizaci´on:
• El v´ertice cuyo valor de la funci´on objetivo sea el m´as grande, “punto alto”, se mueve a trav´es de la cara opuesta del simplex donde se encuentra el“punto bajo”, a este movimiento se le llamareflexi´on, Figura 43.b. El“punto bajo”es el v´ertice con el valor m´as peque˜no de la funci´on objetivo, el mejor punto, y el “punto alto” representa al peor punto. El movimiento de reflexi´on es ´util para buscar una regi´on m´as promisoria en el espacio de b´usqueda.
• Si el movimiento de reflexi´on mejora al peor punto, entonces el simplex se ex- pandeen esa misma direcci´on, ver Figura 43.d, lo que equivale a explotar exhaus- tivamente la regi´on m´as promisoria.
• Si se alcanza un “valle” el ´ultimo v´ertice calculado puede ser tambi´en el peor punto. En este caso se intenta una contracci´on del simplex, punto medio entre el peor y el mejor v´ertice, ver Figura 43.c, con el objeto de buscar una salida del valle. La prueba consiste en comparar si el movimiento de contracci´on mejora el valor delpeor punto con respecto al segundo peor.
• Si la prueba anterior falla, el simplex efect´ua una contracci´on m´ultiple alrededor del “punto bajo”, ver Figura 43.e, el cual reduce su volumen para intentar pasar a trav´es del valle.
La b´usqueda termina cuando la magnitud del vector que define la distancia entre el mejor y el peor v´ertice es inferior a cierta tolerancia. La Figura 43, muesta los movimientos de la estrategia de optimizaci´on simplex.
a) Simplex
alto
bajo
b) reflexión
c) contracción
d) reflexión y expansión
e) contracción múltiple
Figura 43: Movimientos geom´etricos definidos en el m´etodo Downhill Simplex. a) Simplex de 3 par´ametros en el inicio de cada iteraci´on, representado por un tetraedro. Elsimplex al final de una iteraci´on puede ser uno de los casos siguientes: b) Reflexi´on del punto “alto” en la direcci´on del punto “bajo”; c)Contracci´on de la cara delsimplex defindo por los puntos “alto” y “bajo”; d)Reflexi´on y expansi´on sobre el punto “alto”; e)Contracci´on m´ultiple alrededor del punto “bajo”.
El procedimiento b´asico consiste en:
1. Dada una matriz p(i,j), i = 1, . . . , n+ 1;j = 1, . . . , n que representa los n + 1
v´ertices de un simplex con n par´ametros iniciales, y(i) = F(p(i,j)) es el vector
que contiene los valores de la funci´on objetivo F() en el i-´esimo v´ertice y una tolerancia ε >0 (i.e.,ε= 10−12).
2. Se determinan los ´ındices (b, w, s) que representan el mejor, el peor y del se- gundo peorv´ertice, respectivamente
y(b) = min{y(i), i= 1, . . . , n+ 1}
y(w)= max{y(i), i= 1, . . . , n+ 1}
y(s) = max{y(i), i= 1, . . . , n+ 1, i6=w} .
3. Se contruye un vector de peso ¯ c= 1 n n+1 X i=1,i6=w p(i,k) k = 1, . . . , n ,
y se efect´ua un movimiento de reflexi´on normal
p0 = 2¯c−p
(w,k) .
En los subsecuentes pasos, el sub´ındicek= 1, . . . , nrepresenta a losnpar´ametros. SiF(p0)< F(p
(b,k)) entonces se va al paso 5.
4. Si la reflexi´on no mejora el valor del peor punto, se compara el movimiento de reflexi´on con respecto al segundo peor v´ertice.
SiF(p0)≥F(p
(s,k)) entonces intente una contracci´on, vaya al paso 6, de lo contra-
rio asigne p(w,k) =p0 y ejecute el paso 8.
5. Expansi´on. Se explota exhaustivamente la regi´on m´as promisoria, construyendose
p00 = 2p0−¯c .
SiF(p00)< F(p
(b,k)) entonces p(w,k) =p00, de lo contrariop(w,k)=p0. En cualquier
caso, ejecute el paso 8. 6. Contracci´on. Se contruye,
Si F(p00) ≥ F(p
(w,k)) realice una contracci´on m´ultiple, ejecute el paso 7, de lo
contrario asignep(w,k)=p00 y ejecute el paso 8.
7. Contracci´on m´ultiple alrededor del mejor punto b.
p(i,k) = 0.5(p(b,k)+p(i,k)) i= 1, . . . , n+ 1, i6=b .
8. Terminaci´on. El proceso finaliza cuando una fracci´on de la magnitud del vector de distancia entre elpeor y elmejor punto son inferiores a cierta tolerancia.
2 |y(w)−y(b)|
|y(w)|+|y(b)|
≤ε .
Si el criterio de terminaci´on no se cumple entonces regresa al paso 2
En general, la estrategia de optimizaci´onsimplex tiene las siguientes caracter´ısticas:
• Requiere ´unicamente de evaluaciones de la funci´on objetivo, por tanto, es in- ecesario el c´alculo del gradiente o el Hessiano de la funci´on de m´erito. Esta caracter´ıstica es deseable si la obtenci´on de las derivadas parciales con respecto a los par´ametros de la funci´on objetivo es dif´ıcil o imposible de calcular.
• El n´umero de hip´otesis que se prueba en una iteraci´on es de n+ 1.
• El criterio de b´usqueda del m´ınimo es geom´etrico. El m´ınimo se encuentra cuando el vol´umen del poliedro que se forma a trav´es de los v´ertices es peque˜no. El poliedro tiende a convertirse en un punto. Si la funci´on objetivo no es muy compleja, que contenga un gran n´umero de extremos cercanos, esta estrategia puede llegar a converger r´apidamente a un extremo (local al menos), en caso contrario no se recomienda su empleo.
1. Como un proceso de optimizaci´on global para buscar el mejor conjunto de par´ametrosP, pertenecientes aV(I,P), que se ajusten mejor a las observaciones (una ventana de la imagen). En este caso, la funci´on objetivo o de m´erito es el valor de χ2, ver Ecuaci´on (101).
2. Como un proceso de optimizaci´on para encontrar el punto exacto (xe,ye) de cada
esquina tipo L que construye el v´ertice. En este caso la funci´on objetivo es la distancia entre (x0, y0) y un punto en la curva de contorno central de cada
ML(I,P).