Estrategia de Nelder y Mead - M´etodos de optimizaci´on

IV.3 M´etodos de optimizaci´on

IV.3.1 Estrategia de Nelder y Mead

Nelder y Mead (1965) desarrollaron un método de minimización de funciones multidi- mensionales llamadodownhill simplex (Presset al., 1994) o estrategiaSimplex (Schwe- fel, 1995). Este método no tiene relación con el método de programación lineal simplex propuesto por Dantzing en 1966. La idea original se centra en reducir lo más posible, el número de pruebas simultáneas que se identifican experimentalmente para el diseño de problemas de orden factorial (Schwefel, 1995). El número m´ınimo de situaciones si- multáneas esn+1 eventos. El métododownhill simplextoma entoncesn+1 situaciones simultáneas, llamadas vértices, para cada uno de los n parámetros desconocidos.

Un simplex es una figura geom´etrica en un espacio n-dimensional, compuesta por

n + 1 puntos o vértices y todos los segmentos de interconexión entre ellos. En dos dimensiones un simplex es un triángulo, en tres dimensiones es un tetraedro, en n- dimensiones es un poliedro. El método comienza con la generación de un simplex, lo

que equivale a generar n+ 1 vértices. Se evalúa la función objetivo en cada uno de estos puntos. A partir de esta etapa se generan una serie de movimientos geométricos de los vértices tendientes a conservar el volumen del simplex (proceso no degenerativo) definidos en las siguientes reglas de cada iteración, para el caso de minimización:

• El vértice cuyo valor de la función objetivo sea el más grande, “punto alto”, se mueve a través de la cara opuesta del simplex donde se encuentra el“punto bajo”, a este movimiento se le llamareflexión, Figura 43.b. El“punto bajo”es el vértice con el valor más pequeño de la función objetivo, el mejor punto, y el “punto alto” representa al peor punto. El movimiento de reflexión es útil para buscar una región más promisoria en el espacio de búsqueda.

• Si el movimiento de reflexión mejora al peor punto, entonces el simplex se ex- pandeen esa misma dirección, ver Figura 43.d, lo que equivale a explotar exhaustivamente la región más promisoria.

• Si se alcanza un “valle” el último vértice calculado puede ser también el peor punto. En este caso se intenta una contracción del simplex, punto medio entre el peor y el mejor vértice, ver Figura 43.c, con el objeto de buscar una salida del valle. La prueba consiste en comparar si el movimiento de contracción mejora el valor delpeor punto con respecto al segundo peor.

• Si la prueba anterior falla, el simplex efectúa una contracción múltiple alrededor del “punto bajo”, ver Figura 43.e, el cual reduce su volumen para intentar pasar a través del valle.

La búsqueda termina cuando la magnitud del vector que define la distancia entre el mejor y el peor vértice es inferior a cierta tolerancia. La Figura 43, muesta los movimientos de la estrategia de optimización simplex.

a) Simplex

alto

bajo

b) reflexión

c) contracción

d) reflexión y expansión

e) contracción múltiple

Figura 43: Movimientos geométricos definidos en el método Downhill Simplex. a) Simplex de 3 parámetros en el inicio de cada iteración, representado por un tetraedro. Elsimplex al final de una iteración puede ser uno de los casos siguientes: b) Reflexión del punto “alto” en la dirección del punto “bajo”; c)Contracción de la cara delsimplex defindo por los puntos “alto” y “bajo”; d)Reflexión y expansión sobre el punto “alto”; e)Contracción múltiple alrededor del punto “bajo”.

El procedimiento b´asico consiste en:

1. Dada una matriz p(i,j), i = 1, . . . , n+ 1;j = 1, . . . , n que representa los n + 1

v´ertices de un simplex con n par´ametros iniciales, y(i) = F(p(i,j)) es el vector

que contiene los valores de la función objetivo F() en el i-ésimo vértice y una tolerancia ε >0 (i.e.,ε= 10−12_).

2. Se determinan los ´ındices (b, w, s) que representan el mejor, el peor y del se- gundo peorv´ertice, respectivamente

y(b) = min{y(i), i= 1, . . . , n+ 1}

y(w)= max{y(i), i= 1, . . . , n+ 1}

y(s) = max{y(i), i= 1, . . . , n+ 1, i6=w} .

3. Se contruye un vector de peso ¯ c= 1 n n+1 X i=1,i6=w p(i,k) k = 1, . . . , n ,

y se efect´ua un movimiento de reflexi´on normal

p0 _{= 2¯}_c₋_p

(w,k) .

En los subsecuentes pasos, el sub´ındicek= 1, . . . , nrepresenta a losnpar´ametros. SiF(p0₎_{< F}₍_p

(b,k)) entonces se va al paso 5.

4. Si la reflexión no mejora el valor del peor punto, se compara el movimiento de reflexión con respecto al segundo peor vértice.

SiF(p0₎_≥_F₍_p

(s,k)) entonces intente una contracci´on, vaya al paso 6, de lo contra-

rio asigne p(w,k) =p0 y ejecute el paso 8.

5. Expansión. Se explota exhaustivamente la región más promisoria, construyendose

p00 = 2p0−¯c .

SiF(p00₎_{< F}₍_p

(b,k)) entonces p(w,k) =p00, de lo contrariop(w,k)=p0. En cualquier

caso, ejecute el paso 8. 6. Contracci´on. Se contruye,

Si F(p00₎ _≥ _F₍_p

(w,k)) realice una contracci´on m´ultiple, ejecute el paso 7, de lo

contrario asignep(w,k)=p00 y ejecute el paso 8.

7. Contracci´on m´ultiple alrededor del mejor punto b.

p(i,k) = 0.5(p(b,k)+p(i,k)) i= 1, . . . , n+ 1, i6=b .

8. Terminaci´on. El proceso finaliza cuando una fracci´on de la magnitud del vector de distancia entre elpeor y elmejor punto son inferiores a cierta tolerancia.

2 |y(w)−y(b)|

|y(w)|+|y(b)|

≤ε .

Si el criterio de terminaci´on no se cumple entonces regresa al paso 2

En general, la estrategia de optimizaci´onsimplex tiene las siguientes caracter´ısticas:

• Requiere únicamente de evaluaciones de la función objetivo, por tanto, es in- ecesario el cálculo del gradiente o el Hessiano de la función de mérito. Esta caracter´ıstica es deseable si la obtención de las derivadas parciales con respecto a los parámetros de la función objetivo es dif´ıcil o imposible de calcular.

• El número de hipótesis que se prueba en una iteración es de n+ 1.

• El criterio de búsqueda del m´ınimo es geométrico. El m´ınimo se encuentra cuando el volúmen del poliedro que se forma a través de los vértices es pequeño. El poliedro tiende a convertirse en un punto. Si la función objetivo no es muy compleja, que contenga un gran número de extremos cercanos, esta estrategia puede llegar a converger rápidamente a un extremo (local al menos), en caso contrario no se recomienda su empleo.

1. Como un proceso de optimización global para buscar el mejor conjunto de parámetrosP, pertenecientes aV(I,P), que se ajusten mejor a las observaciones (una ventana de la imagen). En este caso, la función objetivo o de mérito es el valor de χ2_{, ver Ecuación (101).}

2. Como un proceso de optimizaci´on para encontrar el punto exacto (xe,ye) de cada

esquina tipo L que construye el v´ertice. En este caso la funci´on objetivo es la distancia entre (x0, y0) y un punto en la curva de contorno central de cada

ML(I,P).

In document Detector paramétrico a nivel sub-pixel de esquinas múltiples y blancos retro-reflejantesParametric sub-pixel multi-corner detector and targets (página 123-128)