Optimizaci ´on

(1)

Optimizaci ´ on

Escuela de Ingenier´ıa Inform ´atica de Oviedo

(Dpto. de Matem áticas-UniOvi) Computaci ón Num érica Optimizaci ´on 1 / 19

(2)

Introducci ´ on

Problema general de optimizaci ´on (minimizaci ´on)

Dadof : Ω ⊂ Rⁿ→ Rfindx^∗∈ Ωtal quef (x^∗) ≤f (x )para todox ∈ Ω.

f se llamafunci ´on objetivo, yΩelconjunto de soluciones posibles.

Escribimos

minx ∈Ωf (x ).

Casos principales

Optimizaci ´on sin constricciones:Ω = Rⁿ

Optimizaci ´on con constricciones:Ω ( Rⁿ, habitualmente determinada por un conjunto de constricciones dadas por igualdades o desigualdades,

h(x ) = 0, g(x ) ≤ 0, etc.

(3)

Hecho:

No hay t ´ecnicas generales para resolver el problema de optimizaci ´on global.

Por lo tanto, habitualmente se resuelve de forma d ´ebil.

Optimizaci ´on local

Encontrarx^∗∈ Ωtal quef (x^∗) ≤f (x )para todox tal quekx − x^∗k ≤ R,

Excepci ´on

Sif es una funci ´on estrictamente convexa yΩes un conjunto estrictamente convexo, entoncesf tiene un m´ınimo local y ´unico (y global) enΩ.

(4)

Repaso de la teor´ıa de optimizaci ´ on local

En una variable: Resolver el problema de optimizaci ´on paraf : R → R: Encontrar el conjunto depuntos cr´ıticosxc(f⁰(xc) =0).

Sif⁰⁰(xc) >0entoncesxc es un m´ınimo local.

nvariables: Resolver el problema de optimizaci ´on paraf : Rⁿ→ R:

Encontrar los puntos cr´ıticosxc, que satisfacen∇f (xc) =0, es decir,

∂x₁f (xc) =0, ∂x₂f (xc) =0, . . . , ∂x_nf (xc) =0

Calcular el Hessiano enxc

H(f )(xc) =

∂x_ix_jf (xc))

n

i,j=1. Si esta matriz es definida positiva,xc es un m´ınimo local.

(5)

M ´etodos de descenso

Se ˜nalar que:

Encontrar un m´ınimo local es, en general, m ´as f ´acil que el problema de resolver ecuaciones no lineales

g(x^∗) = ∇f (x^∗) =0 porque

Podemos evaluarf, adem ´as de∇f,

La matriz Hessiana es definida positiva cerca de la soluci ´on.

(6)

M ´etodos de descenso

Si tenemos un puntox^k, y conocemos unadirecci ´on de descensod^k, es decir, una direcci ´on en la cual

f (x^k+ αd^k) <f (x^k) for all0 < α ≤ α_max, entonces podemos descender y avanzar un punto hacia el m´ınimo:

x^{k +1}=x^k + α_kd^k, dondeα_k es unalongitud de paso.

(7)

M ´etodo del gradiente

Si la funci ´on es diferenciable podemos usar la f ´ormula de Taylor

f (x^k+ α_kd^k) ≈f (x^k) + α_k(∇f )^Td^k =f (x^k) + α_k

n

X

i=1

∂_x_if (x^k)d_i^k.

Esto significa que eldecremento local m ás r ápido para la funci ón objetivo se consigue cuando nos movemos en direcci ón opuesta al gradiente enla direcci ón de m áxima pendiente

d^k = −∇f (x^k) = −g_k.

Una forma para escoger la longitud de paso es realizar una minimizaci ´on sobre una l´ınea unidimensional:

α_k =arg min_αf (x^k + αd^k), de la que solo necesitamosuna soluci ´on aproximada.

(8)

M ´etodo del gradiente

Si suponemos que tenemos la l´ınea exactaα_k =arg min_αφ(α), donde φ(α) =f (x^k+ αd^k). Entonces tenemos que resolver

φ⁰(α) = ∇f (x^k + αd^k)^Td^k =0, lo que implica

∇f (x^k + αd^k)^T ⊥ d^k = −∇f (x^k).

Esto supone que el m ´etodo sigue unatrayectoria en zigzag hacia el m´ınimo.

Error

El m ´etodo del gradiente tiene convergencia lineal con coeficiente de convergencia

C ∝ 1 − r

1 + r, donder = λ_min(H) λ_max(H) = 1

κ₂(H),

es inversamente proporcional al n ´umero de condici ´on de la matriz Hessiana.

Por lo tanto, el m ´etodo del gradiente puede tener una convergencia muy lenta si la matriz Hessiana est ´a mal condicionada.

(9)

M ´etodo de Newton

Sea la f ´ormula de Taylor de orden dos def f (x^k+ ∆x ) = f (x^k) + ∇f (x^k)^T∆x +1

2(∆x )^TH(x^k)∆x ,

con∆x = x − x^k. Tenemos un extremo cuando el diferencial con respecto a

∆x es cero, es decir, cuando

∇f (x^k)^T +H(x^k)∆x = 0.

Entonces

∆x = −H(x^k)⁻¹∇f (x^k)^T ⇒ x^{k +1}=x^k− H(x^k)⁻¹∇f (x^k)^T.

Se ˜nalar que:

El m ´etodo es exacto para funciones objetivo cuadr ´aticas. En este casoH(x )es constante.

Equivale a usar el m ´etodo de Newton-Raphson para resolver el sistema no lineal∇f (x^∗) =0.

(10)

Problemas del m ´etodo de Newton

Para funciones objetivo no lineales, el m ´etodo de Newton necesita resolver un sistema lineal en cada pasocostoso.

Puede no converger si el punto inicial no es adecuado, o puede converger a un punto de silla o a un m ´aximo:no fiable.

Para tratar de salvar estas dificultades se usan variantes om ´etodos de cuasi-Newton:

x^{k +1}=x^k − α_kH_k⁻¹∇f (x^k)^T,

donde0 < α_k <1yH_k es una aproximaci ´on de la matriz Hessiana.

(11)

Optimizaci ´on con constricciones

Formulaci ´ on general

Problema general de optimizaci ´on con constricciones Dadof : Rⁿ→ R, encontrarx ∈ Rⁿque stisfaga

x ∈Rminⁿf (x ),

h(x ) = 0 (constricciones igualdad), g(x ) ≤ 0 (constricciones desigualdad).

Asumimos que las funcionesf , g yhson suaves.

(12)

Multiplicadores de Lagrange: una ´ unica igualdad

Una constricci ´on igualdadh(x ) = 0corresponde a una superficie den − 1 dimensiones cuyo vector normal es∇h.

Para una única constricci ón igualdad suave, el gradiente de la funci ón objetivo debe ser paralelo al vector normal a la superficie de constricci ón:

∇f k ∇h ⇒existe unλtal que∇f + λ∇h = 0,

dondeλes elmultiplicador de Lagrangecorrespondiente a la constricci ´on h(x ) = 0.

Para calcular el m´ınimo hemos de tener en cuenta las dos ecuaciones:

∇f + λ∇h = 0 h(x ) = 0

(13)

Multiplicadores de Lagrange: m igualdades

Cuando tenemosmigualdades,

h1(x ) = h2(x ) = . . . = hm(x ),

generalizamos haciendo que la direcci ´on de descenso−∇f debe estar en el subespacio generado por los vectores normales a las constricciones:

∇f +

m

X

i=1

λ_i∇h_i = ∇f + (∇h)^Tλ =0,

El Jacobiano tiene como vectores fila los vectores normales

∇h = ∂hi

∂x_j

ij

.

Esta es unacondici ´on necesaria de ´optimo de primer orden.

(14)

Multiplicadores de Lagrange: ´ unica desigualdad

En la soluci ´onx^∗, dada una constricci ´on desigualdadg_i(x ) ≤ 0esta puede ser

activa, sig_i(x^∗) =0, inactiva, sig_i(x^∗) <0.

Para desigualdades, exite un signo o sentido para los vectores normales a la constricci ´on:

para una constricci ´on activa, te puedes mover en el sentido de−∇gpero no en el sentido de∇g.

Esto significa, que en este caso

∇f = −µ∇g, dondeµ >0.

(15)

Multiplicadores de Lagrange: r desigualdades

La generalizaci ´on es la misma que para las igualdades

∇f +

r

X

i=1

µ_i∇g_i = ∇f + (∇g)^Tµ =0,

pero con la condici ´on

µ_i =0 para constricciones inactivas, µ_i >0 para constricciones activas.

Poniendo igualdades y desigualdades juntas tenemos lacondici ´on necesaria de primer orden de Karush-Kuhn-Tucker: Existen los multiplicadores de Lagrangeλ ∈ R^myµ ∈ R^r tal que:

∇f + (∇h)^Tλ + (∇g)^Tµ =0, µ ≥0 y µ^Tg(x ) = 0.

(16)

Funci ´ on Lagrangiana

Podemos reescribir la ecuaci ´on

∇f + (∇h)^Tλ + (∇g)^Tµ =0 como

∇_xL = 0, dondeLes lafunci ´on Lagrangiana

L(x , λ, µ) = f (x ) +

m

X

i=1

λ_ihi(x ) +

r

X

i=1

µ_igi(x ),

o, en notaci ´on vectorial,

L(x , λ, µ) = f (x ) + λ^Th(x ) + µ^Tg(x ).

(17)

Constricciones igualdad

Las condiciones necesarias de primer orden para problemas de constricci ´on igualdad vienen, por lo tanto, dadas por las condiciones estacionarias:

∇_xL(x^∗, λ^∗) = ∇f (x^∗) + ∇h(x^∗)^Tλ^∗=0,

∇λL(^∗, λ^∗) =h(x^∗) =0.

Tener en cuenta que tambi ´en haycondiciones necesarias y suficientes de segundo ordensimilares a las de la optimizaci ´on sin constricciones.

La soluci ón no es un m áximo ni un m´ınimo de la funci ón Lagrangiana (de hecho, para problemas convexos es un punto de silla, m´ınimo parax y m áximo paraλ).

(18)

El enfoque por penalizaci ´ on

La idea es convertir un problema con constricciones:

x ∈Rminⁿf (x ), h(x ) = 0,

en un problema sin constriciones, minimizando la funci ón con un t érmino de penalizaci ón

Lα(x ) = f (x ) + αkh(x )k²₂=f (x ) + αh(x )^Th(x ), dondeαes unpar ´ametro de penalizaci ´on.

Se pueden usarfunciones de penalizaci ´onque no sean una suma de cuadrados.

Si la constricci ón se cumple de forma exacta, entoncesLα(x ) = f (x ). Si α → ∞el no cumplir la constricci ón se penaliza cada vez m ás, y la igualdad debe ser satisfecha con mayor precisi ón.

(19)

M ´etodo de penalizaci ´ on

Teniendo en cuenta lo anterior: para una sucesi ón mon ótona divergente α₁< α₂< . . ., si resolvemos una sucesi ón de problemas sin constricci ón

x^k =x (α_k) =arg min

x

nL_k(x ) = f (x ) + α_kh(x )^Th(x )o , y la soluci ´on deber´ıa converger al ´optimox^∗,

x_k → x^∗=x ( lim

k →∞α_k).

Podr´ıamos usarx^k como punto inicial, por ejemplo, del m ´etodo de Newton.

Tener en cuenta que el problema se vuelve peor condicionado cuandoα crece.

Un enfoque mejor usa los multiplicadores de Lagrange en conjunci ón con el m étodo de penalizaci ón (Lagrangiana aumentada).