Met Iterativos

(1)

M´

et

o

do

s

it

er

at

iv

os

Da

Dami´mi´an an GiGineneststar ar PeirPeir´´oo

Departamento

Departamento de de Matem´Matem´atica atica AplicadaAplicada

Universida

Universidad d Polit´Polit´ecnica ecnica de de ValenciaValencia

Curso 2013-2014

(2)

(3)

´

_Indice

1 1 Introducci´ Introducci´onon 2 2 CoConcncepeptotos b´s b´asasicicosos 3

3 M´M´etoetodos itedos iteratrativos esivos estactacionionariosarios

M´

M´etetoodo do de de RicRichardhardsosonn M´

M´etoetodo do de de direccdirecciones iones alteralternadasnadas M´

M´etetoododos s a a blblooququeses

4

4 Precondicionadores Precondicionadores

Introducci´ Introducci´onon Pre

Preconcondicdicionionadoreadores s cl´cl´asiasicoscos

Precondicionadores polinomiales Precondicionadores polinomiales

5

5 M´M´eetotodo do de de dedescscenenso so r´r´apapididoo

6

(4)

(5)

´

_Indice

1 1 Introducci´ Introducci´onon 2 2 CoConcncepeptotos b´s b´asasicicosos 3

3 M´M´etoetodos itedos iteratrativos esivos estactacionionariosarios

M´

M´etetoodo do de de RicRichardhardsosonn M´

M´etoetodo do de de direccdirecciones iones alteralternadasnadas M´

M´etetoododos s a a blblooququeses

4

4 Precondicionadores Precondicionadores

Introducci´ Introducci´onon Pre

Preconcondicdicionionadoreadores s cl´cl´asiasicoscos

Precondicionadores polinomiales Precondicionadores polinomiales

5

5 M´M´eetotodo do de de dedescscenenso so r´r´apapididoo

6

(6)

(7)

I

n

t

r

o

d

u

c

i

´

o

n

Dada una matriz invertible de tama˜

Dada una matriz invertible de tama˜nono nn

_×

nn y un vector y un vector b b

_∈∈

RRnn _{la ´´unica}_la_unica

soluci´

soluci´on del sistemaon del sistema

Ax Ax == b b es es x x == AA−−11b b Nosotros

Nosotros trabajaremos trabajaremos con con matrices matrices vacvac´´ıas ıas (sparse) es (sparse) es decir decir matricesmatrices con un n´

con un n´umero de elementos no nulos (nnz(umero de elementos no nulos (nnz(AA)) del orden)) del orden

nnz

nnz ((AA) ) == c c

_··

nn

con

(8)

(9)

I

n

t

r

o

d

u

c

i

´

o

n

No se puede hacer la inversi´

No se puede hacer la inversi´on deon de AA ya que: ya que:

1

1 AA−−11 puede puede dejar de dejar de ser ser vacvac´´ıa, ıa, es es decir decir se se llena, llena, ==

⇒

no se puede no se puede almacenar.

almacenar.

2

2 C´aallccuC´ ullo deo de AA−−11 puede costarpuede costar O O ((nn33) operaciones (tiempo de CPU:) operaciones (tiempo de CPU: a˜

a˜nos).nos).

Buscaremo

Buscaremos s m´métoetodos dos aproximados aproximados para para la la resoluresolucićión del sistema queon del sistema que se basan esencialmente en el producto

(10)

(11)

Conceptos b´asicos

Un m´etodo iterativo obtiene una soluci´on aproximada de Ax = b

construyendo una sucesi´on de vectores:

x ₁, x ₂, . . . , x _k

desde un vector inicial arbitrario x ₀.

Un m´etodo iterativo se dice convergente si

lim

k →∞x k = x .

El vector error, en cada iteraci´on, se deﬁne como

(12)

(13)

Conceptos b´asicos

El vector residuo, en cada iteraci´on, se deﬁne como

r _k = b

₋

Ax _k .

Se puede probar

lim

(14)

(15)

Conceptos b´asicos

Un método iterativo nunca da la solución exacta incluso en precisión infinita.

Los métodos directos teóricamente producen la solución exacta; pero en un ordenador dan errores numéricos.

Se da a priori una precisión para nuestra solución. Sea TOL el error máximo permitido.



e _k

_

< TOL, (error absoluto) o



e k



x

_

< TOL (error relativo)

Pero x , y e _k no son conocidos el criterio de parada no es ´util. Se utiliza el criterio del residuo



r _k

_

< TOL (absoluto) o



r k



(16)

(17)

Conceptos b´asicos

La relaci´on entre el error y el residuo es

r _k = b

₋

Ax _k = Ax

₋

Ax _k = Ae _k .

Usando normas matriciales:



r _k

_{ ≤ }

A

_

e _k

_

(1a);

_

e _k

_{ ≤ }

A−1

_

r _k

_

(1b ) Notar adem´as

(18)

(19)

Conceptos b´asicos

Combinando (1a) con (2a) y (1b) con (2b) obtenemos 1



A

_

A−1

_



r _k

_



b

_{ ≤}



e _k

_



x

_{ ≤ }

A



A −1



_

r _bk

_



Finalmente, recordando que κ(A) =

_

A

_

A−1

_

: 1 κ(A)



r _k

_



b

_{ ≤}



e _k

_



x

_{ ≤}

κ(A)



r _k

_



b

_

(20)

(21)

M´

etodos iterativos estacionarios

Sea A la matriz del sistema Ax = b . Podemos considerar la partici´on (splitting)

A = M

₋

N

donde M

_

= A es una matriz invertible. Se construye el sistema iterativo

x _k₊₁ = M −1Nx _k + M −1b = Hx _k + q , k = 0, 1, . . .

donde H es la matriz de iteraci´on y x ₀ el vector inicial. Esto es equivalente a

x k +1 = x k + M −1



b

₋

Ax k



= x k + M −1r k

Deﬁnici´on

(22)

(23)

M´

etodos iterativos estacionarios

Sea A tal que a_ii

_

= 0 y consideremos la partici´on

A = L + D + U

L es la parte estrictamente triangular superior de A,

D es la parte diagonal de A,

U es la parte estrictamente triangular superior de A.

1 M´etodo de Jacobi: M = D y N =

−

(L + D )

x _k₊₁ =

₋

D −1(L + U )x _k + D −1b , k = 0, 1, . . .

2 M´etodo de Gauss-Seidel: M = D + L y N =

−

U

(24)

(25)

M´

etodos iterativos estacionarios

Una iteraci´on de Jacobi es muy barata. S´olo hay que hacer

multiplicación matriz-vector “vac´ıa”. El número de multiplicaciones es del orden nz(A) además de invertir los elementos diagonales de A.

x ₁k +1 = 1 a₁₁



−

a12x k 2

−

a13x 3k

− · · · −

a1nx _nk + b 1



x ₂k +1 = 1 a₂₂



−

a21x k 1

−

a23x 3k

− · · · −

a2nx nk + b 2



.. . x _nk +1 = 1 a_nn



−

an1x k 1

−

an3x ₃k

− · · · −

an,n−1x nk −1 + b n



(26)

(27)

M´

etodos iterativos estacionarios

Una iteraci´on Gauss-Seidel es barata. Adem´as tiene que resolver un sistema triangular inferior (D + L)x _k₊₁ = b

₋

Ux _k “vac´ıo”. Recordar que hay que evitar invertir matrices.

En el m´etodo de Gauss-Seidel las componentes de x _k₊₁ que ya conocemos se utilizan en la propia iteraci´on k + 1.

(28)

(29)

M´

etodos iterativos estacionarios

Teorema

Sea A invertible. Un m´etodo iterativo estacionario converge, para cualquier vector inicial x ₀

_∈

Rn_{, a la soluci´on exacta del sistema lineal, si y s´olo si,}

ρ(H ) < 1

es decir, el mayor valor propio en valor absoluto de la matriz de iteraci´on es menor que uno.

Introduciendo el error e k = x k

₋

x . Como Mx = Nx + b ,

M



x k +1

₋

x



= N



x k

₋

x



(30)

(31)

M´

etodos iterativos estacionarios

Deﬁnici´on

Una matriz A = [a_ij] de tama˜no n

_×

n se dice que es estrictamente diagonal dominante si

|

a_ii

_|

>

n



j =1, j =i

|

(32)

(33)

M´

etodos iterativos estacionarios

Teorema

Si la matriz A es estrictamente diagonal dominante entonces el m´etodo de Jacobi y de Gauss-Seidel son convergentes.

Se llama radio de convergencia a R =

₋

log₁₀ (ρ(H )). Cuanto más pequeño sea ρ(H ) mayor será la convergencia.

(34)

(35)

M´

etodos iterativos estacionarios

Una generalización del método de Jacobi es el método de sobre-relajación (JOR) x k +1 = w a_ii







b _i

₋



j =1 j =i a_ijx _jk







+ (1

₋

w )x _ik

donde se ha introducido un parámetro de relajación w . Este método es equivalente a la iteración

x k +1 = x k + wD −1r k

Se cumple que si el m´etodo de Jacobi converge, entonces el m´etodo JOR converge si 0

_≤

w

_≤

1

(36)

(37)

M´

etodos iterativos estacionarios

Podemos deﬁnir otra descomposici´on de la matriz A de la forma

ωA = (D + ωL)

₋

(

₋

ωU + (1

₋

ω)D ) ,

que da lugar al m´etodo iterativo conocido como el m´etodo SOR (successive over relaxation)

(D + ωL)x k +1 = (

₋

ωU + (1

₋

ω)D )x k + ωb ,

Análogamente, se puede definir otro método SOR de la forma (D + ωU )x k +1 = (

₋

ωL + (1

₋

ω)D )x k + ωb .

Un método SOR simétrico, SSOR, viene definido por las ecuaciones

(D + ωL)x k +1/2 = (

₋

ωU + (1

₋

ω)D )x k + ωb ,

(38)

(39)

M´

etodos iterativos estacionarios

Lema de Kahan

Sea A

_∈

Cn×n _{con elementos diagonales no nulos. Entonces el m´etodo}

SOR converge solamente si

(40)

(41)

M´etodo de Richardson

Consideremos la iteraci´on

x k +1 = x k + α



b

₋

Ax k



que se puede reescribir como

x k +1 = (I

₋

αA) x k + αb

La matriz de iteraci´on es H _α = I

₋

αA.

Si los autovalores de A son λ_i, I = 1, . . . , n

λmin

≤

λ_i

≤

λmax

los autovalores de H _α satisfacen

(42)

(43)

M´etodo de Richardson

Si λmin < 0 y λmax > 0 el m´etodo diverge.

Si los autovalores de A son todos positivos, se ha de cumplir 1

₋

αλmin < 1 1

₋

αλmax >

−

1 esto es 0 < α < 2 λmax El valor de α ´optimo es α = 2 λmin + λmax

(44)

(45)

M´

etodo de direcciones alternadas

Los m´etodos de direcciones alternadas (ADI) se introdujeron para resolver problemas el´ıpticos ∂ ∂ x



_a₍_{x , y}₎∂ u ∂ x



₊ ∂ ∂ y



_b₍_{x , y}₎∂ u ∂ y



₌ _f

Al discretizar el problema se llega a un sistema

Hu + Vu = b

donde H est´a asociada a la discretizacion de

∂ ∂ x



_a₍_{x , y}₎ ∂ ∂ x



y V est´a asociada a la discretizaci´on de

∂

_

(46)

(47)

M´

etodo de direcciones alternadas

El m´etodo ADI resuelve el sistema (H + ρI ) u _k₊1

2 = (ρI

−

V ) u k + b

(V + ρI ) u _k₊₁ = (ρI

₋

H ) u _k₊1

(48)

(49)

M´etodos a bloques

Dado un sistema a bloques







A₁₁

_{· · ·}

A₁_q .. . ... A_q₁

_{· · ·}

A_qq













X ₁ .. . X _q







=







B ₁ .. . B _q







M´etodo de Jacobi a bloques for i = 1, . . . q do X _ik +1 = A−_ii1







B _i

₋

q



j =1 j =i A_ijX _jk







end for

(50)

(51)

M´etodos a bloques

M´etodo de Gauss-Seidel a bloques for i = 1, . . . q do X _ik +1 = A−_ii1





B i

−

i −1



j =1 A_ijX _jk +1

₋

q



j =i +1 A_ijX _jk A_ijX _jk





end for

(52)

(53)

Precondicionadores. Introducci´

on

Precondicionar un sistema lineal no es otra cosa que (pre)multiplicar el sistema por una matriz nonsingular, denotada por M −1,

Produce el sistema equivalente

M −1Ax = M −1b

•

Qu´e hay que tener en cuenta para elegir el precondicionador? Condicionar mejor el sistema inicial,

El precondicionador M −1, debe ser f´acil de invertir, es decir, debe producir un sistema lineal

My = c

(54)

(55)

Precondicionadores. Introducci´

on

Dado un m´etodo iterativo

x k +1 = Gx k + f

puede verse como una t´ecnica para resolver el sistema (I

₋

G ) x = f

comparando con

x k +1 = M −1Nx k + M −1b

se tiene que I

₋

G = M −1N , G =

₋

M −1N = M −1 (M

₋

N ) = M −1A. As´ı el m´etodo iterativo se puede ver como una t´ecnica para resolver el sistema precondicionado

(56)

(57)

Precondicionadores cl´asicos

M _J = D Jacobi

M _GS = D

₋

L Gauss

₋

Seidel

M _SOR = 1

ω (D

−

ωL) SOR

Factorizaci´on incompleta de Cholesky

M = ˜L˜LT donde ˜L es una aproximaci´on del factor triangular obtenido por la factorizaci´on de Cholesky. Tenemos que resolver un sistema con la matriz M queremos que e L sea lo mas vac´ıa posible. Para ello se permite que ˜L tenga los elementos no cero en las posiciones donde los tiene A, esto es

(58)

(59)

Precondicionadores cl´asicos

LU incompleta

Se construye M = ˜LU ˜ donde ˜L es una matriz vac´ıa triangular inferior que aproxima a L y ˜U es una matriz vac´ıa triangular superior que aproxima a U . Fijado un subconjunto S

_⊂

[1, . . . , n]

_×

[1, . . . , n] de posiciones de

elementos en la matriz, entonces

a_ij :=



aij

−

aik a

−1

kk akj si (i , j )

∈

S

a_ij si (i , j )

_∈

S

(60)

(61)

Precondicionadores cl´asicos

Si se hace una factorización LU con el mismo patrón de ceros que la matriz A se obtiene el precondicionador ILU(0). ILU(m), si se permite que se llenen m posiciones en cada fila.

La factorizaci´on incompleta puede fallar incluso si la matriz inicial admite factorizaci´on.

El fallo ocurre cuando a_kk = 0. Sin embargo, en la pr´actica es raro que hayan fallos.

(62)

(63)

Precondicionadores polinomiales

Estos precondicionadores son de la forma

M −1 = p (A)

Un caso particular son los precondicionadores de Neuman. Se supone que la matriz A se escribe

A = D

₋

C =



I

₋

CD −1



D

con lo que

A−1 = D −1



I

₋

CD −1



−1 = D −1



I + CD −1 +



CD −1



2 +

_{· · ·}



Se obtienen los precondicionadores de Neuman truncando la serie. Est m´etodo funcio si (CD −1) < 1.

(64)

(65)

M´etodo de descenso r´apido

Resolver Ax = b , con A simétrica y definida positiva (SPD). Definimos la función cuadrática φ : Rn

_→

R

φ(y ) = 1 2(y

−

x ) T _A₍_y

−

x ) = 1 2e T _{Ae .}

Se tiene φ(y )

_≥

0

_∀

y

_

= 0 ( deﬁnici´on de matriz SPD). Error e = y

₋

x .

Teorema

(66)

(67)

M´etodo de descenso r´apido

φ(y ) = 1₂(y

₋

x )T A(y

₋

x ) = 1₂e T Ae

φ (y _k) = constant representa un hiperelipsoide en un espacio de

dimensi´on n.

El centro geométrico es la solución x del sistema lineal (m´ınimo). Construir una sucesión

_{

y _k

_}

tal que lim_k_→∞ y _k = x .

y _k₊₁ = y _k + α_kp _k

(68)

(69)

M´etodo de descenso r´apido

Este método construye una sucesión que va hacia el centro del hiperelipsoide en la dirección del gradiente.

El gradiente de φ en el punto y _k es

∇

φ(y k ) = 1 2

∇

e T k Ae k =

∇



1 2y T k Ay k

−

y k T b + 1 2x T _Ax



₌_Ay k

−

b =

−

r k

Como la dirección del vector gradiente es hacia fuera, la dirección buscada coincide con el residuo r _k en la aproximación actual.

En consecuencia la nueva aproximaci´on es

y _k₊₁ = y _k + α_kr _k

donde α_k es una constante a determinar. ¿C´omo? Minimizando φ(y ) en la direcci´on buscada r _k.

(70)

(71)

M´etodo de descenso r´apido

Desarrollando la funci´on φ(y _k + β r _k) se tiene un polinomio de segundo grado en la variable β .

φ(y _k + β r _k) = (y _k + β r _k

₋

x )T A(y _k + β r _k

₋

x ) = (y _k + β r _k

₋

x )T (Ay _k + β Ar _k

₋

b ) = (y _k + β r _k

₋

x )T (β Ar _k

₋

r _k)

= (β r _k

₋

e _k)T (β Ar _k

₋

r _k)

= β 2r _kT Ar _k

₋

β



r _kT r _k + e _kT Ar _k



+ x T r _k

(72)

(73)

M´etodo de descenso r´apido

Como r _kT Ar _k > 0 el m´ınimo de φ se alcanza cuando

α_k

_≡

β = r T k r k r _kT Ar _k Otra forma: Resolver ∂φ_∂β = 0.

(74)

(75)

M´etodo de descenso r´apido

La k + 1 iteraci´on se puede representar como

r _k = b

₋

Ax _k α_k = r T k r k r _kT Ar _k y _k₊₁ = y _k + α_kr _k

Notar que el coste computacional es principalmente dos productos matriz-vector.

De y _k₊₁ = y _k + α_kr _k se sigue que

r _k₊₁ = b

₋

Ax _k₊₁ = b

₋

Ax _k

₋

Aα_kr _k = r _k

₋

α_kAr _k,

Los residuos consecutivos r _k₊₁, r _k son ortogonales (demostraci´on: Ejercicio).

(76)

(77)

M´etodo de descenso r´apido

Algoritmo: Descenso r´apido Input: y ₀, A, b , k max, tol

r ₀ = b

₋

Ay ₀, k = 0

while

_

r _k

_

> tol

_

b

_

and k < k max do

1 z = Ar _k 2 α_k = r T k r k z T _r k 3 y _k₊₁ = y _k + α_kr _k 4 r _k₊₁ = r _k

−

α_kz 5 k = k + 1 end while

(78)

(79)

M´etodo de descenso r´apido

Lema

Sea A sim´etrica deﬁnida positiva y sean 0 < λ_n

_{≤ · · · ≤}

λ₂

_≤

λ₁ sus valores propios. Si P (t ) es un polinomio real, entonces

||

P (A)x

_||

_A

_≤

max

1≤ j ≤n

|

P (λ j )

| · | |

x

||

A, x

∈

Rn

donde

_||

x

_||

_A =

√

x T Ax . Teorema

Sean las mismas condiciones que en el lema anterior. La sucesi´on

_{

y _k

_}

del m´etodo de descenso r´apido satisface

||

y _k

₋

x

_||

_A

_≤



λ1

−

λn λ₁ + λ_n



k

(80)

(81)

M´etodo de descenso r´apido

Teorema



_φ₍_y_k_{) =}



_eT

k Ae k =



e k



A,2

≤

µk



e 0



A,2, donde µ =

κ(A)

₋

1

κ(A) + 1 Cuando los sistemas vienen de discretizar ecuaciones EDPs, κ(A) puede ser muy grande.

(82)

(83)

M´etodo de descenso r´apido

Se estima el número de iteraciones para ganar p digitos en la aproximación de la solución:



e _k

_

_A



e ₀

_

_A

≤

10 −p _resolviendo



κ(A)

−

1 κ(A) + 1



k

≤

10−p

Tomando logaritmos y usando la aproximaci´on de primer orden de Taylor log κ(A)

−

1 κ(A) + 1

≈

−

2 κ(A) + 1, se obtiene k

_≈

log 10 2 p (κ(A) + 1)

(84)

(85)

M´

etodo del gradiente conjugado

Es una mejora del Descenso r´apido. La sucesi´on de recurrencia es similar

y _k₊₁ = y _k + α_kp _k

Las direcciones se construyen como

p ₀ = r ₀

p _k = r _k + β _kp _k₋₁, k > 0

Se exige que las direcciones sean A conjugadas

p _kT ₋₁Ap _k = 0 ,

es decir, p _k y p _k₋₁ son A-ortogonales. Por tanto, se debe cumplir

β _k = r

T

(86)

(87)

M´

etodo del gradiente conjugado

Como en el método de descenso más rápido, la elección de α_k se obtiene minimizando φ(y _k₊₁) = φ(y _k + α_kp _k) dando la expresión

α_k = r

T k p k

p _kT Ap _k

Residuos consecutivos como en el método de descenso más rápido satisfacen la relación de recurrencia

(88)

(89)

M´

etodo del gradiente conjugado

Teorema

Las sucesiones de vectores

_{

r _i

_}

y

_{

p _i

_}

satisfacen las siguientes relaciones (i) p _iT r _j = 0, 0

_≤

0

_≤

i < j

_≤

k ,

(ii) r _iT r _j = 0, i

_

= j , 0

_≤

i , j

_≤

k ,

(iii) p _iT Ap _j = 0, i

_

= j , 0

_≤

i , j

_≤

k ,

(iv) env

_{

r ₀, r ₁, . . . , r _k

_}

= env

_{

p ₀, p ₁, . . . , p _k

_}

=

_K

(A, r ₀, k + 1),

donde

_K

(A, r ₀, k + 1) = env

_{

r ₀, Ar ₀, . . . , Ak r ₀

_}

.

Corolario

El m´etodo del gradiente conjugado obtiene la soluci´on del sistema de n

(90)

(91)

M´

etodo del gradiente conjugado

Otras relaciones ´utiles

1 _p_kT _r_k =_r_kT _r_k . Ya que de _e_kT _Ap_j = 0 se sigue _r_kT _p_j = 0 y, por tanto, p _kT r k = (r k + β k ₋1p k ₋1)T r k = r k T r k

2 _r_kT _Ap_k =_p_kT _Ap_k.

3 Combinando 1 y 2, se obtiene una deﬁnici´on alternativa de _α_k:

αk = r _kT p k p _kT Ap k = r T k r k r _kT Ap k

4 Formulaci´on alternativa de _β_k. Como _p_kT _Ap_k = _p_kT 1

αk (r _k ₋ r _k₊₁_{) =} 1 αk r _kT r _k r _kT ₊₁Ap k = r k T +1 1 αk (r k ₋ r k +1) = − 1 αk r _kT ₊₁r k +1 Por tanto β r T k +1p k r k T +1r k +1

(92)

(93)

M´

etodo del gradiente conjugado

Algoritmo: Gradiente conjugado Input: y ₀, A, b , k max, tol

r ₀ = p ₀ = b

₋

Ax ₀, k = 0

while

_

r _k

_

> tol

_

b

_

and k < k max do

1 z = Ap _k 2 α_k = p T k r k z T _p k 3 y _k₊₁ = y _k + α_kp _k 4 r _k₊₁ = r _k

−

α_kz 5 β _k = r T k +1r k +1 r _kT r _k 6 p _k₊₁ = r _k₊₁ + β _kp _k 7 k = k + 1 end while

(94)

(95)

M´

etodo del gradiente conjugado

Ejercicio

Aplicar el algoritmo del gradiente conjugado para el problema



₂

₋

₁

−

1 2

 

x ₁ x ₂



=



1 0



(96)

(97)

M´

etodo del gradiente conjugado

Soluci´on: x ₀ = (0,0)T . p ₀ = r ₀ = b = (1,0)T . α₀ = r 0T r 0 p ₀t Ap ₀ = 12, x 1 = x 0 + α0p 0 =



0 0



₊ 1 2



1 0



₌



1 2 0



r ₁ = r ₀

₋

α₀Ap ₀ =



1 0



−

12



2

−

1



=



0 1 2



_, _rT 1 r 0 = 0 β ₀ = r 1T r 1 r ₀T r 0 = 1 4, p 1 = r 1 + β 0p 0 =



0 1 2



₊ 1 4



1 0



₌



1 4 1 2



α₁ = r 1T r 1 p ₁T AP 1 = 2 3 x ₂ = x ₁ + α₁p ₁ =



1 2 0



₊ 2 3



1 4 1 2



₌



2₃ 1 3



(98)