Métodos Iterativos. Capítulo Introducción

(1)

M´

etodos Iterativos

12.1. Introducci´

on

En este último Cap´ıtulo dejamos el territorio clásico y bien conocido de losmétodos directos para adentrarnos en el menos explorado pero de gran actualidad de los

métodos iterativos. Los algoritmos de Gauss (factorización LU y sus derivados) o los de factorización QR son métodos directos en los que los algoritmos terminan después de un número finito de etapas. Los vistos hasta ahora para calcular valores propios se incluyen también en esta categor´ıa aunque para calcular valores y vectores propios de matrices tenemos que usar, necesariamente, algoritmos basados en la realización de iteraciones. No obstante, como la experiencia nos muestra que estos algoritmos proporcionan (casi siempre) soluciones suficientemente aproximadas en un número finito de iteraciones, se les considera algoritmos directos. Los llamados

métodos iterativos proporcionan, por lo general, sólo parte de las soluciones después de un número de iteraciones que suele interrupir el propio usuario cuando considera que ha alcanzado los objetivos deseados. Se suelen aplicar a matrices de grandes dimensiones para las que o bien no se pueden aplicar los métodos directos por su

(2)

alto coste, o bien porque sólo se precisa información parcial de las soluciones. Estas matrices de grandes dimensiones suelen tener la propiedad de ser dispersas, término que proviene de la traducción del ingléssparse matrices, y que se usa para referirse a matrices con una gran cantidad de elementos iguales a cero (lo opuesto a matriz “dispersa” es matriz “densa”). Estas matrices dispersas frecuentemente aparecen en la discretización de ecuaciones diferenciales o integrales al usar modelos de elementos finitos o diferencias finitas. Por ejemplo, una discretización de diferencias finitas de una ecuación en derivadas parciales puede traducirse en una matriz de dimensión

m105 _{con s´}_olo _ν _{10 elementos no nulos por fila.}

Los algoritmos iterativos s´olo requieren la capacidad de calcularAxpara cualquierx. Este producto, de realizarse todas las operaciones involucradas, tendr´ıa un coste de

Opm2_q_{flops. Si la matriz es dispersa, puede lograrse en con un n´}_{umero mucho menor}

de operaciones; por ejemplo Opνmq. Más aún, la forma de calcular este producto puede variar grandemente dependiendo del problema que se tenga entre manos. La suposición es que se deja en manos del usuario la forma en que se realizan estas multiplicaciones matriz-vector, y el programador se centra en el diseño del algoritmo propiamente.

Se usan métodos iterativos tanto para calcular valores y vectores propios (Axλx) como para resolver sistemas lineales (Ax b). En el primer caso el objetivo suele ser conseguir un subconjunto de valores y vectores propios realizando un número “limitado” de iteraciones para obtener algunos valores propios de interés con sufi-ciente aproximación. En la resolución de sistemas lineales, los métodos iterativos se usan cuando métodos como la eliminación gaussiana o la factorizaciónQRrequieren demasiado tiempo o espacio. En contraste con los métodos directos, los métodos ite-rativos no produce, por lo general, la respuesta exacta (incluso en ausencia de errores de redondeo) después de un número finito de pasos, sino que en cada iteración dis-minuyen el error en una cierta proporción. Las iteraciones se interrumpen cuando el error es menor que un umbral prefijado por el usuario. El número de iteraciones para obtener ese umbral depende frecuentemente de las propiedades espectrales de la matriz A. Por ejemplo, el método Gradiente Conjugado garantiza la solución de un sistema lineal con una matriz herm´ıtica definida positiva rápidamente si los va-lores propios de A están juntos unos de otros y alejados del cero. De forma similar, el método de Lanczos garantiza el cálculo rápido de ciertos valores propios de una matriz herm´ıtica si dichos valores están bien separados del resto del espectro (y si el vector inicial que comienza la iteración es suficientemente genérico).

(3)

iteraci´on y con la menor cantidad de trabajo posible en cada una de ellas.

Estudiaremos aqu´ı unos pocos métodos y sin alcanzar profundidad. Nos centraremos en métodos basados en la idea de proyectar un “problema m-dimensional” en un subespacio de Krylov de dimensión mucho menor. Dada una matrizA P_Fmm y un vectorbP_Fn1, lasecuencia de Krylov asociada esb,Ab,A2b,A3b,. . . (que en la for-ma producto for-matriz-vectro ser´ıa:b,Ab,ApAbq,ApApAbqq,. . . ) . Los correspondientes

subespacios de Krylov son los subespacios generados por este tipo de vectores. Por ejemplo,

KjpA, bq b, Ab, A2b, . . . , Aj1b¡.

es un subespacio de Krylov asociado apA, bqde ordenj. N´otese que este subespacio puede tener dimensi´on menor que j.

Los m´etodos que analizaremos en este cap´ıtulo se resumen en la siguiente tabla:

Axb Axλx

A A CG Lanczos

A A GMRES Arnoldi

GC significa “Conjugate Gradiente” y GMRES “Generalized Minimal Residual”. En todos estos métodos, el resultado de proyectar sobre los subespacios de Krylov es que el problema con la matriz original se reduce a una secuencia de problemas con matrices de dimensiones n 1,2,3, . . .. Cuando A es herm´ıtica, las matrices reducidas son tridiagonales, mientras que en el caso no herm´ıtico, tienen forma Hessenberg. As´ı el método de Arnoldi, por ejemplo, aproxima valores propios de matrices muy grandes calculando los valores propios de ciertas matrices Hessenberg de tamaños cada vez más grandes. Este es el primer método que estudiaremos.

12.2. El m´

etodo de Arnoldi

En la Lección 10 vimos cómo reducir una matriz A P _Fmm a forma Hessenberg superior por medio de reflexiones de Householder. Hay otra forma de proceder. La idea que está detrás es la siguiente. Para calcular la factorizaciónQR de una matriz

(4)

A vimos que hab´ıa dos procedimientos bien distintos: realizar sobre las filas de A

transformaciones unitarias (reflexiones de Householder o rotaciones de Givens) o bien emplear el método de Gram-Schmidt que consiste en ir trabajando con las columnas de Apara producir, columna a columna, una base ortonormal del espacio generado por las columnas de A. El proceso de reducción deA a forma Hessenberg es el análogo a la factorización QR con reflexiones de Householder, mientras que el método de Arnoldi es el análogo del proceso de Gram-Schmidt: se trata de ir produciendo, una a una, columnas ortonormales que permitan expresar la matrizA, respecto a las bases que estas columnas forman, en forma Hessenberg. La mecánica de este procedimiento se expone a continuación.

Una reducción completa de A a forma Hessenberg mediante semejanza unitaria se escribir´ıaQAQH, o equivalentemente,AQQH. Ahora bien, cuandoAes muy grande (menorme o “infinito”) el cálculo de una reducción completa es impensable. En lugar de ello, trabajaremos conn columnas (n m) de las matricesAQyQH. Sea Qn la submatrizmn deQformada por sus n primeras columnas; y seaHrn la

submatriz de H formada por lasn 1 primera fils yn primeras columnas. Es decir,

Qn q1 q2 qn , Hrn h11 h12 h1n h21 h22 . .. . .. .._. 0 hn,n1 hnn hn 1,n . (12.1)

Entonces, de AQ QH obtenemos AQn Qn 1Hrn porque las filas n 1, n 2,

. . . de H son cero. M´as expl´ıcitamente:

Aq1 q2 qn q1 q2 qn qn 1 h11 h12 h1n h21 h22 . .. . .. .._. 0 hn,n1 hnn hn 1,n (12.2) O, equivalentemente, Aqk h1kq1 h2kq2 hkkqk hk 1kqk 1, k 1,2, . . . , n. (12.3)

En palabras, cada qk 1, k 1, . . . , n, satisface una recurrencia de k 1 sumandos

(5)

El método de Arnoldi es una iteración de tipo Gram-Schmidt que implementa (12.3) a partir de un vector escogido por el usuario. El algoritmo es muy simple y se puede implementar en MATLAB con unas pocas l´ıneas de código:

Algoritmo de Arnoldi

Dato: AP_Fmm _{y un entero} _n_{, 0}_n _m

Objetivo: Forma Hessenberg parcial,pn 1qn, deAy la correspondiente

Q, m pn 1q. b arbitario q1 b }b}2 for k 1 :n v Aqk forj 1 :k hjk qjv v vhjkqj end for hk 1k }v}2 qk 1 v hk 1k end for

Si analizamos de cerca este algoritmo observamos lo siguiente: comenzamos con un vector b (no nulo) pero escogido como uno quiera y lo normalizamos. Enton-ces b ¡ q1 ¡. A continuaci´on, multiplicamos Aq1 de modo que b, Ab ¡

q1, Aq1 ¡. En la siguiente etapa, el objetivo es encontrarq2de modo que b, Ab¡

q1, Aq1 ¡ q1, q2 ¡y tq1, q2u sea un sistema ortonormal de vectores; i.e., una base

ortonormal de b, Ab ¡. Para ello, se calcula h11 q1Aq1 y v Aq1 h11q1. Se

calcula entonces h21 }v}2 y q2 _}_vv_}₂ que es un vector unitario y ortogonal a q1

porque q₁q2 1 |v}2 pq₁vq 1 |v}2 pq₁pAq1h11q1qq 1 |v}2 pq₁Aq1h11q 0. Adem´as, Aq1 h11q1 v h11q1 }v}2 v }v}2 h11q1 h21q2,

(6)

lo que demuestra que q1, Aq1 ¡ q1, q2 ¡ salvo que h21 0; es decir, salvo que

Aq1 P q1 ¡ o equivalentemente, Ab P b ¡. En tal caso, el proceso de Arnoldi

quedar´ıa interrumpido. Esta situaci´on no se ha contemplado en el algoritmo tal y como lo hemos expuesto dado que supondremos queb,Ab,. . . ,An1bson linealmente independientes.

Una vez calculados q1 y q2 se procede a calcular q3 y hk2, k 1,2,3, de la misma

forma: v Aq2 Ñh12 q1Aq2 Ñv Aq2h12q1 Ñh22q2Aq2 Ñ Ñv Aq2h12q1h22q2 Ñh32 }v}2 Ñq3 v }v}2 .

Y se prosigue as´ı sucesivamente de modo que si para j 1, . . . , n, KjpA, bq

b, Ab, . . . , Aj1_b ¡ _{es el subespacio de Krylov asociado a} p_{A, b}q _{de dimensi´}_on _k_,

entonces

KjpA, bq b, Ab, . . . , Aj1b¡ q1, q2, . . . , qj ¡,

siendo tq1, q2, . . . , qnuuna base ortonormal del subespacio KnpA, bq.

La semejanza con el algoritmo cl´asico de Gram-Schmidt es evidente. De hecho, en aritm´etica exacta, el algoritmo de Arnoldi ser´ıa equivalente a aplicar el proceso de Gram-Schmidt a la matriz de Krylov (para un n dado)

Kn

b Ab A2_b _An1_b

para obtener Kn QnRn. Esta matriz Qn ser´ıa la misma que la producida por el

m´etodo de Arnoldi. La diferencia (muy importante) es que en el proceso de Arnoldi no se forman expl´ıcitamente ni la matriz Kn ni la matriz Rn. Hacerlo producir´ıa

un algoritmo inestable porque, como ya sabemos, las sucesivas potencias de b, Ab,

A2_b_{, etc. se aproximan (salvo productos por constantes) a un vector propio de} _A_.

Es decir, a medida que n aumenta, las columnas de Kn tienden a estar cada vez

“m´as juntas”, a ser “m´as linealmente dependientes’, haciendo deKn paran grande,

una matriz mal condicionada. En la Lección ?? que el algoritmo clásico de Gram-Schmidt puede producir matricesQn que están muy lejos de ser ortogonales cuando

se aplica a matrices mal condicionadas.

Sin embargo, la idea de que los vectores b, Ab, A2_b_{, etc. converjan (de nuevo salvo}

producto por constantes) a un vector propio, nos indica que enKndebe haber buena

información sobre los valores propios de A de mayor módulo (recordemos que esto es lo que hace el método de las potencias). De hecho, el método de Arnoldi para

(7)

calcular (algunos) valores propios de A procede de la siguiente manera: En cada paso n, o cada cierto n´umero de pasos, se van calculando los valores propios de las sucesivas matrices Hessenberg Hn que se obtienen al quitar a Hrn la ´ultima fila.

Estos valores propios se calculan mediante métodos estándar como el algoritmoQR, por ejemplo. Lo que sucede habitualmente es que con algunos de estos números se pueden formar subsucesiones que convergen rápidamente; muy a menudo de forma lineal produciendo un nuevo d´ıgito de exactitud en cada nueva etapa y lo hacen hacia los valores propios más grandes en módulo. Una pregunta perfectamente leg´ıtima es qué tienen que ver los l´ımites de estas sucesiones con los valores propios de A. En lo que sigue intentaremos explicarlo.

Tal y como hemos dicho, una vez fijadon m, el m´etodo de Arnoldi calcula matrices

Qn y Qn 1 con columnas ortonormales, tales que

AQnQn 1Hrn.

con Hrn como en (12.1) y Qn 1

Qn qn 1

. Se sigue entonces que

Q_nQn 1

In 0

es una matriz n pn 1q. Por lo tanto, si

Hn h11 h12 h1n h21 h22 . .. . .. .._. 0 hn,n1 hnn ,

tenemos que Q_nQn 1Hrn Hn y por lo tanto, como AQnQn 1Hrn,

HnQnAQn. (12.4)

¿Cu´al es el significado de esta identidad? Desde luego no significa queAyHnson

se-mejantes (ni tan siquiera son del mismo tama˜no). Analizamos a continuaci´on su sig-nificado. Consideremos el subespacio de KrylovKnpA, bq b, Ab, . . . , An1b ¡

q1, . . . , qn ¡ (para simplificar la notaci´on lo denotaremos con Kn). Si este

subespa-cio es A-invariante; es decir, si para todo v P Kn sucede que Av P Kn, entonces, en

particular AqnPKn y por (12.3)

(8)

Como Aqn P q1, . . . , qn ¡, conclu´ımos que hn 1n 0. Por otra parte, si a˜nadimos

columnas a Qn para formar una matriz unitaria Q

Qn Qr

P Fmm, entonces QAQ y A ser´ıan unitariamente semejantes y tendr´ıan los mismos valores propios. Pero QAQ Q_n r Q A Qn Qr Q_nAQn QnAQr r QAQn QrAQr Hn QnAQr 0 QrAQr . (12.5)

La identidad QrAQn 0 se debe a que todas las columnas de AQn est´an en Kn

y las columnas de Qr son ortogonales a las de Qn, que forman una base ortonormal

de Kn. En este caso, el significado exacto de la expresi´on Hn QnAQn es que

Hn es la matriz de la aplicaci´on lineal determinada por A restringida a Kn en la

base q1, . . . , qn ¡. Adem´as, de (12.5) conclu´ımos que todos los valores propios

de Hn son valores propios de A. Tal y como ya hemos mencionado, estos valores

propios se calculan aplicando, por ejemplo, el algoritmoQR a la matrizHn. ¿C´omo

se calcular´ıan vectores propios de Aasociados a esos valores propios? Como, en este caso hh 1n 0, tenemos que AQn QnHn. Por lo tanto, si x0 0 es un vector

propio de Hn asociado al valor proprio λ0, entonces

Hnx0 λ0x0 ñAQnx0 QnHx0 Qnλ0x0 λ0Qnx0.

Es decir, Qnx0 es un vector propio deA asociado a λ0.

En conclusi´on, queKn sea un subespacioA-invariante es muy deseable porque en tal

caso es f´acil obtener valores y vectores propios deAa partir de los deHn(recordemos

de nuevo que ser´ıan los de mayores módulos). Pero ¿qué pasa si no lo es? ¿cuál es el significado de (12.4) en este caso? De (12.2) (AQn Qn 1Hrn) obtenemos

QnQnAQnQnQnQn 1HrnQnHn.

Esto significa queHnes la matriz de la aplicaci´onQnQnAen la base q1, q2, . . . , qn¡

deKn. Ahora bien,QnQnes la proyecci´on ortogonal sobreKn, de modo queQnQnA

es la aplicaci´on lineal obtenida al componer la restricci´on de A a Kn seguida de la

proyecci´on ortogonal sobre este subespacio: Kn

A_|Kn

ÝÑ Fm QQ ÝÑKn

Este tipo de proyecciones aparecen en varios sitios de la matem´atica aplicada y num´erica. Son conocidos como procedimientos de Rayleigh-Ritz. No en vano, de

(9)

(12.3) se deduce que los elementos diagonales de Hn son hii qiAqi; es decir, los

cocientes de Rayleigh deA respecto a cada qi.

Debe notarse que cuandoKn esA-invariante entonces AxPKn para todo xPKn, y

as´ıQQAxAx @xPKn. Es decir, QQA|Kn A_|Kn.

Por otra parte, siKnno es A-invariante entonceshn 1n 0 y una simple cuenta nos

permite escribir:

AQnQnHn hn 1nqn 1eTn. (12.6)

Los valores propios deHn no son exactamente valores propios deA, pero sihn 1n es

peque˜no, todav´ıa podemos esperar que sipµ, yqes un par valor-vector propio de Hn,

entonces pµ, Qnyq sea un par valor-vector propio aproximado de A. Esta esperanza

se basa en dos resultados de distinta naturaleza. El primero nos da una estimaci´on del residuo

}AQnyµQny}2.

Proposici´on 12.1 Supongamos que se han realizadon iteraciones de Arnoldi sobre A con un vector inicial arbitrario b para generar matrices Qn 1

Qn qn 1

, con columnas ortonormales, y Hrn Hn hn 1nen 1eTn. Sea pµ, yq un par valor-vector

propio de Hn y pongamos wQny. Entonces si yn es la n-´esima componente de y,

se tiene

}Awµw}2 |hn 1n| |yn|.

Demostraci´on.- Se trata de hacer unas cuentas muy simples teniendo en cuenta (12.6):

Awµw AQnyQnµy AQnyQnHny hn 1nqn 1eTnyhn 1nynqn 1.

Y como }qn 1}2 1

}Awµw}2 |hn 1n| |yn|,

que es lo que se quer´ıa demostrar.

Esta Proposici´on nos dice que si hn 1n 0 o yn 0 entonces pµ, Qnyq es un par

valor-vector propio de una matriz A E con }E}F |hn 1n| |yn| (Proposici´on

10.8de la Lección 10). No obstante, aún cuando hn 1n no sea pequeño, el factor yn

puede hacer que el residuo sea pequeño. La experiencia práctica muestra que esto sucede muy frecuentemente. A losn números:

(10)

se les llama los valores propios estimados de Arnoldi y tambi´en los valores de Ritz

deA respecto de Kn.

12.2.1. El m´

etodo de Arnoldi y la aproximaci´

on polinomial

El segundo resultado que nos permite esperar que los valores propios de Hn sean

valores propios aproximados de algunos valores propios de A está basado en la relación del método de Arnoldi con la solución de un problema de aproximación polinomial.

Supongamos, por el momento, que Kn b, Ab, . . . , An1b ¡ es A-invariante y

dimKnn; i.e., los vectoresb,Ab,. . . ,An1b son linealmente independientes. Como

Kn es A-invariante y An1b P Kn, se sigue que Anb ApAn1bq P Kn. El rec´ıproco

tambi´en es cierto: si Anb P Kn entonces Kn es A-invariante. En efecto, x P Kn si y

s´olo si xc1b c2Ab cnAn1b, de modo que Axc1Ab c2A2b cnAnb. Por lo tanto, si An_b_P _K n entoncesAx PKn. Ahora bien, An_bP_K n si y s´olo si Anbx0b x1Ab xn1An1b. Si llamamos qpλq al polinomio qpλq λn_x n1λn1 x1λx0, tenemos qpAqbAnbxn1An1b X1Abx0b 0.

Resulta que, como veremos, las ra´ıces deqpλqson valores propios deA. M´as espec´ıfi-camente, qpλq es el polinomio caracter´ıstico de Hn. Para verlo recordemos que Hn

es la matriz de la restricci´on de A a Kn en la base deKn definida por las columnas

de Qn. Ahora bien, dado que estamos suponiendo que dimKn n, los vectores b,

Ab,. . . ,An1_b _{forman tambi´}_{en una base de}_K

n. ¿C´omo es la matriz de la restricci´on

deAaKnen esta base? Para responder a esta pregunta basta saber cu´al es la matriz

B P_Fnn para la que se cumple

(11)

En otras palabras, las componentes de la j-´esima columna de B son los coeficientes deApAj1_b_q _{en la base} _t_{b, Ab, . . . , A}n1_b_u_{. Es decir,} _b

j ej 1, j 1,2, . . . , n1 y como ApAn1bq Anbx0b x1Ab xn1An1b resulta que bn x0 x1 xn1 T . Por lo tanto B 0 0 x0 1 . .. 0 x1 .. . . .. ... ... ... 0 . .. 0 xn2 0 1 xn1 .

Es decir,Bes una matriz compa˜nera del polinomioqpλq λn_x

n1λn1 x1λ

x0. Como B y Hn son semejantes (porque son dos matrices de la misma aplicaci´on

lineal en distintas bases), qpλq es el polinomio caracter´ıstico deHn.

CuandoKnno esA-invariante, entoncesAnb R b, Ab, . . . , An1b¡y no hay ning´un

polinomioqpλqde grado n tal que qpAqb0. Nos podemos entonces preguntar por el polinomio p de grado n que hace m´ınima la norma }ppAqb}2. Si cuando Kn es

A invariante las ra´ıces del polinomio que cumple qpAqb 0 nos da valores propios exactos deA, parece razonable pensar que cuandoKnno seaA-invariante, las ra´ıces

del polinomio que minimiza }ppAqb}2 nos dar´a informaci´on sobre valores propios

aproximados de A.

Resulta que, al igual que cuando Kn es A-invariante, el polinomio de grado n que

minimiza}ppAqb}2 es el polinomio caracter´ıstico deHn. Para verlo, enunciamos con

claridad el problema y su soluci´on.

Recordemos que un polinomio m´onico es un polinomio cuyo coeficiente principal (el correspondiente al monomio de mayor grado) es 1.

(12)

Problema de aproximaci´on polinomial

SeaPn t_pp_λq PFr_λs_:_pp_λq_m´_{onico y de grado} _nu_{. Encontrar el polinomio}_pnP _Pn

tal que

}pnpAqb}2 m´ın

pPPn}ppAqb}2.

Teorema 12.2 Si dimKn n existe un ´unico polinomio pnpλq que soluciona el

problema de aproximaci´on polinomial; es decir, }pnpAqb}2 m´ın

pPPn}ppAqb}2.

Concre-tamente, tal polinomio es el polinomio caracter´ıstico de Hn.

Demostraci´on.- El problema de aproximaci´on polinomial es en realidad un proble-ma de m´ınimos cuadrados. En efecto, si pPPn _entonces

ppAqb Anby0by1Ab yn1An1b An_b_{b Ab} _An1_b y0 y1 .. . yn1 An_b_{T y,} donde T b Ab An1b, y y0 y1 yn1 T . En consecuencia }pnpAqb}2 m´ın pPPn}ppAqb}2 si y s´olo si }A n_b_T_r_y_} 2 m´ın yPFn1 }Anb T y}2dondepnpAqbAnbTyr. Es decir,pnpλq λnryn1λn1 ry1λry0. Ahora

bien, dado que dimKn n tenemos que rankT n y por lo tanto la soluci´on del

problema de m´ınimos cuadrados m´ın

yPFn1}

An_b_{T y}_}

2 tiene soluci´on ´unica (Teorema 8.3

de la Lecci´on 8). As´ı pues, hay un ´unico pn_P _Pn _{tal que} _}_pn_p_A_q_b_}

2 m´ın

pPPn}ppAqb}2. Veamos que este polinomio es el polinomio caracter´ıstico de Hn.

Denotemos con ryla ´unica soluci´on del problema m´ın

yPFn1}

An_b_{T y}_}

2. Por el Teorema

8.3 de la Lecci´on 8, ry es la soluci´on del problema m´ın

yPFn1}

An_b_{T y}_}

2 si y s´olo si

An_b_Tr_yP p_Im_TqK _KK

(13)

deKn tenemos que

AnbTyrPK_nK ôQ_npAnbTryq 0ôQ_nAnbQ_nTry. (12.7) Por otra parte,HnQnAQn es la matriz de la aplicaci´on lineal QnQnA|Kn cuando enKn se toma como base las columnas ortonormales de la matriz Qn. Recordemos

que

QnQnA|Kn :Kn ÝÑKn

es la restricci´on deA aKn seguida de la proyecci´on ortogonal sobre este subespacio.

Si ahora tomamos como base de Kn las columnas de la matriz T, la matriz de

QnQnA|Kn en esta nueva base ser´a la matriz B que verifica

QnQnAT T B.

Pero

QnQnAT QnQn

Ab A2_b _An1_{b A}n_b

Como Ab, A2_b_{,. . .}_An1_b _{son vectores de} _K

n tenemos que QnQnAjb Ajb, j 1, . . . , n1, y por (12.7) QnQnA n_b _Q nQnTryTyr

porqueTyrPKn. As´ı pues

QnQnAT Ab A2b An1b AnbT e2 e3 en ry b Ab An1_b 0 0 yr0 1 . .. 0 yr1 .. . . .. ... ... ... 0 . .. 0 yrn2 0 1 yrn1 .

Es decir,B es una matriz compa˜nera del polinomioλn ryn1λn1 ry1λ ry0 y

este polinomio es pn_p_λ_q_{. Como} _B _y _H

n son semejantes, conclu´ımos que pnpλq es el

polinomio caracter´ıstico de Hn, tal y como se deseaba demostrar.

Este resultado explica, al menos en parte, la convergencia de los valores propios de las sucesivas matrices Hn hacia valores propios deA (los de mayor m´odulo como se

(14)

ha visto m´as arriba) a medida que el n´umero de iteraciones, n, aumenta. Si Kn es

A-invariante para alg´un n, entonces la correspondiente Hn tiene n valores propios

que son valores propios exactos de A. Para este valor n resulta que el polinomio caracter´ıstico de Hn cumple pnpAqb 0. Y si Kn no es A-invariante pnpAqb hace

m´ınimo el valor }ppAqb}2 para todos los posible polinomios m´onicos de grado n. No

hay hay polinomio mejor que ´este (una vez fijado b) para encontrar informaci´on sobre valores propios aproximados deA. Las ra´ıces de este polinomio son los valores propios de Hn y, por consiguiente, los valores de Ritz de A.

Debe notarse la dependencia respecto del vector b en todo el proceso. Este vector ha sido escogido arbitrariamente. Una buena estrategia para seleccionar b podr´ıa producir que los valores de n para los que Kn es A-invariante fueran peque˜nos

respecto de la tam˜no de la matriz A. O, fijado un valor concreto de n, tal elecci´on podr´ıa hacer que el valor del m´ın

pPPn}ppAqb}2fuera tan peque˜no como se pudiera desear. Este tipo de problemas es objeto de investigaci´on en la actualidad.

12.3. El m´

etodo de Lanczos

El m´etodo de Lanczos es el de Arnoldi aplicado a matrices herm´ıticas. En este caso cada Hn es herm´ıtica y Hessenberg; por lo tanto, tridiagonal. Si escribimos las

ecuaciones correspondientes a (12.2) y (12.3) para el caso herm´ıtico obtendr´ıamos

Aq1 q2 qn q1 q2 qn qn 1 α1 β1 β1 α2 β2 β2 α3 ... . .. ... βn1 βn1 αn βn (12.8) y Aqk βk1qi αkqk βk 1iqk 1, k 1,2, . . . , n, (12.9)

respectivamente. As´ı losk 1 sumandos del m´etodo de Arnoldi quedan reducidos a tres sumandos. Para conseguir el algoritmo de Lanczos basta hacer expl´ıcito el bucle interno

for j 1 :k hjk qjv

(15)

v v hjkqj

end for

del algoritmo de Arnoldi. Concretamente,

Algoritmo de Lanczos

Dato: AP_Fmm y un entero n, 0 n m

Objetivo: Forma tridiagonal parcial,pn 1qn, deAy la correspondiente

Q, m pn 1q. β0 0,q0 0 b arbitario q1 b }b}2 for k 1 :n v Aqk αk qkTv v v βk1qk1αkqk βk }v}2 qk 1 v βk end for

Por lo demás, todo lo dicho para el método de Arnoldi es de aplicación para el de Lanczos.

(16)