• No se han encontrado resultados

Métodos Iterativos. Capítulo Introducción

N/A
N/A
Protected

Academic year: 2021

Share "Métodos Iterativos. Capítulo Introducción"

Copied!
16
0
0

Texto completo

(1)

etodos Iterativos

12.1.

Introducci´

on

En este ´ultimo Cap´ıtulo dejamos el territorio cl´asico y bien conocido de losm´etodos directos para adentrarnos en el menos explorado pero de gran actualidad de los

m´etodos iterativos. Los algoritmos de Gauss (factorizaci´on LU y sus derivados) o los de factorizaci´on QR son m´etodos directos en los que los algoritmos terminan despu´es de un n´umero finito de etapas. Los vistos hasta ahora para calcular valores propios se incluyen tambi´en en esta categor´ıa aunque para calcular valores y vectores propios de matrices tenemos que usar, necesariamente, algoritmos basados en la realizaci´on de iteraciones. No obstante, como la experiencia nos muestra que estos algoritmos proporcionan (casi siempre) soluciones suficientemente aproximadas en un n´umero finito de iteraciones, se les considera algoritmos directos. Los llamados

m´etodos iterativos proporcionan, por lo general, s´olo parte de las soluciones despu´es de un n´umero de iteraciones que suele interrupir el propio usuario cuando considera que ha alcanzado los objetivos deseados. Se suelen aplicar a matrices de grandes dimensiones para las que o bien no se pueden aplicar los m´etodos directos por su

(2)

alto coste, o bien porque s´olo se precisa informaci´on parcial de las soluciones. Estas matrices de grandes dimensiones suelen tener la propiedad de ser dispersas, t´ermino que proviene de la traducci´on del ingl´essparse matrices, y que se usa para referirse a matrices con una gran cantidad de elementos iguales a cero (lo opuesto a matriz “dispersa” es matriz “densa”). Estas matrices dispersas frecuentemente aparecen en la discretizaci´on de ecuaciones diferenciales o integrales al usar modelos de elementos finitos o diferencias finitas. Por ejemplo, una discretizaci´on de diferencias finitas de una ecuaci´on en derivadas parciales puede traducirse en una matriz de dimensi´on

m105 con s´olo ν 10 elementos no nulos por fila.

Los algoritmos iterativos s´olo requieren la capacidad de calcularAxpara cualquierx. Este producto, de realizarse todas las operaciones involucradas, tendr´ıa un coste de

Opm2qflops. Si la matriz es dispersa, puede lograrse en con un n´umero mucho menor

de operaciones; por ejemplo Opνmq. M´as a´un, la forma de calcular este producto puede variar grandemente dependiendo del problema que se tenga entre manos. La suposici´on es que se deja en manos del usuario la forma en que se realizan estas multiplicaciones matriz-vector, y el programador se centra en el dise˜no del algoritmo propiamente.

Se usan m´etodos iterativos tanto para calcular valores y vectores propios (Axλx) como para resolver sistemas lineales (Ax b). En el primer caso el objetivo suele ser conseguir un subconjunto de valores y vectores propios realizando un n´umero “limitado” de iteraciones para obtener algunos valores propios de inter´es con sufi-ciente aproximaci´on. En la resoluci´on de sistemas lineales, los m´etodos iterativos se usan cuando m´etodos como la eliminaci´on gaussiana o la factorizaci´onQRrequieren demasiado tiempo o espacio. En contraste con los m´etodos directos, los m´etodos ite-rativos no produce, por lo general, la respuesta exacta (incluso en ausencia de errores de redondeo) despu´es de un n´umero finito de pasos, sino que en cada iteraci´on dis-minuyen el error en una cierta proporci´on. Las iteraciones se interrumpen cuando el error es menor que un umbral prefijado por el usuario. El n´umero de iteraciones para obtener ese umbral depende frecuentemente de las propiedades espectrales de la matriz A. Por ejemplo, el m´etodo Gradiente Conjugado garantiza la soluci´on de un sistema lineal con una matriz herm´ıtica definida positiva r´apidamente si los va-lores propios de A est´an juntos unos de otros y alejados del cero. De forma similar, el m´etodo de Lanczos garantiza el c´alculo r´apido de ciertos valores propios de una matriz herm´ıtica si dichos valores est´an bien separados del resto del espectro (y si el vector inicial que comienza la iteraci´on es suficientemente gen´erico).

(3)

iteraci´on y con la menor cantidad de trabajo posible en cada una de ellas.

Estudiaremos aqu´ı unos pocos m´etodos y sin alcanzar profundidad. Nos centraremos en m´etodos basados en la idea de proyectar un “problema m-dimensional” en un subespacio de Krylov de dimensi´on mucho menor. Dada una matrizA PFmm y un vectorbPFn1, lasecuencia de Krylov asociada esb,Ab,A2b,A3b,. . . (que en la for-ma producto for-matriz-vectro ser´ıa:b,Ab,ApAbq,ApApAbqq,. . . ) . Los correspondientes

subespacios de Krylov son los subespacios generados por este tipo de vectores. Por ejemplo,

KjpA, bq  b, Ab, A2b, . . . , Aj1b¡.

es un subespacio de Krylov asociado apA, bqde ordenj. N´otese que este subespacio puede tener dimensi´on menor que j.

Los m´etodos que analizaremos en este cap´ıtulo se resumen en la siguiente tabla:

Axb Axλx

A A CG Lanczos

A A GMRES Arnoldi

GC significa “Conjugate Gradiente” y GMRES “Generalized Minimal Residual”. En todos estos m´etodos, el resultado de proyectar sobre los subespacios de Krylov es que el problema con la matriz original se reduce a una secuencia de problemas con matrices de dimensiones n 1,2,3, . . .. Cuando A es herm´ıtica, las matrices reducidas son tridiagonales, mientras que en el caso no herm´ıtico, tienen forma Hessenberg. As´ı el m´etodo de Arnoldi, por ejemplo, aproxima valores propios de matrices muy grandes calculando los valores propios de ciertas matrices Hessenberg de tama˜nos cada vez m´as grandes. Este es el primer m´etodo que estudiaremos.

12.2.

El m´

etodo de Arnoldi

En la Lecci´on 10 vimos c´omo reducir una matriz A P Fmm a forma Hessenberg superior por medio de reflexiones de Householder. Hay otra forma de proceder. La idea que est´a detr´as es la siguiente. Para calcular la factorizaci´onQR de una matriz

(4)

A vimos que hab´ıa dos procedimientos bien distintos: realizar sobre las filas de A

transformaciones unitarias (reflexiones de Householder o rotaciones de Givens) o bien emplear el m´etodo de Gram-Schmidt que consiste en ir trabajando con las columnas de Apara producir, columna a columna, una base ortonormal del espacio generado por las columnas de A. El proceso de reducci´on deA a forma Hessenberg es el an´alogo a la factorizaci´on QR con reflexiones de Householder, mientras que el m´etodo de Arnoldi es el an´alogo del proceso de Gram-Schmidt: se trata de ir produciendo, una a una, columnas ortonormales que permitan expresar la matrizA, respecto a las bases que estas columnas forman, en forma Hessenberg. La mec´anica de este procedimiento se expone a continuaci´on.

Una reducci´on completa de A a forma Hessenberg mediante semejanza unitaria se escribir´ıaQAQH, o equivalentemente,AQQH. Ahora bien, cuandoAes muy grande (menorme o “infinito”) el c´alculo de una reducci´on completa es impensable. En lugar de ello, trabajaremos conn columnas (n   m) de las matricesAQyQH. Sea Qn la submatrizmn deQformada por sus n primeras columnas; y seaHrn la

submatriz de H formada por lasn 1 primera fils yn primeras columnas. Es decir,

Qn q1 q2 qn , Hrn h11 h12 h1n h21 h22 . .. . .. ... 0 hn,n1 hnn hn 1,n . (12.1)

Entonces, de AQ QH obtenemos AQn Qn 1Hrn porque las filas n 1, n 2,

. . . de H son cero. M´as expl´ıcitamente:

Aq1 q2 qn q1 q2 qn qn 1 h11 h12 h1n h21 h22 . .. . .. ... 0 hn,n1 hnn hn 1,n (12.2) O, equivalentemente, Aqk h1kq1 h2kq2 hkkqk hk 1kqk 1, k 1,2, . . . , n. (12.3)

En palabras, cada qk 1, k 1, . . . , n, satisface una recurrencia de k 1 sumandos

(5)

El m´etodo de Arnoldi es una iteraci´on de tipo Gram-Schmidt que implementa (12.3) a partir de un vector escogido por el usuario. El algoritmo es muy simple y se puede implementar en MATLAB con unas pocas l´ıneas de c´odigo:

Algoritmo de Arnoldi

Dato: APFmm y un entero n, 0 n  m

Objetivo: Forma Hessenberg parcial,pn 1qn, deAy la correspondiente

Q, m pn 1q. b arbitario q1 b }b}2 for k 1 :n v Aqk forj 1 :k hjk qjv v vhjkqj end for hk 1k }v}2 qk 1 v hk 1k end for

Si analizamos de cerca este algoritmo observamos lo siguiente: comenzamos con un vector b (no nulo) pero escogido como uno quiera y lo normalizamos. Enton-ces  b ¡ q1 ¡. A continuaci´on, multiplicamos Aq1 de modo que   b, Ab ¡ 

q1, Aq1 ¡. En la siguiente etapa, el objetivo es encontrarq2de modo que b, Ab¡ 

q1, Aq1 ¡ q1, q2 ¡y tq1, q2u sea un sistema ortonormal de vectores; i.e., una base

ortonormal de   b, Ab ¡. Para ello, se calcula h11 q1Aq1 y v Aq1 h11q1. Se

calcula entonces h21 }v}2 y q2 }vv}2 que es un vector unitario y ortogonal a q1

porque q1q2 1 |v}2 pq1vq 1 |v}2 pq1pAq1h11q1qq 1 |v}2 pq1Aq1h11q 0. Adem´as, Aq1 h11q1 v h11q1 }v}2 v }v}2 h11q1 h21q2,

(6)

lo que demuestra que  q1, Aq1 ¡ q1, q2 ¡ salvo que h21 0; es decir, salvo que

Aq1 P  q1 ¡ o equivalentemente, Ab P  b ¡. En tal caso, el proceso de Arnoldi

quedar´ıa interrumpido. Esta situaci´on no se ha contemplado en el algoritmo tal y como lo hemos expuesto dado que supondremos queb,Ab,. . . ,An1bson linealmente independientes.

Una vez calculados q1 y q2 se procede a calcular q3 y hk2, k 1,2,3, de la misma

forma: v Aq2 Ñh12 q1Aq2 Ñv Aq2h12q1 Ñh22q2Aq2 Ñ Ñv Aq2h12q1h22q2 Ñh32 }v}2 Ñq3 v }v}2 .

Y se prosigue as´ı sucesivamente de modo que si para j 1, . . . , n, KjpA, bq  

b, Ab, . . . , Aj1b ¡ es el subespacio de Krylov asociado a pA, bq de dimensi´on k,

entonces

KjpA, bq  b, Ab, . . . , Aj1b¡ q1, q2, . . . , qj ¡,

siendo tq1, q2, . . . , qnuuna base ortonormal del subespacio KnpA, bq.

La semejanza con el algoritmo cl´asico de Gram-Schmidt es evidente. De hecho, en aritm´etica exacta, el algoritmo de Arnoldi ser´ıa equivalente a aplicar el proceso de Gram-Schmidt a la matriz de Krylov (para un n dado)

Kn

b Ab A2b An1b

para obtener Kn QnRn. Esta matriz Qn ser´ıa la misma que la producida por el

m´etodo de Arnoldi. La diferencia (muy importante) es que en el proceso de Arnoldi no se forman expl´ıcitamente ni la matriz Kn ni la matriz Rn. Hacerlo producir´ıa

un algoritmo inestable porque, como ya sabemos, las sucesivas potencias de b, Ab,

A2b, etc. se aproximan (salvo productos por constantes) a un vector propio de A.

Es decir, a medida que n aumenta, las columnas de Kn tienden a estar cada vez

“m´as juntas”, a ser “m´as linealmente dependientes’, haciendo deKn paran grande,

una matriz mal condicionada. En la Lecci´on ?? que el algoritmo cl´asico de Gram-Schmidt puede producir matricesQn que est´an muy lejos de ser ortogonales cuando

se aplica a matrices mal condicionadas.

Sin embargo, la idea de que los vectores b, Ab, A2b, etc. converjan (de nuevo salvo

producto por constantes) a un vector propio, nos indica que enKndebe haber buena

informaci´on sobre los valores propios de A de mayor m´odulo (recordemos que esto es lo que hace el m´etodo de las potencias). De hecho, el m´etodo de Arnoldi para

(7)

calcular (algunos) valores propios de A procede de la siguiente manera: En cada paso n, o cada cierto n´umero de pasos, se van calculando los valores propios de las sucesivas matrices Hessenberg Hn que se obtienen al quitar a Hrn la ´ultima fila.

Estos valores propios se calculan mediante m´etodos est´andar como el algoritmoQR, por ejemplo. Lo que sucede habitualmente es que con algunos de estos n´umeros se pueden formar subsucesiones que convergen r´apidamente; muy a menudo de forma lineal produciendo un nuevo d´ıgito de exactitud en cada nueva etapa y lo hacen hacia los valores propios m´as grandes en m´odulo. Una pregunta perfectamente leg´ıtima es qu´e tienen que ver los l´ımites de estas sucesiones con los valores propios de A. En lo que sigue intentaremos explicarlo.

Tal y como hemos dicho, una vez fijadon m, el m´etodo de Arnoldi calcula matrices

Qn y Qn 1 con columnas ortonormales, tales que

AQnQn 1Hrn.

con Hrn como en (12.1) y Qn 1

Qn qn 1

. Se sigue entonces que

QnQn 1

In 0

es una matriz n pn 1q. Por lo tanto, si

Hn h11 h12 h1n h21 h22 . .. . .. ... 0 hn,n1 hnn ,

tenemos que QnQn 1Hrn Hn y por lo tanto, como AQnQn 1Hrn,

HnQnAQn. (12.4)

¿Cu´al es el significado de esta identidad? Desde luego no significa queAyHnson

se-mejantes (ni tan siquiera son del mismo tama˜no). Analizamos a continuaci´on su sig-nificado. Consideremos el subespacio de KrylovKnpA, bq  b, Ab, . . . , An1b ¡ 

q1, . . . , qn ¡ (para simplificar la notaci´on lo denotaremos con Kn). Si este

subespa-cio es A-invariante; es decir, si para todo v P Kn sucede que Av P Kn, entonces, en

particular AqnPKn y por (12.3)

(8)

Como Aqn P  q1, . . . , qn ¡, conclu´ımos que hn 1n 0. Por otra parte, si a˜nadimos

columnas a Qn para formar una matriz unitaria Q

Qn Qr

P Fmm, entonces QAQ y A ser´ıan unitariamente semejantes y tendr´ıan los mismos valores propios. Pero QAQ Qn r Q A Qn Qr QnAQn QnAQr r QAQn QrAQr Hn QnAQr 0 QrAQr . (12.5)

La identidad QrAQn 0 se debe a que todas las columnas de AQn est´an en Kn

y las columnas de Qr son ortogonales a las de Qn, que forman una base ortonormal

de Kn. En este caso, el significado exacto de la expresi´on Hn QnAQn es que

Hn es la matriz de la aplicaci´on lineal determinada por A restringida a Kn en la

base   q1, . . . , qn ¡. Adem´as, de (12.5) conclu´ımos que todos los valores propios

de Hn son valores propios de A. Tal y como ya hemos mencionado, estos valores

propios se calculan aplicando, por ejemplo, el algoritmoQR a la matrizHn. ¿C´omo

se calcular´ıan vectores propios de Aasociados a esos valores propios? Como, en este caso hh 1n 0, tenemos que AQn QnHn. Por lo tanto, si x0 0 es un vector

propio de Hn asociado al valor proprio λ0, entonces

Hnx0 λ0x0 ñAQnx0 QnHx0 Qnλ0x0 λ0Qnx0.

Es decir, Qnx0 es un vector propio deA asociado a λ0.

En conclusi´on, queKn sea un subespacioA-invariante es muy deseable porque en tal

caso es f´acil obtener valores y vectores propios deAa partir de los deHn(recordemos

de nuevo que ser´ıan los de mayores m´odulos). Pero ¿qu´e pasa si no lo es? ¿cu´al es el significado de (12.4) en este caso? De (12.2) (AQn Qn 1Hrn) obtenemos

QnQnAQnQnQnQn 1HrnQnHn.

Esto significa queHnes la matriz de la aplicaci´onQnQnAen la base q1, q2, . . . , qn¡

deKn. Ahora bien,QnQnes la proyecci´on ortogonal sobreKn, de modo queQnQnA

es la aplicaci´on lineal obtenida al componer la restricci´on de A a Kn seguida de la

proyecci´on ortogonal sobre este subespacio: Kn

A|Kn

ÝÑ Fm QQ ÝÑKn

Este tipo de proyecciones aparecen en varios sitios de la matem´atica aplicada y num´erica. Son conocidos como procedimientos de Rayleigh-Ritz. No en vano, de

(9)

(12.3) se deduce que los elementos diagonales de Hn son hii qiAqi; es decir, los

cocientes de Rayleigh deA respecto a cada qi.

Debe notarse que cuandoKn esA-invariante entonces AxPKn para todo xPKn, y

as´ıQQAxAx @xPKn. Es decir, QQA|Kn A|Kn.

Por otra parte, siKnno es A-invariante entonceshn 1n 0 y una simple cuenta nos

permite escribir:

AQnQnHn hn 1nqn 1eTn. (12.6)

Los valores propios deHn no son exactamente valores propios deA, pero sihn 1n es

peque˜no, todav´ıa podemos esperar que sipµ, yqes un par valor-vector propio de Hn,

entonces pµ, Qnyq sea un par valor-vector propio aproximado de A. Esta esperanza

se basa en dos resultados de distinta naturaleza. El primero nos da una estimaci´on del residuo

}AQnyµQny}2.

Proposici´on 12.1 Supongamos que se han realizadon iteraciones de Arnoldi sobre A con un vector inicial arbitrario b para generar matrices Qn 1

Qn qn 1

, con columnas ortonormales, y Hrn Hn hn 1nen 1eTn. Sea pµ, yq un par valor-vector

propio de Hn y pongamos wQny. Entonces si yn es la n-´esima componente de y,

se tiene

}Awµw}2 |hn 1n| |yn|.

Demostraci´on.- Se trata de hacer unas cuentas muy simples teniendo en cuenta (12.6):

Awµw AQnyQnµy AQnyQnHny hn 1nqn 1eTnyhn 1nynqn 1.

Y como }qn 1}2 1

}Awµw}2 |hn 1n| |yn|,

que es lo que se quer´ıa demostrar.

Esta Proposici´on nos dice que si hn 1n 0 o yn 0 entonces pµ, Qnyq es un par

valor-vector propio de una matriz A E con }E}F |hn 1n| |yn| (Proposici´on

10.8de la Lecci´on 10). No obstante, a´un cuando hn 1n no sea peque˜no, el factor yn

puede hacer que el residuo sea peque˜no. La experiencia pr´actica muestra que esto sucede muy frecuentemente. A losn n´umeros:

(10)

se les llama los valores propios estimados de Arnoldi y tambi´en los valores de Ritz

deA respecto de Kn.

12.2.1.

El m´

etodo de Arnoldi y la aproximaci´

on polinomial

El segundo resultado que nos permite esperar que los valores propios de Hn sean

valores propios aproximados de algunos valores propios de A est´a basado en la relaci´on del m´etodo de Arnoldi con la soluci´on de un problema de aproximaci´on polinomial.

Supongamos, por el momento, que Kn   b, Ab, . . . , An1b ¡ es A-invariante y

dimKnn; i.e., los vectoresb,Ab,. . . ,An1b son linealmente independientes. Como

Kn es A-invariante y An1b P Kn, se sigue que Anb ApAn1bq P Kn. El rec´ıproco

tambi´en es cierto: si Anb P Kn entonces Kn es A-invariante. En efecto, x P Kn si y

s´olo si xc1b c2Ab cnAn1b, de modo que Axc1Ab c2A2b cnAnb. Por lo tanto, si AnbP K n entoncesAx PKn. Ahora bien, AnbPK n si y s´olo si Anbx0b x1Ab xn1An1b. Si llamamos qpλq al polinomio qpλq λnx n1λn1 x1λx0, tenemos qpAqbAnbxn1An1b X1Abx0b 0.

Resulta que, como veremos, las ra´ıces deqpλqson valores propios deA. M´as espec´ıfi-camente, qpλq es el polinomio caracter´ıstico de Hn. Para verlo recordemos que Hn

es la matriz de la restricci´on de A a Kn en la base deKn definida por las columnas

de Qn. Ahora bien, dado que estamos suponiendo que dimKn n, los vectores b,

Ab,. . . ,An1b forman tambi´en una base deK

n. ¿C´omo es la matriz de la restricci´on

deAaKnen esta base? Para responder a esta pregunta basta saber cu´al es la matriz

B PFnn para la que se cumple

(11)

En otras palabras, las componentes de la j-´esima columna de B son los coeficientes deApAj1bq en la base tb, Ab, . . . , An1bu. Es decir, b

j ej 1, j 1,2, . . . , n1 y como ApAn1bq Anbx0b x1Ab xn1An1b resulta que bn x0 x1 xn1 T . Por lo tanto B 0 0 x0 1 . .. 0 x1 .. . . .. ... ... ... 0 . .. 0 xn2 0 1 xn1 .

Es decir,Bes una matriz compa˜nera del polinomioqpλq λnx

n1λn1 x1λ

x0. Como B y Hn son semejantes (porque son dos matrices de la misma aplicaci´on

lineal en distintas bases), qpλq es el polinomio caracter´ıstico deHn.

CuandoKnno esA-invariante, entoncesAnb R b, Ab, . . . , An1b¡y no hay ning´un

polinomioqpλqde grado n tal que qpAqb0. Nos podemos entonces preguntar por el polinomio p de grado n que hace m´ınima la norma }ppAqb}2. Si cuando Kn es

A invariante las ra´ıces del polinomio que cumple qpAqb 0 nos da valores propios exactos deA, parece razonable pensar que cuandoKnno seaA-invariante, las ra´ıces

del polinomio que minimiza }ppAqb}2 nos dar´a informaci´on sobre valores propios

aproximados de A.

Resulta que, al igual que cuando Kn es A-invariante, el polinomio de grado n que

minimiza}ppAqb}2 es el polinomio caracter´ıstico deHn. Para verlo, enunciamos con

claridad el problema y su soluci´on.

Recordemos que un polinomio m´onico es un polinomio cuyo coeficiente principal (el correspondiente al monomio de mayor grado) es 1.

(12)

Problema de aproximaci´on polinomial

SeaPn tppλq PFrλs:ppλqonico y de grado nu. Encontrar el polinomiopnP Pn

tal que

}pnpAqb}2 m´ın

pPPn}ppAqb}2.

Teorema 12.2 Si dimKn n existe un ´unico polinomio pnpλq que soluciona el

problema de aproximaci´on polinomial; es decir, }pnpAqb}2 m´ın

pPPn}ppAqb}2.

Concre-tamente, tal polinomio es el polinomio caracter´ıstico de Hn.

Demostraci´on.- El problema de aproximaci´on polinomial es en realidad un proble-ma de m´ınimos cuadrados. En efecto, si pPPn entonces

ppAqb Anby0by1Ab yn1An1b Anbb Ab An1b y0 y1 .. . yn1 AnbT y, donde T b Ab An1b, y y0 y1 yn1 T . En consecuencia }pnpAqb}2 m´ın pPPn}ppAqb}2 si y s´olo si }A nbTry} 2 m´ın yPFn1 }Anb T y}2dondepnpAqbAnbTyr. Es decir,pnpλq λnryn1λn1 ry1λry0. Ahora

bien, dado que dimKn n tenemos que rankT n y por lo tanto la soluci´on del

problema de m´ınimos cuadrados m´ın

yPFn1}

AnbT y}

2 tiene soluci´on ´unica (Teorema 8.3

de la Lecci´on 8). As´ı pues, hay un ´unico pnP Pn tal que }pnpAqb}

2 m´ın

pPPn}ppAqb}2. Veamos que este polinomio es el polinomio caracter´ıstico de Hn.

Denotemos con ryla ´unica soluci´on del problema m´ın

yPFn1}

AnbT y}

2. Por el Teorema

8.3 de la Lecci´on 8, ry es la soluci´on del problema m´ın

yPFn1}

AnbT y}

2 si y s´olo si

AnbTryP pImTqK KK

(13)

deKn tenemos que

AnbTyrPKnK ôQnpAnbTryq 0ôQnAnbQnTry. (12.7) Por otra parte,HnQnAQn es la matriz de la aplicaci´on lineal QnQnA|Kn cuando enKn se toma como base las columnas ortonormales de la matriz Qn. Recordemos

que

QnQnA|Kn :Kn ÝÑKn

es la restricci´on deA aKn seguida de la proyecci´on ortogonal sobre este subespacio.

Si ahora tomamos como base de Kn las columnas de la matriz T, la matriz de

QnQnA|Kn en esta nueva base ser´a la matriz B que verifica

QnQnAT T B.

Pero

QnQnAT QnQn

Ab A2b An1b Anb

Como Ab, A2b,. . .An1b son vectores de K

n tenemos que QnQnAjb Ajb, j 1, . . . , n1, y por (12.7) QnQnA nb Q nQnTryTyr

porqueTyrPKn. As´ı pues

QnQnAT Ab A2b An1b AnbT e2 e3 en ry b Ab An1b 0 0 yr0 1 . .. 0 yr1 .. . . .. ... ... ... 0 . .. 0 yrn2 0 1 yrn1 .

Es decir,B es una matriz compa˜nera del polinomioλn ryn1λn1 ry1λ ry0 y

este polinomio es pnpλq. Como B y H

n son semejantes, conclu´ımos que pnpλq es el

polinomio caracter´ıstico de Hn, tal y como se deseaba demostrar.

Este resultado explica, al menos en parte, la convergencia de los valores propios de las sucesivas matrices Hn hacia valores propios deA (los de mayor m´odulo como se

(14)

ha visto m´as arriba) a medida que el n´umero de iteraciones, n, aumenta. Si Kn es

A-invariante para alg´un n, entonces la correspondiente Hn tiene n valores propios

que son valores propios exactos de A. Para este valor n resulta que el polinomio caracter´ıstico de Hn cumple pnpAqb 0. Y si Kn no es A-invariante pnpAqb hace

m´ınimo el valor }ppAqb}2 para todos los posible polinomios m´onicos de grado n. No

hay hay polinomio mejor que ´este (una vez fijado b) para encontrar informaci´on sobre valores propios aproximados deA. Las ra´ıces de este polinomio son los valores propios de Hn y, por consiguiente, los valores de Ritz de A.

Debe notarse la dependencia respecto del vector b en todo el proceso. Este vector ha sido escogido arbitrariamente. Una buena estrategia para seleccionar b podr´ıa producir que los valores de n para los que Kn es A-invariante fueran peque˜nos

respecto de la tam˜no de la matriz A. O, fijado un valor concreto de n, tal elecci´on podr´ıa hacer que el valor del m´ın

pPPn}ppAqb}2fuera tan peque˜no como se pudiera desear. Este tipo de problemas es objeto de investigaci´on en la actualidad.

12.3.

El m´

etodo de Lanczos

El m´etodo de Lanczos es el de Arnoldi aplicado a matrices herm´ıticas. En este caso cada Hn es herm´ıtica y Hessenberg; por lo tanto, tridiagonal. Si escribimos las

ecuaciones correspondientes a (12.2) y (12.3) para el caso herm´ıtico obtendr´ıamos

Aq1 q2 qn q1 q2 qn qn 1 α1 β1 β1 α2 β2 β2 α3 ... . .. ... βn1 βn1 αn βn (12.8) y Aqk βk1qi αkqk βk 1iqk 1, k 1,2, . . . , n, (12.9)

respectivamente. As´ı losk 1 sumandos del m´etodo de Arnoldi quedan reducidos a tres sumandos. Para conseguir el algoritmo de Lanczos basta hacer expl´ıcito el bucle interno

for j 1 :k hjk qjv

(15)

v v hjkqj

end for

del algoritmo de Arnoldi. Concretamente,

Algoritmo de Lanczos

Dato: APFmm y un entero n, 0 n  m

Objetivo: Forma tridiagonal parcial,pn 1qn, deAy la correspondiente

Q, m pn 1q. β0 0,q0 0 b arbitario q1 b }b}2 for k 1 :n v Aqk αk qkTv v v βk1qk1αkqk βk }v}2 qk 1 v βk end for

Por lo dem´as, todo lo dicho para el m´etodo de Arnoldi es de aplicaci´on para el de Lanczos.

(16)

Referencias

Documento similar