A paso k = 1 : paso k = 2 : l i /5 27/5 , M 2 =

(1)

TEMA 2. Algebra lineal num´erica.

Eliminación gaussiana y factorización LU. Valores singulares, dinámica de errores y pivotaje. Métodos iterativos.

Factorizaci´on QR y problemas de m´ınimos cuadrados. C´alculo de autovalores.

Repaso de Algebra Lineal. El m´etodo de Gauss para resolver un S.E.L.Ax =b (que suponemos

compatible determinado), tal como lo hemos visto en Algebra Lineal, sigue estas etapas:

→ Restando múltiplos de la 1a. ecuación1_{, anulamos en las demás el coeficiente de la}

incógnitax1 . La operación se repite con el SEL en n₋1 incógnitas que forman ahora las n₋1 últimas ecuaciones, y as´ı sucesivamente, ... hasta que las necuaciones formen un SEL

triangularU x=c.

← La incógnitaxn se despeja de la última ecuación, y su valor se sustituye en cada una de

las ecuaciones anteriores, pasando ese sumando al t´ermino independiente. De ese modo las

n−1 primeras ecuaciones forman un SEL triangular enn−1 inc´ognitas, con el que se repite

el procedimiento hasta despejarx1 .

La forma como hemos descrito este algoritmo enfatiza su carácter recursivo: cada etapaconsta de pasos idénticos, realizados cada vez sobre un SEL más pequeño.

La primera se llamaeliminación; la segunda, sustitución hacia atrás. Vamos a añadir ahora a esta idea dos nuevos puntos de vista.

Eliminaci´on ≡ factorizaci´onLU .

Observemos lo que hace la etapa de eliminaci´on con la matrizAde coeficientes: el paso 1 de esa etapa

consiste en restar a cada filai >1 la fila 1 multiplicada por li1:=ai1/a11 , y eso equivale a multiplicar

a la izquierda por la matriz M1 construida de este modo:

en cada lugar i1 (coni >1) de la matriz unidadI , se coloca el n´umero ₋li1.

Por lo mismo, el pasok, que usa comopivotela entrada actualizadaakk para hacer ceros bajo ella,

equivale a multiplicar por unaMk que tiene los ₋lik:=₋aik/akk bajo el lugarkde la diagonal deI.

En el ejemplo que sigue vemos losmultiplicadoreslikde cada etapa y el bloquei, j > kque resulta

tras ella (se representan con _∗las entradas que ya no cambian), y debajo lasMk:

A paso k= 1 : paso k= 2 : li1 li2 1 ₋1 2 _∗ _∗ _∗ _{∗ ∗ ∗} 2 3 3 2 5 ₋1 _{∗ ∗} 0 2 5 0 2 5 2/5 27/5 M1=   ₋12 1 0 1   , M2=   1 1 −2/5 1  

Al final, tras losn−1 pasos (2 en este ejemplo), hemos llegado a la matriztriangular superior

U =M2M1A=   1 −51 ₋21 27/5  

Pero obs´ervese lo siguiente: si le hacemos esas mismas operaciones a la matrizLque se forma poniendo todos los multiplicadoreslik bajo la diagonal de la matriz unidadI ,

cada pasoklimpia definitivamente la columnakbajo la diagonal, de modo que Mn−1· · ·M1 L=I

lo que implica queLes la inversa del productoMn−1· · ·M1 , y por lo tanto LU =A .

1_{Suponemos que es}_a₁₁_!_{= 0 , pero de lo contrario basta poner otra ecuaci´}_{on en el primer lugar; o visto de otro modo, el}

(2)

En resumen: la eliminaci´on ha “consistido” en encontrar dos matrices triangularesL, U (inferior y

superior resp.) tales queA=LU , y elalgoritmoque produce2 _{los factores}_LU _{, es:} Inicio: L:=I .

Para k= 1, . . . , m , fila k de U := fila k de A ; y para cada fila i > k ,

• lik:=aik/ akk , % los multiplicadores forman L

• aij :=aij₋likakj , para cada j > k. % la fila i de A, modificada

La resoluci´on del SELAx=bse puede ver ahora de este modo:

−en la primera etapa, al aplicar ablas operaciones de filas queequivalen a multiplicar porL−1_, _se

est´a hallando la soluci´on c=L−1_b _{del SEL} _Lx₌_b _;

−y en la segunda (eso ya estaba claro) se resuelve el SEL U x=c .

OBSERVACIONES:

• La matriz Lse puede considerar en este método como un simple “depósito de los multiplicadores lik” para su uso al calcular c=L−1_b _{; nótese que en ningún momento necesitamos calcular ni utilizar}

literalmente ninguna de las dos inversasL−1_,_U−1_.

• Por otro lado, todo ello se puede hacer con una columna o con muchas a la vez, para resolver la

ecuaci´onAX=B . Por ejemplo, si queremos calcular la inversa de unaAque sean_×n:

hallar X tal queAX=I , equivale a3_resolver_AXj₌_ej _{para cada vector unidad}_ej _. •¿Para qué queremos esa interpretación del método de Gauss comoLU?

Hay dos respuestas:

1) nos ayudar´a a entender lo que pasa con los errores en el proceso; 2) nos da el modo correcto de gestionar la situaci´on siguiente:

hay que resolver varios SEL con el mismo Apero distintosb, que no conoceremos a la vez4_;

el procedimiento es ´este: hacer conAel proceso de eliminaci´on, guardar las dos matricesL, U , y usarlas

luego en la forma descrita con cada bque nos vaya llegando.

•La factorizaci´on LU se puede hacer tambi´en5 _{con una matriz} _m_×_n_{; en ese caso,}_U _{es del mismo}

tama˜no queA, yLes regular6de ordenm.

Factorizaci´on LU _≡partir en sumandos de rango 1.

Esta afirmaci´on es cierta para cada producto de matrices (equivale a la definici´on de ese producto):

LU = m

%

k=1 Lkvk

dondeLk son las columnas deL yvk las filas deU .

Pero en este caso sirve para hacer transparente elcar´acter recursivode la operaci´on: el productoL1v1

tiene exactamente las mismas primera fila y columna queA =LU , y cada factorLk, vk comienza con

un 0 sik >1 , de modo que el resto de la suma, si suprimimos esos ceros, es exactamente la factorizaci´on

LU del bloquei, j >1 en la matrizA₋L1v1, que tiene nulas sus primeras fila y columna.

Podemos por lo tanto ver el proceso as´ı: el paso 1 calcula el productoL1v1que, restado aA, “elimina”

esas primeras fila y columna y reduce as´ı el tama˜no restante del problema.

En el caso de una matrizregular n_×n, las dos matricesL, U son tambi´encuadradas y regulares.

En el caso de una matriz m_×n con rango r , la filavk de U ser´a nula para cada k > r , luego la

suma s´olo necesita llegar hastak=r; es decir: podemos suprimir esas filas nulas y las correspondientes

columnas deL, y dejar unos

factores reducidos: A= ˆLUˆ , con dimensionesm_×r,r_×n, donder=rango(A) .

2_{Si no sale ning´}_{un pivote nulo, claro.}

4_{Veremos un ejemplo de esa situaci´}_{on (muy frecuente en el C´}_{alculo Num´}_{erico) al estudiar la versi´}_on_n_{-dimensional del}

m´etodo de Newton.

5_{A condici´}_{on de que, igual que supon´ıamos antes, el proceso no tropiece con ning´}_{un “pivote nulo”; una condici´}_{on necesaria}

para ello es queAtenga rango m´aximo, es decir = min(m, n) .

(3)

Se dan las matrices A=   1 2 01 0 1 −1 0 1  , E= & ₁ −1 2 2 3 3 ' . •Factorizar como productoLU cada una de ellas.

El pasok= 1 del algoritmo utilizado para ello puede verse de este modo:

− toma la filaf1 deAcomo primera deU , y la columna A1/a11 como columnaL1, − resta aAel producto L1f1 , que tiene las mismas primera fila y columna queA.

El proceso recomienza entonces con la matriz B de tamaño (m₋1)_×(n₋1) que resulta al suprimir esas lineas de ceros. Deducir por inducción el número de operaciones que cuesta hallarL, U para una matrizm_×nque tenga rango máximo: r=min(m, n).

• Resolver simultáneamente, por eliminación y sustitución regresiva los tres sistemas Ax=ei , donde losei ,i= 1,2,3son los vectores unidad. Partiendo de ese ejemplo, deducir el número de operaciones que cuesta hallar de este modo la inversaA−1_{de una matriz}_n_×_n. E 2.1 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] El algoritmo LU podr´ıa trabajar en otro orden: por ejemplo}_{comenzando en} _k₌_n_(si_A_es_n_×_n_{), y} usando el bloquei, j < npara la siguiente etapa, pero ¿qu´e forma tendr´ıan entonces las “L, U” halladas?

¿Equivale eso a hacer la factorizaci´onLU deAcon sus lineas ordenadas de otro modo? Explicar.

¿Es la respuesta a esta pregunta igual si cada vez escogemos cualquier entrada no nula del bloque restante7_{como pivote?}

Tema 2: BIBLIOGRAFIA Y COMENTARIOS.

El Cap´ıtulo 10 del libro

Sanz-Serna: Diez Lecciones de C´alculo Num´erico

se dedica a este asunto del Algebra Lineal, pero cubre s´olo las primeras ideas que sobre ese asunto veremos en esta asignatura. Por eso necesitamos el

Strang: Introduction to Linear Algebra

y en primer lugar lo que se explica (magistralmente) en su Cap´ıtulo 2, una buena parte de lo cual ya habremos aprendido en el curso de Algebra Lineal. Como en este caso estamos hablando de un libro “m´ultiple” (sucesivas ediciones, bajo dos t´ıtulos distintos):

•Algebra lineal y sus aplicaciones. Fondo educativo iberoamericano, 1982 •Algebra lineal y sus aplicaciones. Addison-Wesley Iberoamericana, 1986 •Linear algebra and its applications. Thomson, Brooks/Cole, 2006 •Algebra lineal y sus aplicaciones. Thomson, 2007

•Introduction to linear algebra. Wellesley-Cambridge Press, 1998, 99, 2003

de todos los cuales hay ejemplares en nuestras Bibliotecas, conviene que cada cual revise con cuidado el ´ındice de su libro para ver d´onde va encontrando cada cosa.

Es también recomendable un vistazo a su página: http://www-math.mit.edu/_∼gs/ Nota histórica:

En los otros Temas de este programa aparece varias veces el nombre de Newton (1643-1727), y en efecto la mayor´ıa de las ideas clave expuestas en ellos, ya hab´ıan nacido en el siglo XVII y se desarrollaron del todo en el XVIII, aunque la presencia de los ordenadores las haya hecho m´as potentes y aplicables, y la Teor´ıa de Conjuntos haya provocado muchos cambios en nuestro modo de expresarlas.

En este Tema la historia es distinta: aunque las ideas básicas para resolver ecuaciones lineales son aún más antiguas, el lenguaje del Algebra Lineal no se consolidó hasta comienzos del siglo XX, tardó más que otro medio siglo en empezar a ser bagaje común de los cient´ıficos (un proceso aún incompleto en muchos sentidos), y sólo ese lenguaje, una vez instalado, permitió entender en profundidad lo que ocurre al resolver un SEL, o en general al calcular con matrices. A partir de los años 1950, la presencia de los ordenadores (cuya potencia de cálculo ha crecido en esas décadas por un factor > 109_{) ha hecho nacer en este campo muchas ideas nuevas,} y cambiar la relevancia de las ya conocidas, de modo que el juicio sobre “qué ideas sobre

el c´alculo efectivo en Algebra Lineal es esencial entender”ha debido reformarse varias veces recientemente, y parece que esto seguir´a ocurriendo.

(4)

Qu´e hace una funci´on lineal IRn

→IRn _{con las longitudes de los vectores.}

Las “m´as simples” son:

• lasortogonales, definidas por la igualdad QT_Q₌_I _{, que equivale a la afirmaci´on de que} Qconserva las distancias: _|Q(x)_|=_|x_| para cadax_∈IRn

y a las que llamaremosgiros o simetr´ıas seg´un sea el signo de su determinante.

Prueba de la equivalencia: llamandoxalvector columnax, es inmediata la implicaci´on QT_Q₌_I

⇒ |Q(x)_|2_{= (}_Qx₎T_Qx₌ |x_|2

Para_⇐, basta observar que si Qconserva distancias, también ángulos, y en consecuencia también productos escalares, en particular los de cada par de vectores unidadei, ej .

• lasdiagonales D=    s1 ... sn   

que simplemente multiplican cada coordenadaxk por el n´umerosk , de modo que (sin= 2) la bola

unidadB=_{|x| ≤1} se transforma enuna elipse de semiejes|sk|:

By su imagen por D= & ₁ .7 −0.8 ' : !1.5 !1 !0.5 0 0.5 1 1.5 !1 !0.5 0 0.5 1

• lassim´etricas: ST ₌_S _{, que son “como las diagonales, si giramos los ejes”.}

Teorema: (visto en Geometr´ıa )

DadaS=ST _{, hay una base ortonormal}

{uj_}tal que Suj =sjuj para ciertossj_∈IR.

By su imagen por S= & _{2 1} 1 1 ' : !2.5 !2 !1.5 !1 !0.5 0 0.5 1 1.5 2 2.5 !2 !1.5 !1 !0.5 0 0.5 1 1.5 2

Si llamamosU a la matriz (ortogonal) cuyas columnas son lasuj , la afirmaci´on es: SU =U D para la matriz de diagonal (sj) .

LaSVDque veremos ahora nos dice que en un sentido algo m´as d´ebiltodas las matrices son as´ı:

Teorema.8 _{Descomposici´on en valores singulares,}_SVD_:

DadaA:IRn _→IRm , hay bases ortonormales_{uj_} enIRm ,_{vj_}enIRn , tales que Avj =σjuj para ciertosσ1_≥σ2_≥. . . σn _≥0 . Es decir: AV =U D ,

dondeU, V tienen columnasuj, vj, yDtiene el tama˜no deAy los n´umerosσken su diagonal. 8_{Lo probaremos m´}_{as adelante.}

(5)

By su imagen por A= & _{2 1} 0 1 ' : !2 !1.5 !1 !0.5 0 0.5 1 1.5 2 !1.5 !1 !0.5 0 0.5 1 1.5 OBSERVACIONES Y CONSECUENCIAS:

• En dim>2 “todo es igual”: la bola unidadBse transforma enuna hiperelipse de semiejes σk . • ComoV VT ₌_I _{, podemos despejar}_A _{y la igualdad queda:} _A₌_{U DV}T ₌*

kσkukvkT

• La afirmaci´on clave del Teorema es que ambas bases son ortogonales; sin ella, el Teorema ser´ıa

casi trivial, pero no dir´ıa nada sobre qu´e hace A con las longitudes de los vectores, y de eso se

trata: como las funciones ortogonalesU, V dejan invariantes todas las longitudes, el significado del

Teorema es que, a esos efectos,Aes id´entica a la matriz diagonalD .

• Losvectores singularesvk son los autovectores en el caso de unaAsim´etrica, pero puesto que se

toman ahora distintas bases de salida y llegada, nos podemos permitir que losvalores singulares σk sean ≥0 ; tanto eso como el tomarlos en orden decreciente es un conveniomuy sensato, como iremos viendo. Por ejemplo, el rangor=r(A) coincidirá con el deD, luegoσrserá el último>0 . • En el caso de una matriz regular n_×n , el número κ(A) =σ1/σn da la excentricidad de la

hiperelipse en el plano en que ´esta es m´axima, y va a ser muy relevante en lo que sigue.

• En el caso general, la hiperelipse est´a encerrada en el subespacioIm(A) =L{u1, . . . , ur} ⊂IRm_,

y el hecho de que los restantesσk son = 0 permite, como hicimos paraLU , escribir la igualdad A=U DVT _{en forma reducida:}

A=*r_k=1σkukvT

k = ˆU DVˆT

donde s´olo hemos dejado las primerasrcolumnas deU y filas deVT _{, y}_D_{es regular} _r ×r. • La afirmaci´on del Teorema implica queσ2

k son los autovalores de S =AT_A₌_{V D}2_VT ₌_ST _,

y vk las correspondientes direcciones de autovectores. Esto permite calcular a mano la SVD en

ejemplos pequeños (como el de arriba), pero NO es un método razonable de cálculo para matrices grandes, ya veremos por qué.

•Probar queAV =U D , conU, V ortogonales yD diagonal, implica que las columnasvj de V son autovectores de la matrizAT_A_.

• En cada uno de los 5 casos siguientes calcular la SVD y el valor κ(A) , y dar un gr´afico aproximado: A= & −2 11 −10 5 ' ; A=   1 10 1 0 1   A= & ε ₋1 1 0 '

, y cada uno de sus factores LU=

& ₁ 1/ε 1 ' & ε ₋1 1/ε '

dondeεes algún número muy pequeño9_. E 2.2 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] La afirmaci´on de existencia de la SVD es casi trivial si no exigimos que los} _uk _{sean ortogonales:} explicar c´omo tomar una baseortonormal _{vk}y vectores unitarios uk que cumplan lo pedido.

(6)

Factorizaciones inestables.

• Pensemos para empezar en la operaci´on lineal x=F(a) m´as inocente posible: a= + a1 a2 , → + M a1 M a2 ,

dondeM es “grande”10_{. Veamos qu´e ocurre si en vez de hacerla en las dos etapas “naturales”:} a= + a1 a2 , → + M a1 a2 , → + M a1 M a2 ,

sefactoriza de este modo: usando ai=s±d, con 2s=a1+a2, 2d=a1−a2, definir las funciones

lineales F1(a) = + M s+d M s−d , , F2(a) = + s+M d s−M d , que tienen composici´onF2◦F1=F , y calcular

a→b=F1(a)→F2(b) =M a

Ning´un problema si la aritm´etica es exacta, pero ¿si no lo es . . . ?

No es dif´ıcil comprobar11 _{que ambas}_Fi _{tienen autovalores}_M,_{1 , y que la etapa} _F2 _{ampliar´a los}

errores de redondeo que entren enb , haciendo que seanO(M2_εM_{) en la direcci´on} _v_{= (1}_, −1) . • Para ver en forma general lo que ocurre en este ejemplo, recuperemos la definici´on (vista en la

Introducci´on) deκ(F, a) , que para una funci´on linealF se convierte en κ(F, a) = sup

|u|=1|

F u| |a| |F(a)_| =σ1

|a|

|F(a)_| , donde σ1 es el primervalor singular deF .

En este caso, añadimos otra definición (aún más pesismista):

DEFINICION: Llamamosκ(F) al “peor caso posible”: κ(F) = supaκ(F, a) .

Por ejemplo, siF es diagonal con autovalores σ1 ≥. . .≥σn , lo peor posible es tener datoa=en

con errorεe1, y entonces

κ(F) =κ(F, en) =σ1/σn

Como el cambio a una base ortonormal, o la composici´on con una funci´on ortogonalQ, conserva

todo lo que se refiere a tama˜nos, cada funci´on linealF se comporta a este respecto como el factor Dde su SVD F =U DVT _{; es decir :}

κ(F) =κ(F, vn) =σ1/σn

En el ejemplo anterior eraκ(F) = 1 , pero la causa del problema esκ(F2) =M .

• Estamos t´acitamente suponiendoσn >0 , que no es posible siF :IRn _→IRmcon m < n; en tal

caso12_{, y en general si}_Ker₍_F₎

/

=_{0_} , esκ(F) =_∞, y lo ´unico que puede interesar esκ(F, a) . • Si F tiene inversa F−1 ₌_A _{, es f´acil razonar que los valores singulares de} _F _{son inversos de los}

deA (la definici´on de la SVD se vuelve simplemente del rev´es, con losvi ,ui intercambiando sus

papeles), luego en ese casoκ(A) = (1/σn)/(1/σ1) =κ(F) .

Por ejemploκ(A) =κ(A−1_{) es el peor}_κ_{posible del problema} _“hallar_x_{tal que}_Ax₌_b_”.

• El ejemplo del comienzo es totalmente irreal, pero sirve para entender el problema que se presenta realmentesi en la factorizaciónLU usamos pivotes pequeños, y su relación con los valores singulares,

cualquiera que sea la dimensi´on.

10_{Pensemos para fijar ideas en}_M_{= 10}9_. 11_{Ver ejercicio}_{E 2.3.}

12_{Recordar el ejemplo}_F₍_a

(7)

Por qu´e y c´omo pivotar al hallar LU . En ejemplos tan inocentes como el giro A= & −1 1 '

se encuentra uno con un “pivote”= 0 ; en consecuencia no hay factorizaci´onA=LU: hay que cambiar el

orden de las filas y llegar en su lugar aP A=LU , dondePes la matriz quepermuta las filas, coloc´andolas

en el orden en que finalmente han quedado. Supongamos que unε <<1 nos evita esa molestia: A= & ε −1 1 0 ' =& ₁1 /ε 1 ' & ε −1 1/ε '

Pero ahora, aunqueκ(A)≈1 , cada factor tieneκ≈1/ε2 _{; eso es muy f´acil de ver para}_U _{, porque}

los vectores unidad tienen im´agenes con_|U(e1)|=ε, |U(e2)|>1/ε , luegoσ2≤ε,σ1>1/ε.

Para ver las posibles consecuencias, supongamosε=εM ; al buscar la soluci´on de Ax=b con b= + ₁ 1 , =A + ₁ ε₋1 , , resolveremos primero Ly=b ⇒ y= + ₁ 1₋1/ε , y al redondear resulta ˜ y= + ₁ −1/ε , =Ux ,˜ x˜= + ₀ −1 ,

la primera coordenada de la soluci´onxse ha perdido del todo; el ejemplo inicial nos permite ver por qu´e:

laκ(U−1_{) =}_κ₍_U_{) de la etapa}_y_→_x₌_U−1₍_y_{) ha amplificado el error de ˜}_y_{, que a su vez guarda relaci´on}

con el tama˜no de las entradas deL, y no con las deA.

El remedio es cambiar el orden de las filas, de tal modo que el pivoteakkusado en cada etapa cumpla |akk| ≥ |aik|para cadai > k . Eso implica que los multiplicadores cumplir´an |lik|=|aik/akk| ≤1 , de

donde es f´acil deducir que el tama˜no de las entradas deU crece de manera controlada13_. i)Comprobar que las matrices siguientes realizan las dos etapas del ejemplo inicial:

F1=1 2 & M+ 1 M ₋1 M₋1 M + 1 ' , F2= 1 2 & M + 1 1₋M 1₋M M+ 1 '

Experimentar y observar los resultados del c´alculo a_→b=F1(a)_→F2(b) =M a , •usando distintos valores14deM = 10p ,

•usandoa= (1,1) o generando sus coordenadas conrand, •usando las matricesFi o las f´ormulas dadas al principio. ii)Sea A=

& ₁

/M ₋1

1 0 '

. Estudiar lo que ocurre al usar sus factoresLU para resolver

Ax= + ₁ /3 1/3 , .

El error procederá del redondeo de y = L−1_b _{, y ser´}_{a m´}_{as grave en la coordenada} _x1 _; comprobarlo, y usar la SVD de U para explicar por qué es as´ı. Experimentar con otros ejemplosA=LU en los que aparezcan pivotes pequeños, a mano y/o usandoMatlab. E 2.3 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] Probar que si los multiplicadores} _li1 ₌_ai1/a11 _{tienen tama˜no} _≤_{1 , los n´umeros} _bij _, _{i, j >}_{1 que} ocupan esas entradas deAtras la primera etapa de Gauss cumplen

max_|bij_{| ≤}2 max_{|aij_|, i >0, j >1_}

Deducir que siAeran×n, las deU cumplir´an maxi,j|uij| ≤2n−1 maxi,j|aij| .

Buscar matrices conn= 2,3,para las que esa desigualdad sea igualdad.

13_{Veremos sin embargo un detalle curioso en relaci´}_{on con esto.}

(8)

Puntos fijos atractores en IRn_.

La idea delTema 1era encontrar funciones Gque en el punto cbuscado cumplan

G(c) =c, con_|G#(c)_|<1 , para estar seguros de que elpunto fijocseaatractor.

El argumento, basado en el desarrollo de Taylor enx=c, era: G(c+h) =c +G#₍_c₎_h ₊_G##₍_c₎_h2_/_{2! +}_{. . .}_{, luego cuando}

|h_{| →}0 ,G(c+h)₋c_≈G#₍_c₎_h lo que implica la convergencia a 0 de losxk₋csi_|G#₍_c₎_|_<_{1 .}

Para una G:IRn →IRn _{, el desarrollo de Taylor permite repetir exactamente el argumento}15_{, sin}

m´as que decir quec, h, G((c+h) son vectores (columna), y usar en lugar deG#(c) la matrizJ =DG(c) .

Pero ¿qué poner ahora en lugar de la condición _|G#(c)| <1 ? Lo más simple es pedir ||DG(c)|| < 1 ,

usando la siguiente

DEFINICION: Para una funci´on linealF , llamaremos16 _norma_de_F _{a la cantidad} ||F||= supu |F(u)|/|u| (que coincide con el valor singularσ1 deF ).

Para el iteradorGcon DG(c) =J , si es||J||< r <1 , y si el vector h=xk−c es peque˜no, xk+1=G(xk) _⇒ xk+1₋c_≈J(xk₋c) _⇒ _|xk+1₋c_{| ≤}r_|xk₋c_| ,

y por inducción, el módulo_|xk₋c_|< cte_·rk _. Métodos iterativos para resolver Ax=b .

Un ejemplo del uso de estos atractores: siA=S₋T , yS tiene inversa,

Ax=b ⇔ Sx=T x+b, es decir, la iteraci´on xk+1=G(xk) =S−1₍_{T xk}₊_b_{) ,}

permite aproximar el ˙xque cumple Ax˙ =b , pero hace falta: − que la derivadaDG=S−1_T _{sea lo menor posible, y}

− que resolver cada Sx=c seamucho menos costoso que resolver directamente Ax=b con el

m´etodo de Gauss, donde la factorizaci´on LU ya cuesta _≈n3_/_{3 productos y cocientes.}

Las siguientes son dos maneras cl´asicas de concretar esta idea, en caso de seraii /= 0 ∀i ; en ambos

casos hay que sumar en cada paso el coste de evaluarT x+b , pero eso son<2n2 f lops. • Jacobi:

S= la matriz diagonal

- _a11

... .

; resolver un SEL con esta matriz s´olo cuestan f lops. • Gauss-Seidel:

S = la parte triangular inferior deA, incluida su diagonal; resolver un SEL con esta matriz s´olo

cuesta unosn2 _{f lops} _{: el proceso es idéntico a la}_{sustitución hacia atrás} _{que resuelve} _{U x}₌_c _si_U

es triangular superior.

Una idea importante: al buscar el ˙xque cumpleAx˙ =b, la imprecisi´on dexk puede evaluarse de dos

maneras: elerror ek =xk₋x˙ , o elresidual rk =b₋Axk=₋Aek . No es dif´ıcil deducir que Sxk+1=T xk+b

Sx˙ = Tx˙+b ⇒

/

ek+1=S−1_{T ek}

rk+1=T(ek+1₋ek) =T S−1 _rk

Escribir en t´erminos de las entradasaij deA el algoritmo que realiza un paso y=G(x)del

método de Jacobi, llamando ahorax, ya lo que antes eranxk, xk+1 , y llamando por lo tanto xi ,yi a sus respectivas coordenadas. El algoritmo irá calculandoy1, y2, . . .en función dex. Una vez hecho esto, verificar las siguientes afirmaciones:

•Las operaciones para Gauss-Seidelson las mismas, con la ´unica diferencia de que lasyi ya calculadas (i < k) se usan en vez de esasxi al hallaryk .

En particular, el coste de operaciones es id´entico, y adem´as cadaykse puede ir guardando en el lugar de laxk ; en otras palabras,podemos prescindir de llamarlas con distinto nombre. •Si en lugar de la mitad (triangular) inferior deAtomamosS=la mitad superior deA en

Gauss-Seidel, el algoritmo es id´entico, pero lasyk se calculan empezando17 _por_k₌_n_. E 2.4 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

15_{Es tambi´}_{en posible un argumento basado en el TVM, salvo que ´}_{este toma en dim}_>_{1 una forma mucho m´}_{as inc´}_omoda. 16_{Esto ser´}_{a lo que entenderemos por defecto como “}_||_F_||_{”, aunque muy pronto definiremos otras normas.}

(9)

Normas en IRn_.

Venimos usando la notaci´on_|x|parax∈IRn _{en el sentido habitual:}

|x|2₌* ix2i .

Pero hay otras formas, en ocasiones m´as convenientes, de medir el tama˜no de un vector; por ejemplo

|x|∞= max_i |xi| , |x|1= % i |xi| , o en general: |x|p p= % i |xi|p _,

que parap= 2 nos devuelve a la definici´on usual, y que en el l´ımitep_{→ ∞}da la_|x_|_∞.

Todas ellas cumplen18_{estas propiedades, que constituyen la definici´on de}_norma_: i) _|x_{| ≥}0 , con_|x_|= 0 sii x= 0 ;

ii) _|cx_|=_|c_{| |}x_|para cada constantec ; iii) _|x+y_{| ≤ |}x_|+_|y_| (desiguldad triangular).

La figura muestra, parap= 1,2,_∞, losxdel plano con_|x_|p= 1 ,

y permite deducir, usandoii), que cadaxcumple |x_|∞≤ |x|2≤ |x|1≤2|x|∞

No es dif´ıcil extender esas desigualdades aIRn_{, incluyendo}

otros valores dep_∈(1,_∞) :

|x|∞≤ |x|p≤ |x|1≤ n|x|∞

lo que implica que todas soncomparables: se acotan mutuamente, salvo factoresCn que dependen den.

En consecuencia, para probar la convergencia a 0 de una sucesi´on de vectores (como los errores o los residuales de un m´etodo iterativo, por ejemplo), basta hacerlo con cualquier norma.

Ejemplo: Observando la matriz derivadaB=S−1_T ₌_D−1₍_D

−A) del m´etodo de Jacobi (dondeD es

la diagonal deA) se deduce que el vectory= (yi) =Bx se obtiene delx= (xi) de este modo: para i= 1, . . . , n , yi=*_j_%_=i₋aijxj/aii

y de ah´ı sale_|y_|_∞_{≤ |}x_|_∞siAtienediagonal dominante por filas: *_j_%_=i_|aij_{| ≤ |}aii_| para cadai .

Pero si esa desigualdad esestricta, entonces

|y|∞≤r|x|∞ , conr= maxi*_j_%_=i|aij/aii|, que ser´a<1 ,

lo que implica que el m´etodo converge.

Normas para A:IRn_→IRm.

La definici´on_||A_||= sup_|u|=1|Au|, que venimos usando, se extiende autom´aticamente a otros valores

de p , dando las llamadas19 _{normas inducidas}_:

||A_||p = sup{|Au|p , |u|p = 1} ; por ejemplo, lo

obtenido en el Ejemplo anterior se puede formular as´ı: _||B_||∞≤r.

•Comparando la figura de arriba y su imagen porA=

& _{1 2} 0 2

'

, hallar_||A_||1, ||A||∞ .

• Probar las desigualdades20 _|_x_|

∞ ≤ |x|2 ≤ |x|1 ≤n|x|∞ para vectores de IRn, y dar para

cada una un ejemplo de vectorxque la convierta en igualdad.

• Usando la recurrencia vista para los errores ek = xk −x˙ de un m´etodo iterativo, y su traducci´on en algoritmo en los casos de Jacobi y Gauss-Seidel, probar, usando |x|∞ , que

ambos m´etodos convergen siAtienediagonal estrictamente dominante por filas:

*

j%=i|aij|<|aii|para cadai. •Si para unaAdada llamamosM = maxi*j|aij|, probar:

i) que_|Ax_|∞≤M|x|∞ ; ii) que hay vectoresxpara los que se da la igualdad.

Deducir queM =_||A_||∞. Probar la f´ormula an´aloga para||A||1 , en la que simplemente hay que cambiar filas por columnas, es decir: _||A_||1=||AT||∞ .

E 2.5 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] Dar un ejemplo de matriz 2}_×₂ _sin _{diagonal dominante, pero para la cual Jacobi converja.}

18_{Es muy f´}_{acil verificarlas en los casos}_p_{= 1}_,_∞_{, usando la desiguldad triangular}_|_a₊_b_{| ≤ |}_a_|₊_|_b_|_para_n´_umeros_.

Se suele usar la notación||x||para las normas, pero vamos a reservarla aqu´ı para lasnormas de matrices: eso simplifica la escritura y enfatiza quiénes son vectores y quiénes matrices en nuestros cálculos.

19_{Ya sabemos que}_||_A_||2_{coincide con el valor singular}_σ 1deA.

Hay otras posibles normas queno son de este tipo; por ejemplo, si vemosAcomo un vector deIRmn_{y le aplicamos la} norma|x|2, tenemos lanorma de Frobenius||A||F= (Pi,ja2ij)1/2 .

(10)

Algo m´as sobre normas.

• Se deduce de la definici´on (usando de nuevoii)que cada norma inducida cumple: ||AB_{|| ≤ ||}A_{|| ||}B_||

y de aqu´ı se deriva una importante relación entre autovalores, normas, y el uso que estábamos haciendo de ellas para los métodos iterativos:

PROPOSICION: Para cada autovalorλdeB y cadap, se tiene||B||p≥ |λ| .

Prueba, siλ∈IR: Siues su autovector, con|u|p= 1 , ser´a ||B||p≥ |Bu|p=|λ| |u|p .

La idea es la misma paraλcomplejo, pero entonces hay que razonar con las iteradasBN_{u, B}N_v_,

para un autovector complejow=u+ iv, y usar||BN_||

p≤ ||B||Np .

• De esta Prueba resulta tambi´en lo siguiente: para que las iteradasek+1=B(ek) converjan a 0para

cada vector inicial e0 , escondici´on necesariaque21

cada autovalorλdeB cumpla_|λ_|<1 .

Por el contrario, cualquier “_||B||p<1” escondici´on suficiente(no necesaria) para que converjan.

Tipos de matrices que hemos visto, y alguno m´as.

Algunos de ellos juegan un papel básico en Algebra Lineal: diagonales, ortogonales, simétricas. Además de éstas, como ya hemos empezado a ver, hay otras esenciales en los métodos numéricos: por ejemplo lastriangulares, lasdiagonal-dominantesy lasdefinidas-positivas(ver abajo).

Las matrices que proceden de las aplicaciones suelen tener dos propiedades: una “peligrosa”: sermuy grandes22_{; otra que “puede ayudar”: tener}_{muchos ceros, con una cierta estructura; ejemplo: las matrices} banda, que son nulas en_|i₋j_|> d, para alg´und << n. Se las llama en general matricesdispersas23_.

Algunos ejemplos de c´omo el tipo de matriz influye o interviene en los m´etodos estudiados:

•LU se realiza sin necesidad de pivotar siAtiene

diagonal dominante por columnas: *_i_%_=j_|aij_{| ≤ |}ajj_|para cadaj

Basta probar dos cosas:

1)a11ser´a el pivote de la etapak= 1 (evidente);

2) tras esa etapa, el bloqueB de las{aij ,i, j >1}, hereda esa propiedad.

•Si Aes una matriz banda de anchura 2d+ 1 (es decir, nula para|i−j|> d), y si hacemos

LU sin pivotar, los dos factoresL, U heredan esa estructura.

•Para una matrizsim´etricaAque seadefinida-positiva, es decircon sus autovalores>0,

el algoritmo LU puede modificarse para producir lafactorizaci´on de Cholesky:

A=L LT ₌*

kvkvkT , que refleja la simetr´ıa de A.

Para entender cómo y por qué, conviene probar antes tres cosas más generales:

1) SiAes regular, la factorizaciónA=LU (con diagonal deL≡1), si existe, es única. 2) SiAes simétrica y se puede factorizar sin pivotar, entonces U =DLT _.

3) SiAes simétrica, el que seadefinida+_{equivale a que sea}_xT_{Ax >}_{0 para cada}_x_{, e implica} −que cadasubmatriz principal A(K, K) dondeK⊂ {1, . . . , n} también esdefinida+_; −que la factorización LU se puede hacer sin pivotar, y todos los pivotesukk son>0 . Partiendo del código que se escriba para hallar LU sin pivotar, ver cómo modificarlo para hacer las siguientes cosas, en el caso de que elinput Asea una matrizdefinida+_:

•En lugar de dar al factorLdiagonal de unos, dejar en su diagonal la raiz cuadrada de cada pivote, para que lasL, U que resulten sean traspuestas una de la otra24_.

•Puesto que las entradas deL, Uson iguales, se puede ahorrar casi la mitad de las operaciones, si se modifica el c´odigo de manera adecuada25_{. El resultado ser´a el}_{algoritmo de Cholesky}_. E 2.6 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

21_{Veremos pronto que tambi´}_{en es suficiente.}

22_{Ya sabemos que el significado de ese adjetivo, adem´}_{as de no ser formalizable, va cambiando junto con los}_chips_. 23_{O “huecas” en otras traducciones,}_sparse_{en ingl´}_{es. Naturalmente, la definici´}_{on de}_banda_{(cuyo caso}_d_{= 0 son las}

diagonales) se aplica aunque no sead << n(taquigraf´ıa para “mucho menor quen”), pero es entonces irrelevante.

24_{Si se descubre c´}_{omo hacer el paso}_k_{= 1 , ya est´}_{a todo hecho.}

(11)

Gram-Schmidt, QR, soluciones LS y seudoinversas.

• Conocemos de cursos anteriores elalgoritmo de Gram-Schmidt:

dadosn_≤mvectores vj _∈IRm, y llamandoKk =_L{v1, . . . , vk_} al subespacio engendrado por los kprimeros, se trata de hallar vectores orto-normalesqk que engendren esos mismosKk .

Inicio: w1=v1 , q1=w1/|w1|

Para k= 2, . . . , n , wk=vk−pk , qk=wk/|wk| ,

donde pk es la proyecci´on ortogonal de vk sobre Kk−1 , que se calcula as´ı:

pk =% j<k vk_·wj wj·wj wj= % j<k (vk_·qj)qj

Este c´alculo expresa al mismo tiempo cadavk como combinaci´on lineal de los q1, . . . , qk , lo que

puede traducirse de este modo: expresamos la matriz A de columnas vj como un productoQR ,

dondeQtiene columnas qj yR es triangular superior; como en este ejemplo26_:

A=     1 ₋1 2 2 3 3 0 2 5 1 1 4    =     1 ₋2 2 2 1 ₋2 0 2 3 1 0 2       1 1 21 1 1  

donde cada_|wi|debe pasar de la columnawk del primer factor a la filakdel segundo para que esas

dos matrices se conviertan enQ, R. El algoritmo que calcula directamente las columnasqk es: Para k= 1, . . . , n ,

• para j < k , rjk=vk_·qj , % coeficientes de la proyecci´on pk • wk =vk₋*_j<krjkqj , % el resto ortogonal: wk =vk₋pk • rkk=_|wk_| , qk=wk/ rkk . % ... que una vez normalizado, es qk

• Se llama a la ecuaci´on Ax = b un SEL sobredeterminado si tiene m ecuaciones en n < m

inc´ognitas, o en general sirango(A)< m , con la probable consecuencia de que sea b /_∈Im(A),

es decir que el SEL no tenga soluci´on exacta. La “soluci´on” x que se busca entonces es la que

minimiza|Ax−b|. Se la llama soluci´on dem´ınimos cuadrados(least squares,LS), y equivale a: encontrarx_∈IRn tal queAx=πA(b), conπA=la proyecci´on ortogonal sobreIm(A)_⊂IRm. Dos ejemplos:

• El m´as simple, y de muy frecuente uso en toda clase de aplicaciones de las Matem´aticas, es la

recta de regresión: una ecuacióny=a0+a1xque “aproxime lo mejor posible”mpares de datos xi, yi; las incógnitas sona0, a1; en el Tema 3 veremos una versión más general de esta misma idea. •Como hemos empezado a ver en el Laboratorio, una matrizAmuygrande puedeparecersingular (desde el punto de vista del calculofloat) aunque no lo sea; al ordenador no le queda entonces más remedio que tratar el SELAx=bcomo si fuese sobredeterminado; y eso es por lo tanto lo que hace en esa situación un programa comoMatlab: calcula lasolución por m´ınimos cuadrados.

Queremos por lo tanto que sea (Ax₋b)_⊥Im(A) , es decir , AT₍_Ax

−b) = 0 , AT_Ax₌_AT_b _.

Esto permite despejarx, en vista de la siguiente

PROPOSICION: SiA∈ Mm×n tiene rangor=n < m,ATAes invertible.

Prueba:

ComoAT_A_es_n_×_n_{, probar que tiene rango}_n_{equivale a probar que}_Ker₍_AT_A_{) =}_Ker₍_A₎_{; pero} AT_Ax_{= 0} _⇒ _|_A₍_x₎_|2₌_xT_AT_Ax_{= 0}_, _⇒ _Ker₍_AT_A₎_⊂_Ker₍_A₎_.27

En consecuencia, lasoluci´on de m´ınimos cuadradoses:

x= (ATA)−1ATb , que se obtiene resolviendo el SEL ATA x=ATb . 26_N´_{otese: el c´}_{alculo es m´}_{as simple con los}_q

j, pero loswjevitan arrastrar ra´ıces cuadradas si se calcula “a mano”.

(12)

Observaciones:

• Como hemos probado r(AT_A_{) =}_r₍_A_{) =}_r₍_AT_{) , y claramente se tiene} _Im₍_AT_A₎

⊂Im(AT_{) , es} Im(AT_A_{) =}_Im₍_AT_{) , y el SEL}_AT_{A x}₌_AT_b _{también tiene solución aunque sea} _r₍_A₎_{< n}_. Nótese que esa será la situación t´ıpica para una matriz que “parece singular” debido a su gran tamaño y la precisión finita de los números (el ejemplo mencionado antes de SEL sobredeterminado). Nótese también que la igualdadIm(AT_A_{) =}_Im₍_AT₎_{equivale a la ya probada antes, gracias a}

Im(AT_{) =}_Ker₍_A₎⊥

• Si en el SELAx =b (con rango = n = no. de columnas) hacemos la factorizaci´on A =QR , el

factorR es regular, y la igualdadQT_Q₌_In _permite

−reducir la ecuación a Rx=y=QT_b _{, lo que ya selecciona la solución LS, si}_{m > n}_, −y a continuación resolver Rx=ypor sustitución hacia atrás.

•UsandoGram-Schmidtsobre las columnas Aj de

A=     1 2 0 3 1 0 1 1 −1 0 1 1 1 2 2 1    

hallar vectores ortonormalesqi que cumplan_L{q1, . . . , qk_}=_L{A1, . . . , Ak_} para cadak. •Escribir el resultado comoA=QR, y usarlo para hallarA−1 _resolviendo_RX₌_QT _. • Sea B la matriz formada por las columnas A1, A2 de A . Encontrar la solución por m´ınimos cuadradosdel SEL incompatibleBx=e3 , reciclandolos cálculos anteriores (es decir, utilizando lo ya calculado con la mayor y más astuta pereza posible).

E 2.7 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1 ... continuaci´on.

SeaAcomo antes una matriz conmfilas,n < mcolumnas. DEFINICION:

Llamamosseudo-inversa28_A[−1] _de_A _{a la matriz (}_AT_A₎−1_AT _{, que cumple:} A[−1]_A₌_In _, _AA[−1]_b₌_b _si_b_∈_Im₍_A₎

Observaciones:

• Cuando rango = n´umero de filas, como le sucede aB =AT _{, tambi´en hay una} _{inversa a}

un lado, la matrizC =BT₍_BBT₎−1 _{, que cumple}_BC ₌_I _{. En este caso, el SEL}_Bx₌_b _s´ı

tiene soluciones (infinitas siB no es cuadrada), pero

x=Cbes la que tiene |x| m´ınimo posible .

Para ver por qu´e, observar queCb∈(Ker B)⊥ =Im(BT_{) , y que es soluci´on:} _B₍_Cb_{) =}_b _,

luego cualquier otra esx=Cb+ucon u∈Ker B , y se tiene |x|2₌_|_Cb_|2₊_|_u_|2 _.

•En la factorizaci´onQR, la matrizRrecoge los coeficientes con los quecombinamos columnas

deA para producir las de la matriz ortogonalQ= (qj). Pero se puede hacer al rev´es:

usarfactores ortogonales a la izquierda deA parairla convirtiendo en triangular superior.

Eso es lo que hacen losfactores Householder, usando la misma idea que ya vimos en la factorizaci´on LU: la de unalgoritmo recursivo al que le basta “limpiar la primera columna”, y recomenzar con tama˜non₋1 :

∗ H1 es una simetr´ıa que transformav1 en_±|v1_|e1: H1(x) =x₋2(u_·x)/_|u_|2 _{, con}_u₌_v1

± |v1_|e1 ;

(el signo se escoge para evitar queusea unadiferencia peque˜na);

∗ Hk hace lo mismo con el bloquei, j_≥k, dejando fijos los vectorese1, . . . , ek−1 , de modo

que los ceros creados en las columnas anteriores permanecen.

28_{ATENCION: La notaci´}_on_A[−1]_{NO es est´}_{andar, sino una propuesta que hago para usar entre nosotros, y tiene la virtud}

de ser nemot´ecnica: alude a una inversa, y el[ ]_{recuerda la forma (m´}_{as cols que filas) de}_A[−1]_{; por desgracia, la notaci´}_on

(13)

Por lo tantoel producto R=Hn₋1· · ·H1A es triangular. Si usamos este proceso para

llegar aA=QR, la tarea de resolverAx=bse reduce a:

1) aplicar cadaHk a bpara obtenery=QT_b _{(no necesitamos calcular} _Q_);

2) resolverRx=y, por sustituci´on hacia atr´as.

• Para la misma matrizA del E 2.7, hallar la primera de las simetr´ıas de Householder

que dan una factorizaci´on29 _{QR, y usarla para “limpiar” la primera columna de}_A_.

• En el caso de una matriz cuadrada, el factor Q es una matriz ortogonal, que vista como función,conserva las longitudes de los vectores;con esta idea y la igualdad A=QR, probar que siAtiene columnasAj, es |det(A)| ≤0j|Aj| . ¿Qué significado geométrico tiene esa desigualdad?

•Reescribir el algoritmo deGram-Schmidten el siguienteorden modificado: Para cadak ,qk=vk/_|vk_|, y restar de cadavj ,j > k, su proyección sobreqk . •Hallar el coste aproximado en f lops30 de resolver Ax=b , para unb arbitrario, con cada uno de los dos métodos QR (Gram-Schmidt y Householder), incluyendo el de la factorización. Comparar con LU.

E 2.8 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] Escribir la seudo-inversa de la matriz}_B_del_{E 2.7}_{, y la}_{inversa a la derecha} _C_{de su traspuesta}_BT_.

La matrizChallada no es la ´unica que cumpleBT_C₌_I_{; para entender por qu´e, ver (y razonar) lo que}

ocurre al sumar un vector deKer(BT_{) a cualquier columna de}_C_{. Explicar por qu´e la seudo-inversa de} B tampoco es su ´unica “inversa a la izquierda”, pero probar que cumple lo siguiente:

cada vector fila f de la seudo-inversaX tiene el m´ınimo posible _|f_|2 bajo la condici´onXB=I . Una nueva mirada a los m´etodos iterativos.

Recordemos la descripci´on com´un de Jacobi y Gauss-Seidel:

Si partimos la matriz del SEL Ax=b como A =S₋T para definir las iteradas xk que

aproximen la soluci´on exacta ˙x, tenemos las igualdades Sx˙ =Tx˙+b

Sxk+1=T xk+b y las DEFINICIONES:

ek =xk₋x˙

∆xk=xk+1₋xk= ∆ek rk =b₋Axk=₋Aek

Restando, Sek+1=T ek , y de esa igualdad se deducen:

/

S∆ek = (T ₋S)ek=₋Aek=rk T∆ek = (T−S)ek+1= rk+1

luego ek+1= (S−1_T₎_ek _{, pero} _rk+1_{= (}_{T S}−1₎_rk _{. La igualdad} _S_∆_xk₌_rk _{nos dice}

que el m´etodo iterativo usado equivale a

calcular el siguiente paso y= ∆xk resolviendo el SELSy=rk .

Esta manera de mirar el problema permite comparar intuitivamente con las iteraciones del Tema 1; imaginemos que nos estamos acercando al objetivo geom´etricamente31_{, con raz´on} _{r <}_{1 ; en ese caso,}

dar pasos un poco mayores nos llevará más rapido hacia él (es la idea de la extrapolación de Aitken, que usa, claro, un criterio razonable para elegir cuánto más grandes); eso si es r > 0 , porque si fuese −1 < r < 0 , lo bueno serán pasos más pequeños; más aún: recortando los pasos podr´ıamos incluso

convertir en convergente el proceso cuandor <₋1 .

La materializaci´on de esta idea es: elegir ∆xk resolviendo S∆xk=ω rk , para alguna ω >0

(“constante” que se puede ir variando), y sufre el nombre derelajaciónsi esω <1 , y peor aún, sobre-relajación sucesiva, ‘SOR’, si ω >1 ; por motivos más largos de explicar, constantes ω _∈ (1,2) son

útiles en muchos casos de interés; y eso tiene que ver con un detalle importante: pese a que venimos hablando, para simplificar la analog´ıa con el caso de dim = 1, de la norma ||DG|| , la cantidad que importa (verE 2.9) es elradio espectral: el tamaño del mayor autovalor de la matrizDG.

29_{Eso es lo que hace la funci´}_on_qr(A)_de_Matlab_{. Pero como se ver´}_{a, este c´}_{alculo a mano es incomod´ısimo.} 30_{Contar s´}_{olo productos +cocientes +ra´ıces cuadradas.}

31_{La debilidad de esa comparaci´}_{on es que ahora estamos en dim}_>_{1 ; pero eso queda mitigado por el hecho siguiente:}

cuando iteramos una función lineal cuyo mayor autovalor sea real, todo “va cayendo” sobre su dirección de autovalores, haciendo como si la dimensión “colapsara” a 1; ¡esa será la idea clave de los métodos para calcular autovalores!

(14)

Algunas ideas m´as sobre QR y problemas LS.

• Como se ha visto ya en cursos anteriores, el producto escalar ordinario no es el ´unico que hay, y

laortogonalizaci´on se puede hacer respecto de cualquiera de ellos. Si por ejemplo tomamos en el espacio vectorial

P olN ={polinomiosp(x) =*N_k=0akxk_}

el producto escalar dado por< f, g >=1₋1₁f(x)g(x)dx , y si llamamosv0, v1, . . .a los monomios

1, x, x2_{, . . .}_{, es f´acil comprobar que sus “ortogonalizados”}_wk _{son los polinomios} w0= 1 , w1=x , w2=x2

−1/3 , w3=x3

−3x/5 , . . .

Estos son los llamadospolinomios de Legendre, que además de su relación con la ED de igual nombre, juegan un papel importante en el Cálculo Numérico. Vemos los primeros de ellos en el siguiente gráfico, normalizados de modo que todos cumplanwk(1) = 1 .

Applications of Legendre polynomials in physics Legendre polynomials are useful in expanding functions like

where r and r' are the lengths of the vectors and respectively and ! is the angle between those two vectors. This expansion holds where r > r'. This expression is used, for example, to obtain the potential of a point charge, felt at point while the charge is located at point . The expansion using Legendre polynomials might be useful when integrating this expression over a continuous charge distribution. Legendre polynomials occur in the solution of Laplace equation of the potential, , in a charge-free region of space, using the method of separation of variables, where the boundary conditions have axial symmetry (no dependence on an azimuthal angle). Where is the axis of symmetry and " is the angle between the position of the observer and the axis, the solution for the potential will be

• Como la ortogonalidad es de lo que está hecha la definición de la SVD, no es sorprendente que la Prueba de su existencia (ver APENDICE al final de este Tema) se base en un problema de optimización. Esa Prueba permite ver por qué los problemas de “m´ınimos cuadrados” suelen ser reformulables como problemas de “máximos cuadrados”: encontrar el máximo valor posible para alguna suma de_{| |}2 _{de ciertos vectores. Son esas sumas las que se suelen nombrar con el término}

metafórico deenerg´ıa, como las expresiones de ese tipo (energ´ıa cinética) que aparecen en Mecánica. Como muestra la Prueba, la SVD permite resolver, “con la m´ınima pérdida de energ´ıa posible”, el problema de aproximar la matriz dadaAcon otra que tenga rangok < rango(A) .

• La definici´on de soluci´on LS para un SEL sobredeterminado es un primer ejemplo de una idea

general que, igual que en la Mecánica Clásica, brota por doquier en Matemáticas, y en particular en los métodos Numéricos: la “equivalencia” entre ecuaciones y problemas de optimización. Muchos de los SEL “muy grandes” que se necesita resolver, proceden de métodos basados en variantes de esa idea, como el de Elementos Finitos; y a su vez, esa equivalencia es el motor de los métodos iterativos más sofisticados para resolver un SEL, y la que los conecta en ciertos casos con losmétodos directos (como son LU o QR), hasta casi borrar la frontera entre ambos.

• ¿Por qué iterar para conseguir aproximaciones si tenemos métodos directos32_{, que dan en un número}

fijo de pasos un resultado potencialmente exacto? Se puede dar como primera respuesta:

O(n3₎_{f lops}_es_{demasiado coste} _si_n_{es muy grande: ¡la matriz misma s´olo tiene}_n2 _elementos!

Pero hay m´as motivos:

•hay matrices A gigantescas para las que alg´un “truco” permite calcularAxparaxdado con un

coste pequeño, mientras que “manipular sus entradas” está fuera de nuestro alcance; para ese caso hay métodos iterativos que usanAcomo unacaja negra que permite calcular los residuales; 32_{Esos m´}_{etodos son desde luego lo que se usa para resolver}_Ax₌_b_si_A_{no es MUY grande.}

(15)

•muchas matricesAson “esencialmente singulares”, porque el cocienteσk/σ1de sus valores

singu-lares es desde˜nable a partir de ciertok=r; en ese caso, todo el “funcionamiento deA” se reduce a

lo que hace con el subespacio_L{v1, . . . , vr_} ; hay m´etodos iterativos que tratan de ir aproximando

ese subespacio ycalcular la soluci´on buscada dentro de ´el;

• el otro gran problema del Algebra Lineal Num´erica: hallar los autovalores de A , no admite

m´etodos directos, porque eso supondr´ıa poder hallar “exactamente” las ra´ıces de un polinomio de grado arbitrario: por encima de n = 2 , lo ´unico que podemos esperar para ese problema son

m´etodos iterativos, que explotan la idea ya citada: al iterarA se va cayendo al subespacio donde

se alcanzan sus mayores autovalores.

•Para la matriz33_:

A=

& _{1 1} 1 2

'

comprobar las siguientes cosas:

i) la derivadaS−1_T _{de la iteración de Gauss-Seidel tiene norma}_>₁_{, pero}_{radio espectral}_<₁_; ii) si multiplicamos cada incremento ∆xk por una misma constante w , la derivada de la iteración se convierte en I−wS−1_A_{, cuyo radio espectral es a´}_{un menor para alg´}_un_{w >}₁_. •Inspirándose en ese ejemplo, estudiar en qué se convierte cada autovalor real o complejoλ deS−1T al pasar dew= 1(Gauss-Seidel) a otros valores dew, y deducir que wsólo puede

ayudar si est´a en (0,2). (Indicaci´on: la matriz T es singular.) E 2.9 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[_•∗_{] El problema de hallar la}_{solución LS} _{de un SEL} _{sobredeterminado} _Ax ₌_b _{, con}_rango₍_A_{) = su} número de columnas, tiene como solución: x= A[−1]₍_b_{) , y como esa función (la seudo-inversa de} _A₎

tieneKer_/=_{0_} , esκ(A[−1]_{) =}

∞. Pero podemos fijarb, y buscar κ(A[−1], b) = max δb & |δx| |x_| : |δb| |b_| '

dondeδbes el error con el que entrab en el c´alculo, y A[−1]₍_b₊_δb_{) =}_x₊_δx_.

Probar que en ese caso

κ(A[−1], b)≤||A|| · ||A [−1]

|| c

conc=_|πA(b)_|/_|b_|= coseno del ´angulo entreby laIm(A) ; y que ese valor se alcanza sixes paralelo al v1 de la SVD deA , es decir, siπA(b) es paralelo aA(v1) .