• No se han encontrado resultados

A paso k = 1 : paso k = 2 : l i /5 27/5 , M 2 =

N/A
N/A
Protected

Academic year: 2021

Share "A paso k = 1 : paso k = 2 : l i /5 27/5 , M 2 ="

Copied!
21
0
0

Texto completo

(1)

TEMA 2. Algebra lineal num´erica.

Eliminaci´on gaussiana y factorizaci´on LU. Valores singulares, din´amica de errores y pivotaje. M´etodos iterativos.

Factorizaci´on QR y problemas de m´ınimos cuadrados. C´alculo de autovalores.

Repaso de Algebra Lineal. El m´etodo de Gauss para resolver un S.E.L.Ax =b (que suponemos

compatible determinado), tal como lo hemos visto en Algebra Lineal, sigue estas etapas:

Restando m´ultiplos de la 1a. ecuaci´on1, anulamos en las dem´as el coeficiente de la

inc´ognitax1 . La operaci´on se repite con el SEL en n1 inc´ognitas que forman ahora las n1 ´ultimas ecuaciones, y as´ı sucesivamente, ... hasta que las necuaciones formen un SEL

triangularU x=c.

La inc´ognitaxn se despeja de la ´ultima ecuaci´on, y su valor se sustituye en cada una de

las ecuaciones anteriores, pasando ese sumando al t´ermino independiente. De ese modo las

n−1 primeras ecuaciones forman un SEL triangular enn−1 inc´ognitas, con el que se repite

el procedimiento hasta despejarx1 .

La forma como hemos descrito este algoritmo enfatiza su car´acter recursivo: cada etapaconsta de pasos id´enticos, realizados cada vez sobre un SEL m´as peque˜no.

La primera se llamaeliminaci´on; la segunda, sustituci´on hacia atr´as. Vamos a a˜nadir ahora a esta idea dos nuevos puntos de vista.

Eliminaci´on factorizaci´onLU .

Observemos lo que hace la etapa de eliminaci´on con la matrizAde coeficientes: el paso 1 de esa etapa

consiste en restar a cada filai >1 la fila 1 multiplicada por li1:=ai1/a11 , y eso equivale a multiplicar

a la izquierda por la matriz M1 construida de este modo:

en cada lugar i1 (coni >1) de la matriz unidadI , se coloca el n´umero li1.

Por lo mismo, el pasok, que usa comopivotela entrada actualizadaakk para hacer ceros bajo ella,

equivale a multiplicar por unaMk que tiene los lik:=aik/akk bajo el lugarkde la diagonal deI.

En el ejemplo que sigue vemos losmultiplicadoreslikde cada etapa y el bloquei, j > kque resulta

tras ella (se representan con las entradas que ya no cambian), y debajo lasMk:

A paso k= 1 : paso k= 2 : li1 li2 1 1 2 ∗ ∗ ∗ 2 3 3 2 5 1 ∗ ∗ 0 2 5 0 2 5 2/5 27/5 M1=   12 1 0 1   , M2=   1 1 2/5 1  

Al final, tras losn−1 pasos (2 en este ejemplo), hemos llegado a la matriztriangular superior

U =M2M1A=   1 51 21 27/5  

Pero obs´ervese lo siguiente: si le hacemos esas mismas operaciones a la matrizLque se forma poniendo todos los multiplicadoreslik bajo la diagonal de la matriz unidadI ,

cada pasoklimpia definitivamente la columnakbajo la diagonal, de modo que Mn−1· · ·M1 L=I

lo que implica queLes la inversa del productoMn−1· · ·M1 , y por lo tanto LU =A .

1Suponemos que esa11!= 0 , pero de lo contrario basta poner otra ecuaci´on en el primer lugar; o visto de otro modo, el

(2)

En resumen: la eliminaci´on ha “consistido” en encontrar dos matrices triangularesL, U (inferior y

superior resp.) tales queA=LU , y elalgoritmoque produce2 los factoresLU , es: Inicio: L:=I .

Para k= 1, . . . , m , fila k de U := fila k de A ; y para cada fila i > k ,

lik:=aik/ akk , % los multiplicadores forman L

aij :=aijlikakj , para cada j > k. % la fila i de A, modificada

La resoluci´on del SELAx=bse puede ver ahora de este modo:

en la primera etapa, al aplicar ablas operaciones de filas queequivalen a multiplicar porL−1, se

est´a hallando la soluci´on c=L−1b del SEL Lx=b ;

y en la segunda (eso ya estaba claro) se resuelve el SEL U x=c .

OBSERVACIONES:

La matriz Lse puede considerar en este m´etodo como un simple “dep´osito de los multiplicadores lik” para su uso al calcular c=L−1b ; n´otese que en ning´un momento necesitamos calcular ni utilizar

literalmente ninguna de las dos inversasL−1,U1.

Por otro lado, todo ello se puede hacer con una columna o con muchas a la vez, para resolver la

ecuaci´onAX=B . Por ejemplo, si queremos calcular la inversa de unaAque sean×n:

hallar X tal queAX=I , equivale a3resolverAXj=ej para cada vector unidadej . ¿Para qu´e queremos esa interpretaci´on del m´etodo de Gauss comoLU?

Hay dos respuestas:

1) nos ayudar´a a entender lo que pasa con los errores en el proceso; 2) nos da el modo correcto de gestionar la situaci´on siguiente:

hay que resolver varios SEL con el mismo Apero distintosb, que no conoceremos a la vez4;

el procedimiento es ´este: hacer conAel proceso de eliminaci´on, guardar las dos matricesL, U , y usarlas

luego en la forma descrita con cada bque nos vaya llegando.

La factorizaci´on LU se puede hacer tambi´en5 con una matriz m×n; en ese caso,U es del mismo

tama˜no queA, yLes regular6de ordenm.

Factorizaci´on LU partir en sumandos de rango 1.

Esta afirmaci´on es cierta para cada producto de matrices (equivale a la definici´on de ese producto):

LU = m

%

k=1 Lkvk

dondeLk son las columnas deL yvk las filas deU .

Pero en este caso sirve para hacer transparente elcar´acter recursivode la operaci´on: el productoL1v1

tiene exactamente las mismas primera fila y columna queA =LU , y cada factorLk, vk comienza con

un 0 sik >1 , de modo que el resto de la suma, si suprimimos esos ceros, es exactamente la factorizaci´on

LU del bloquei, j >1 en la matrizAL1v1, que tiene nulas sus primeras fila y columna.

Podemos por lo tanto ver el proceso as´ı: el paso 1 calcula el productoL1v1que, restado aA, “elimina”

esas primeras fila y columna y reduce as´ı el tama˜no restante del problema.

En el caso de una matrizregular n×n, las dos matricesL, U son tambi´encuadradas y regulares.

En el caso de una matriz m×n con rango r , la filavk de U ser´a nula para cada k > r , luego la

suma s´olo necesita llegar hastak=r; es decir: podemos suprimir esas filas nulas y las correspondientes

columnas deL, y dejar unos

factores reducidos: A= ˆLUˆ , con dimensionesm×r,r×n, donder=rango(A) .

2Si no sale ning´un pivote nulo, claro.

4Veremos un ejemplo de esa situaci´on (muy frecuente en el C´alculo Num´erico) al estudiar la versi´onn-dimensional del

m´etodo de Newton.

5A condici´on de que, igual que supon´ıamos antes, el proceso no tropiece con ning´un “pivote nulo”; una condici´on necesaria

para ello es queAtenga rango m´aximo, es decir = min(m, n) .

(3)

Se dan las matrices A=   1 2 01 0 1 1 0 1  , E= & 1 1 2 2 3 3 ' . •Factorizar como productoLU cada una de ellas.

El pasok= 1 del algoritmo utilizado para ello puede verse de este modo:

toma la filaf1 deAcomo primera deU , y la columna A1/a11 como columnaL1, resta aAel producto L1f1 , que tiene las mismas primera fila y columna queA.

El proceso recomienza entonces con la matriz B de tama˜no (m1)×(n1) que resulta al suprimir esas lineas de ceros. Deducir por inducci´on el n´umero de operaciones que cuesta hallarL, U para una matrizm×nque tenga rango m´aximo: r=min(m, n).

Resolver simult´aneamente, por eliminaci´on y sustituci´on regresiva los tres sistemas Ax=ei , donde losei ,i= 1,2,3son los vectores unidad. Partiendo de ese ejemplo, deducir el n´umero de operaciones que cuesta hallar de este modo la inversaA−1de una matrizn×n. E 2.1 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] El algoritmo LU podr´ıa trabajar en otro orden: por ejemplocomenzando en k=n(siAesn×n), y usando el bloquei, j < npara la siguiente etapa, pero ¿qu´e forma tendr´ıan entonces las “L, U” halladas?

¿Equivale eso a hacer la factorizaci´onLU deAcon sus lineas ordenadas de otro modo? Explicar.

¿Es la respuesta a esta pregunta igual si cada vez escogemos cualquier entrada no nula del bloque restante7como pivote?

Tema 2: BIBLIOGRAFIA Y COMENTARIOS.

El Cap´ıtulo 10 del libro

Sanz-Serna: Diez Lecciones de C´alculo Num´erico

se dedica a este asunto del Algebra Lineal, pero cubre s´olo las primeras ideas que sobre ese asunto veremos en esta asignatura. Por eso necesitamos el

Strang: Introduction to Linear Algebra

y en primer lugar lo que se explica (magistralmente) en su Cap´ıtulo 2, una buena parte de lo cual ya habremos aprendido en el curso de Algebra Lineal. Como en este caso estamos hablando de un libro “m´ultiple” (sucesivas ediciones, bajo dos t´ıtulos distintos):

Algebra lineal y sus aplicaciones. Fondo educativo iberoamericano, 1982 Algebra lineal y sus aplicaciones. Addison-Wesley Iberoamericana, 1986 Linear algebra and its applications. Thomson, Brooks/Cole, 2006 Algebra lineal y sus aplicaciones. Thomson, 2007

Introduction to linear algebra. Wellesley-Cambridge Press, 1998, 99, 2003

de todos los cuales hay ejemplares en nuestras Bibliotecas, conviene que cada cual revise con cuidado el ´ındice de su libro para ver d´onde va encontrando cada cosa.

Es tambi´en recomendable un vistazo a su p´agina: http://www-math.mit.edu/gs/ Nota hist´orica:

En los otros Temas de este programa aparece varias veces el nombre de Newton (1643-1727), y en efecto la mayor´ıa de las ideas clave expuestas en ellos, ya hab´ıan nacido en el siglo XVII y se desarrollaron del todo en el XVIII, aunque la presencia de los ordenadores las haya hecho m´as potentes y aplicables, y la Teor´ıa de Conjuntos haya provocado muchos cambios en nuestro modo de expresarlas.

En este Tema la historia es distinta: aunque las ideas b´asicas para resolver ecuaciones lineales son a´un m´as antiguas, el lenguaje del Algebra Lineal no se consolid´o hasta comienzos del siglo XX, tard´o m´as que otro medio siglo en empezar a ser bagaje com´un de los cient´ıficos (un proceso a´un incompleto en muchos sentidos), y s´olo ese lenguaje, una vez instalado, permiti´o entender en profundidad lo que ocurre al resolver un SEL, o en general al calcular con matrices. A partir de los a˜nos 1950, la presencia de los ordenadores (cuya potencia de c´alculo ha crecido en esas d´ecadas por un factor > 109) ha hecho nacer en este campo muchas ideas nuevas, y cambiar la relevancia de las ya conocidas, de modo que el juicio sobre “qu´e ideas sobre

el c´alculo efectivo en Algebra Lineal es esencial entender”ha debido reformarse varias veces recientemente, y parece que esto seguir´a ocurriendo.

(4)

Qu´e hace una funci´on lineal IRn

IRn con las longitudes de los vectores.

Las “m´as simples” son:

lasortogonales, definidas por la igualdad QTQ=I , que equivale a la afirmaci´on de que Qconserva las distancias: |Q(x)|=|x| para cadaxIRn

y a las que llamaremosgiros o simetr´ıas seg´un sea el signo de su determinante.

Prueba de la equivalencia: llamandoxalvector columnax, es inmediata la implicaci´on QTQ=I

|Q(x)|2= (Qx)TQx= |x|2

Para, basta observar que si Qconserva distancias, tambi´en ´angulos, y en consecuencia tambi´en productos escalares, en particular los de cada par de vectores unidadei, ej .

lasdiagonales D=    s1 ... sn   

que simplemente multiplican cada coordenadaxk por el n´umerosk , de modo que (sin= 2) la bola

unidadB={|x| ≤1} se transforma enuna elipse de semiejes|sk|:

By su imagen por D= & 1 .7 0.8 ' : !1.5 !1 !0.5 0 0.5 1 1.5 !1 !0.5 0 0.5 1

lassim´etricas: ST =S , que son “como las diagonales, si giramos los ejes”.

Teorema: (visto en Geometr´ıa )

DadaS=ST , hay una base ortonormal

{uj}tal que Suj =sjuj para ciertossjIR.

By su imagen por S= & 2 1 1 1 ' : !2.5 !2 !1.5 !1 !0.5 0 0.5 1 1.5 2 2.5 !2 !1.5 !1 !0.5 0 0.5 1 1.5 2

Si llamamosU a la matriz (ortogonal) cuyas columnas son lasuj , la afirmaci´on es: SU =U D para la matriz de diagonal (sj) .

LaSVDque veremos ahora nos dice que en un sentido algo m´as d´ebiltodas las matrices son as´ı:

Teorema.8 Descomposici´on en valores singulares,SVD:

DadaA:IRn IRm , hay bases ortonormales{uj} enIRm ,{vj}enIRn , tales que Avj =σjuj para ciertosσ1σ2. . . σn 0 . Es decir: AV =U D ,

dondeU, V tienen columnasuj, vj, yDtiene el tama˜no deAy los n´umerosσken su diagonal. 8Lo probaremos m´as adelante.

(5)

By su imagen por A= & 2 1 0 1 ' : !2 !1.5 !1 !0.5 0 0.5 1 1.5 2 !1.5 !1 !0.5 0 0.5 1 1.5 OBSERVACIONES Y CONSECUENCIAS:

En dim>2 “todo es igual”: la bola unidadBse transforma enuna hiperelipse de semiejes σk . ComoV VT =I , podemos despejarA y la igualdad queda: A=U DVT =*

kσkukvkT

La afirmaci´on clave del Teorema es que ambas bases son ortogonales; sin ella, el Teorema ser´ıa

casi trivial, pero no dir´ıa nada sobre qu´e hace A con las longitudes de los vectores, y de eso se

trata: como las funciones ortogonalesU, V dejan invariantes todas las longitudes, el significado del

Teorema es que, a esos efectos,Aes id´entica a la matriz diagonalD .

Losvectores singularesvk son los autovectores en el caso de unaAsim´etrica, pero puesto que se

toman ahora distintas bases de salida y llegada, nos podemos permitir que losvalores singulares σk sean 0 ; tanto eso como el tomarlos en orden decreciente es un conveniomuy sensato, como iremos viendo. Por ejemplo, el rangor=r(A) coincidir´a con el deD, luegoσrser´a el ´ultimo>0 . En el caso de una matriz regular n×n , el n´umero κ(A) =σ1/σn da la excentricidad de la

hiperelipse en el plano en que ´esta es m´axima, y va a ser muy relevante en lo que sigue.

En el caso general, la hiperelipse est´a encerrada en el subespacioIm(A) =L{u1, . . . , ur} ⊂IRm,

y el hecho de que los restantesσk son = 0 permite, como hicimos paraLU , escribir la igualdad A=U DVT en forma reducida:

A=*rk=1σkukvT

k = ˆU DVˆT

donde s´olo hemos dejado las primerasrcolumnas deU y filas deVT , yDes regular r ×r. La afirmaci´on del Teorema implica queσ2

k son los autovalores de S =ATA=V D2VT =ST ,

y vk las correspondientes direcciones de autovectores. Esto permite calcular a mano la SVD en

ejemplos peque˜nos (como el de arriba), pero NO es un m´etodo razonable de c´alculo para matrices grandes, ya veremos por qu´e.

•Probar queAV =U D , conU, V ortogonales yD diagonal, implica que las columnasvj de V son autovectores de la matrizATA.

En cada uno de los 5 casos siguientes calcular la SVD y el valor κ(A) , y dar un gr´afico aproximado: A= & 2 11 10 5 ' ; A=   1 10 1 0 1   A= & ε 1 1 0 '

, y cada uno de sus factores LU=

& 1 1 1 ' & ε 1 1 '

dondeεes alg´un n´umero muy peque˜no9. E 2.2 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] La afirmaci´on de existencia de la SVD es casi trivial si no exigimos que los uk sean ortogonales: explicar c´omo tomar una baseortonormal {vk}y vectores unitarios uk que cumplan lo pedido.

(6)

Factorizaciones inestables.

Pensemos para empezar en la operaci´on lineal x=F(a) m´as inocente posible: a= + a1 a2 , + M a1 M a2 ,

dondeM es “grande”10. Veamos qu´e ocurre si en vez de hacerla en las dos etapas “naturales”: a= + a1 a2 , + M a1 a2 , + M a1 M a2 ,

sefactoriza de este modo: usando ai=s±d, con 2s=a1+a2, 2d=a1−a2, definir las funciones

lineales F1(a) = + M s+d M s−d , , F2(a) = + s+M d s−M d , que tienen composici´onF2◦F1=F , y calcular

a→b=F1(a)→F2(b) =M a

Ning´un problema si la aritm´etica es exacta, pero ¿si no lo es . . . ?

No es dif´ıcil comprobar11 que ambasFi tienen autovaloresM,1 , y que la etapa F2 ampliar´a los

errores de redondeo que entren enb , haciendo que seanO(M2εM) en la direcci´on v= (1, 1) . Para ver en forma general lo que ocurre en este ejemplo, recuperemos la definici´on (vista en la

Introducci´on) deκ(F, a) , que para una funci´on linealF se convierte en κ(F, a) = sup

|u|=1|

F u| |a| |F(a)| =σ1

|a|

|F(a)| , donde σ1 es el primervalor singular deF .

En este caso, a˜nadimos otra definici´on (a´un m´as pesismista):

DEFINICION: Llamamosκ(F) al “peor caso posible”: κ(F) = sup(F, a) .

Por ejemplo, siF es diagonal con autovalores σ1 ≥. . .≥σn , lo peor posible es tener datoa=en

con errorεe1, y entonces

κ(F) =κ(F, en) =σ1/σn

Como el cambio a una base ortonormal, o la composici´on con una funci´on ortogonalQ, conserva

todo lo que se refiere a tama˜nos, cada funci´on linealF se comporta a este respecto como el factor Dde su SVD F =U DVT ; es decir :

κ(F) =κ(F, vn) =σ1/σn

En el ejemplo anterior eraκ(F) = 1 , pero la causa del problema esκ(F2) =M .

Estamos t´acitamente suponiendoσn >0 , que no es posible siF :IRn IRmcon m < n; en tal

caso12, y en general siKer(F)

/

={0} , esκ(F) =, y lo ´unico que puede interesar esκ(F, a) . Si F tiene inversa F−1 =A , es f´acil razonar que los valores singulares de F son inversos de los

deA (la definici´on de la SVD se vuelve simplemente del rev´es, con losvi ,ui intercambiando sus

papeles), luego en ese casoκ(A) = (1/σn)/(1/σ1) =κ(F) .

Por ejemploκ(A) =κ(A−1) es el peorκposible del problema “hallarxtal queAx=b”.

El ejemplo del comienzo es totalmente irreal, pero sirve para entender el problema que se presenta realmentesi en la factorizaci´onLU usamos pivotes peque˜nos, y su relaci´on con los valores singulares,

cualquiera que sea la dimensi´on.

10Pensemos para fijar ideas enM= 109. 11Ver ejercicioE 2.3.

12Recordar el ejemploF(a

(7)

Por qu´e y c´omo pivotar al hallar LU . En ejemplos tan inocentes como el giro A= & 1 1 '

se encuentra uno con un “pivote”= 0 ; en consecuencia no hay factorizaci´onA=LU: hay que cambiar el

orden de las filas y llegar en su lugar aP A=LU , dondePes la matriz quepermuta las filas, coloc´andolas

en el orden en que finalmente han quedado. Supongamos que unε <<1 nos evita esa molestia: A= & ε 1 1 0 ' =& 11 1 ' & ε 1 1 '

Pero ahora, aunqueκ(A)1 , cada factor tieneκ≈12 ; eso es muy f´acil de ver paraU , porque

los vectores unidad tienen im´agenes con|U(e1)|=ε, |U(e2)|>1 , luegoσ2≤ε,σ1>1.

Para ver las posibles consecuencias, supongamosε=εM ; al buscar la soluci´on de Ax=b con b= + 1 1 , =A + 1 ε1 , , resolveremos primero Ly=b y= + 1 11 , y al redondear resulta ˜ y= + 1 1 , =Ux ,˜ x˜= + 0 1 ,

la primera coordenada de la soluci´onxse ha perdido del todo; el ejemplo inicial nos permite ver por qu´e:

laκ(U−1) =κ(U) de la etapayx=U1(y) ha amplificado el error de ˜y, que a su vez guarda relaci´on

con el tama˜no de las entradas deL, y no con las deA.

El remedio es cambiar el orden de las filas, de tal modo que el pivoteakkusado en cada etapa cumpla |akk| ≥ |aik|para cadai > k . Eso implica que los multiplicadores cumplir´an |lik|=|aik/akk| ≤1 , de

donde es f´acil deducir que el tama˜no de las entradas deU crece de manera controlada13. i)Comprobar que las matrices siguientes realizan las dos etapas del ejemplo inicial:

F1=1 2 & M+ 1 M 1 M1 M + 1 ' , F2= 1 2 & M + 1 1M 1M M+ 1 '

Experimentar y observar los resultados del c´alculo ab=F1(a)F2(b) =M a , •usando distintos valores14deM = 10p ,

•usandoa= (1,1) o generando sus coordenadas conrand, •usando las matricesFi o las f´ormulas dadas al principio. ii)Sea A=

& 1

/M 1

1 0 '

. Estudiar lo que ocurre al usar sus factoresLU para resolver

Ax= + 1 /3 1/3 , .

El error proceder´a del redondeo de y = L−1b , y ser´a m´as grave en la coordenada x1 ; comprobarlo, y usar la SVD de U para explicar por qu´e es as´ı. Experimentar con otros ejemplosA=LU en los que aparezcan pivotes peque˜nos, a mano y/o usandoMatlab. E 2.3 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] Probar que si los multiplicadores li1 =ai1/a11 tienen tama˜no 1 , los n´umeros bij , i, j >1 que ocupan esas entradas deAtras la primera etapa de Gauss cumplen

max|bij| ≤2 max{|aij|, i >0, j >1}

Deducir que siAeran×n, las deU cumplir´an maxi,j|uij| ≤2n−1 maxi,j|aij| .

Buscar matrices conn= 2,3,para las que esa desigualdad sea igualdad.

13Veremos sin embargo un detalle curioso en relaci´on con esto.

(8)

Puntos fijos atractores en IRn.

La idea delTema 1era encontrar funciones Gque en el punto cbuscado cumplan

G(c) =c, con|G#(c)|<1 , para estar seguros de que elpunto fijocseaatractor.

El argumento, basado en el desarrollo de Taylor enx=c, era: G(c+h) =c +G#(c)h +G##(c)h2/2! +. . ., luego cuando

|h| →0 ,G(c+h)cG#(c)h lo que implica la convergencia a 0 de losxkcsi|G#(c)|<1 .

Para una G:IRn IRn , el desarrollo de Taylor permite repetir exactamente el argumento15, sin

m´as que decir quec, h, G((c+h) son vectores (columna), y usar en lugar deG#(c) la matrizJ =DG(c) .

Pero ¿qu´e poner ahora en lugar de la condici´on |G#(c)| <1 ? Lo m´as simple es pedir ||DG(c)|| < 1 ,

usando la siguiente

DEFINICION: Para una funci´on linealF , llamaremos16 normadeF a la cantidad ||F||= supu |F(u)|/|u| (que coincide con el valor singularσ1 deF ).

Para el iteradorGcon DG(c) =J , si es||J||< r <1 , y si el vector h=xk−c es peque˜no, xk+1=G(xk) xk+1cJ(xkc) |xk+1c| ≤r|xkc| ,

y por inducci´on, el m´odulo|xkc|< cte·rk . M´etodos iterativos para resolver Ax=b .

Un ejemplo del uso de estos atractores: siA=ST , yS tiene inversa,

Ax=b Sx=T x+b, es decir, la iteraci´on xk+1=G(xk) =S−1(T xk+b) ,

permite aproximar el ˙xque cumple Ax˙ =b , pero hace falta: que la derivadaDG=S−1T sea lo menor posible, y

que resolver cada Sx=c seamucho menos costoso que resolver directamente Ax=b con el

m´etodo de Gauss, donde la factorizaci´on LU ya cuesta n3/3 productos y cocientes.

Las siguientes son dos maneras cl´asicas de concretar esta idea, en caso de seraii /= 0 ∀i ; en ambos

casos hay que sumar en cada paso el coste de evaluarT x+b , pero eso son<2n2 f lops. Jacobi:

S= la matriz diagonal

- a11

... .

; resolver un SEL con esta matriz s´olo cuestan f lops. Gauss-Seidel:

S = la parte triangular inferior deA, incluida su diagonal; resolver un SEL con esta matriz s´olo

cuesta unosn2 f lops : el proceso es id´entico a lasustituci´on hacia atr´as que resuelve U x=c siU

es triangular superior.

Una idea importante: al buscar el ˙xque cumpleAx˙ =b, la imprecisi´on dexk puede evaluarse de dos

maneras: elerror ek =xkx˙ , o elresidual rk =bAxk=Aek . No es dif´ıcil deducir que Sxk+1=T xk+b

Sx˙ = Tx˙+b

/

ek+1=S−1T ek

rk+1=T(ek+1ek) =T S−1 rk

Escribir en t´erminos de las entradasaij deA el algoritmo que realiza un paso y=G(x)del

m´etodo de Jacobi, llamando ahorax, ya lo que antes eranxk, xk+1 , y llamando por lo tanto xi ,yi a sus respectivas coordenadas. El algoritmo ir´a calculandoy1, y2, . . .en funci´on dex. Una vez hecho esto, verificar las siguientes afirmaciones:

•Las operaciones para Gauss-Seidelson las mismas, con la ´unica diferencia de que lasyi ya calculadas (i < k) se usan en vez de esasxi al hallaryk .

En particular, el coste de operaciones es id´entico, y adem´as cadaykse puede ir guardando en el lugar de laxk ; en otras palabras,podemos prescindir de llamarlas con distinto nombre. •Si en lugar de la mitad (triangular) inferior deAtomamosS=la mitad superior deA en

Gauss-Seidel, el algoritmo es id´entico, pero lasyk se calculan empezando17 pork=n. E 2.4 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

15Es tambi´en posible un argumento basado en el TVM, salvo que ´este toma en dim>1 una forma mucho m´as inc´omoda. 16Esto ser´a lo que entenderemos por defecto como “||F||”, aunque muy pronto definiremos otras normas.

(9)

Normas en IRn.

Venimos usando la notaci´on|x|parax∈IRn en el sentido habitual:

|x|2=* ix2i .

Pero hay otras formas, en ocasiones m´as convenientes, de medir el tama˜no de un vector; por ejemplo

|x|∞= maxi |xi| , |x|1= % i |xi| , o en general: |x|p p= % i |xi|p ,

que parap= 2 nos devuelve a la definici´on usual, y que en el l´ımitep→ ∞da la|x|.

Todas ellas cumplen18estas propiedades, que constituyen la definici´on denorma: i) |x| ≥0 , con|x|= 0 sii x= 0 ;

ii) |cx|=|c| |x|para cada constantec ; iii) |x+y| ≤ |x|+|y| (desiguldad triangular).

La figura muestra, parap= 1,2,, losxdel plano con|x|p= 1 ,

y permite deducir, usandoii), que cadaxcumple |x|∞≤ |x|2≤ |x|12|x|∞

No es dif´ıcil extender esas desigualdades aIRn, incluyendo

otros valores dep(1,) :

|x|∞≤ |x|p≤ |x|1 n|x|∞

lo que implica que todas soncomparables: se acotan mutuamente, salvo factoresCn que dependen den.

En consecuencia, para probar la convergencia a 0 de una sucesi´on de vectores (como los errores o los residuales de un m´etodo iterativo, por ejemplo), basta hacerlo con cualquier norma.

Ejemplo: Observando la matriz derivadaB=S−1T =D1(D

−A) del m´etodo de Jacobi (dondeD es

la diagonal deA) se deduce que el vectory= (yi) =Bx se obtiene delx= (xi) de este modo: para i= 1, . . . , n , yi=*j%=iaijxj/aii

y de ah´ı sale|y|≤ |x|siAtienediagonal dominante por filas: *j%=i|aij| ≤ |aii| para cadai .

Pero si esa desigualdad esestricta, entonces

|y|∞≤r|x|∞ , conr= maxi*j%=i|aij/aii|, que ser´a<1 ,

lo que implica que el m´etodo converge.

Normas para A:IRnIRm.

La definici´on||A||= sup|u|=1|Au|, que venimos usando, se extiende autom´aticamente a otros valores

de p , dando las llamadas19 normas inducidas:

||A||p = sup{|Au|p , |u|p = 1} ; por ejemplo, lo

obtenido en el Ejemplo anterior se puede formular as´ı: ||B||∞≤r.

•Comparando la figura de arriba y su imagen porA=

& 1 2 0 2

'

, hallar||A||1, ||A||∞ .

Probar las desigualdades20 |x|

≤ |x|2 ≤ |x|1 ≤n|x|∞ para vectores de IRn, y dar para

cada una un ejemplo de vectorxque la convierta en igualdad.

Usando la recurrencia vista para los errores ek = xk −x˙ de un m´etodo iterativo, y su traducci´on en algoritmo en los casos de Jacobi y Gauss-Seidel, probar, usando |x|∞ , que

ambos m´etodos convergen siAtienediagonal estrictamente dominante por filas:

*

j%=i|aij|<|aii|para cadai. •Si para unaAdada llamamosM = maxi*j|aij|, probar:

i) que|Ax|∞≤M|x|∞ ; ii) que hay vectoresxpara los que se da la igualdad.

Deducir queM =||A||∞. Probar la f´ormula an´aloga para||A||1 , en la que simplemente hay que cambiar filas por columnas, es decir: ||A||1=||AT||∞ .

E 2.5 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] Dar un ejemplo de matriz 2×2 sin diagonal dominante, pero para la cual Jacobi converja.

18Es muy f´acil verificarlas en los casosp= 1,, usando la desiguldad triangular|a+b| ≤ |a|+|b|paraumeros.

Se suele usar la notaci´on||x||para las normas, pero vamos a reservarla aqu´ı para lasnormas de matrices: eso simplifica la escritura y enfatiza qui´enes son vectores y qui´enes matrices en nuestros c´alculos.

19Ya sabemos que||A||2coincide con el valor singularσ 1deA.

Hay otras posibles normas queno son de este tipo; por ejemplo, si vemosAcomo un vector deIRmny le aplicamos la norma|x|2, tenemos lanorma de Frobenius||A||F= (Pi,ja2ij)1/2 .

(10)

Algo m´as sobre normas.

Se deduce de la definici´on (usando de nuevoii)que cada norma inducida cumple: ||AB|| ≤ ||A|| ||B||

y de aqu´ı se deriva una importante relaci´on entre autovalores, normas, y el uso que est´abamos haciendo de ellas para los m´etodos iterativos:

PROPOSICION: Para cada autovalorλdeB y cadap, se tiene||B||p≥ |λ| .

Prueba, siλ∈IR: Siues su autovector, con|u|p= 1 , ser´a ||B||p≥ |Bu|p=|λ| |u|p .

La idea es la misma paraλcomplejo, pero entonces hay que razonar con las iteradasBNu, BNv,

para un autovector complejow=u+ iv, y usar||BN||

p≤ ||B||Np .

De esta Prueba resulta tambi´en lo siguiente: para que las iteradasek+1=B(ek) converjan a 0para

cada vector inicial e0 , escondici´on necesariaque21

cada autovalorλdeB cumpla|λ|<1 .

Por el contrario, cualquier “||B||p<1” escondici´on suficiente(no necesaria) para que converjan.

Tipos de matrices que hemos visto, y alguno m´as.

Algunos de ellos juegan un papel b´asico en Algebra Lineal: diagonales, ortogonales, sim´etricas. Adem´as de ´estas, como ya hemos empezado a ver, hay otras esenciales en los m´etodos num´ericos: por ejemplo lastriangulares, lasdiagonal-dominantesy lasdefinidas-positivas(ver abajo).

Las matrices que proceden de las aplicaciones suelen tener dos propiedades: una “peligrosa”: sermuy grandes22; otra que “puede ayudar”: tenermuchos ceros, con una cierta estructura; ejemplo: las matrices banda, que son nulas en|ij|> d, para alg´und << n. Se las llama en general matricesdispersas23.

Algunos ejemplos de c´omo el tipo de matriz influye o interviene en los m´etodos estudiados:

LU se realiza sin necesidad de pivotar siAtiene

diagonal dominante por columnas: *i%=j|aij| ≤ |ajj|para cadaj

Basta probar dos cosas:

1)a11ser´a el pivote de la etapak= 1 (evidente);

2) tras esa etapa, el bloqueB de las{aij ,i, j >1}, hereda esa propiedad.

Si Aes una matriz banda de anchura 2d+ 1 (es decir, nula para|i−j|> d), y si hacemos

LU sin pivotar, los dos factoresL, U heredan esa estructura.

Para una matrizsim´etricaAque seadefinida-positiva, es decircon sus autovalores>0,

el algoritmo LU puede modificarse para producir lafactorizaci´on de Cholesky:

A=L LT =*

kvkvkT , que refleja la simetr´ıa de A.

Para entender c´omo y por qu´e, conviene probar antes tres cosas m´as generales:

1) SiAes regular, la factorizaci´onA=LU (con diagonal deL≡1), si existe, es ´unica. 2) SiAes sim´etrica y se puede factorizar sin pivotar, entonces U =DLT .

3) SiAes sim´etrica, el que seadefinida+equivale a que seaxTAx >0 para cadax, e implica que cadasubmatriz principal A(K, K) dondeK⊂ {1, . . . , n} tambi´en esdefinida+; que la factorizaci´on LU se puede hacer sin pivotar, y todos los pivotesukk son>0 . Partiendo del c´odigo que se escriba para hallar LU sin pivotar, ver c´omo modificarlo para hacer las siguientes cosas, en el caso de que elinput Asea una matrizdefinida+:

•En lugar de dar al factorLdiagonal de unos, dejar en su diagonal la raiz cuadrada de cada pivote, para que lasL, U que resulten sean traspuestas una de la otra24.

•Puesto que las entradas deL, Uson iguales, se puede ahorrar casi la mitad de las operaciones, si se modifica el c´odigo de manera adecuada25. El resultado ser´a elalgoritmo de Cholesky. E 2.6 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

21Veremos pronto que tambi´en es suficiente.

22Ya sabemos que el significado de ese adjetivo, adem´as de no ser formalizable, va cambiando junto con loschips. 23O “huecas” en otras traducciones,sparseen ingl´es. Naturalmente, la definici´on debanda(cuyo casod= 0 son las

diagonales) se aplica aunque no sead << n(taquigraf´ıa para “mucho menor quen”), pero es entonces irrelevante.

24Si se descubre c´omo hacer el pasok= 1 , ya est´a todo hecho.

(11)

Gram-Schmidt, QR, soluciones LS y seudoinversas.

Conocemos de cursos anteriores elalgoritmo de Gram-Schmidt:

dadosnmvectores vj IRm, y llamandoKk =L{v1, . . . , vk} al subespacio engendrado por los kprimeros, se trata de hallar vectores orto-normalesqk que engendren esos mismosKk .

Inicio: w1=v1 , q1=w1/|w1|

Para k= 2, . . . , n , wk=vk−pk , qk=wk/|wk| ,

donde pk es la proyecci´on ortogonal de vk sobre Kk−1 , que se calcula as´ı:

pk =% j<k vk·wj wj·wj wj= % j<k (vk·qj)qj

Este c´alculo expresa al mismo tiempo cadavk como combinaci´on lineal de los q1, . . . , qk , lo que

puede traducirse de este modo: expresamos la matriz A de columnas vj como un productoQR ,

dondeQtiene columnas qj yR es triangular superior; como en este ejemplo26:

A=     1 1 2 2 3 3 0 2 5 1 1 4    =     1 2 2 2 1 2 0 2 3 1 0 2       1 1 21 1 1  

donde cada|wi|debe pasar de la columnawk del primer factor a la filakdel segundo para que esas

dos matrices se conviertan enQ, R. El algoritmo que calcula directamente las columnasqk es: Para k= 1, . . . , n ,

para j < k , rjk=vk·qj , % coeficientes de la proyecci´on pk wk =vk*j<krjkqj , % el resto ortogonal: wk =vkpk rkk=|wk| , qk=wk/ rkk . % ... que una vez normalizado, es qk

Se llama a la ecuaci´on Ax = b un SEL sobredeterminado si tiene m ecuaciones en n < m

inc´ognitas, o en general sirango(A)< m , con la probable consecuencia de que sea b /Im(A),

es decir que el SEL no tenga soluci´on exacta. La “soluci´on” x que se busca entonces es la que

minimiza|Ax−b|. Se la llama soluci´on dem´ınimos cuadrados(least squares,LS), y equivale a: encontrarxIRn tal queAx=πA(b), conπA=la proyecci´on ortogonal sobreIm(A)IRm. Dos ejemplos:

El m´as simple, y de muy frecuente uso en toda clase de aplicaciones de las Matem´aticas, es la

recta de regresi´on: una ecuaci´ony=a0+a1xque “aproxime lo mejor posible”mpares de datos xi, yi; las inc´ognitas sona0, a1; en el Tema 3 veremos una versi´on m´as general de esta misma idea. •Como hemos empezado a ver en el Laboratorio, una matrizAmuygrande puedeparecersingular (desde el punto de vista del calculofloat) aunque no lo sea; al ordenador no le queda entonces m´as remedio que tratar el SELAx=bcomo si fuese sobredeterminado; y eso es por lo tanto lo que hace en esa situaci´on un programa comoMatlab: calcula lasoluci´on por m´ınimos cuadrados.

Queremos por lo tanto que sea (Axb)Im(A) , es decir , AT(Ax

−b) = 0 , ATAx=ATb .

Esto permite despejarx, en vista de la siguiente

PROPOSICION: SiA∈ Mm×n tiene rangor=n < m,ATAes invertible.

Prueba:

ComoATAesn×n, probar que tiene rangonequivale a probar queKer(ATA) =Ker(A); pero ATAx= 0 |A(x)|2=xTATAx= 0, Ker(ATA)Ker(A).27

En consecuencia, lasoluci´on de m´ınimos cuadradoses:

x= (ATA)1ATb , que se obtiene resolviendo el SEL ATA x=ATb . 26otese: el c´alculo es m´as simple con losq

j, pero loswjevitan arrastrar ra´ıces cuadradas si se calcula “a mano”.

(12)

Observaciones:

Como hemos probado r(ATA) =r(A) =r(AT) , y claramente se tiene Im(ATA)

⊂Im(AT) , es Im(ATA) =Im(AT) , y el SELATA x=ATb tambi´en tiene soluci´on aunque sea r(A)< n. N´otese que esa ser´a la situaci´on t´ıpica para una matriz que “parece singular” debido a su gran tama˜no y la precisi´on finita de los n´umeros (el ejemplo mencionado antes de SEL sobredeterminado). N´otese tambi´en que la igualdadIm(ATA) =Im(AT)equivale a la ya probada antes, gracias a

Im(AT) =Ker(A)

Si en el SELAx =b (con rango = n = no. de columnas) hacemos la factorizaci´on A =QR , el

factorR es regular, y la igualdadQTQ=In permite

reducir la ecuaci´on a Rx=y=QTb , lo que ya selecciona la soluci´on LS, sim > n, y a continuaci´on resolver Rx=ypor sustituci´on hacia atr´as.

•UsandoGram-Schmidtsobre las columnas Aj de

A=     1 2 0 3 1 0 1 1 1 0 1 1 1 2 2 1    

hallar vectores ortonormalesqi que cumplanL{q1, . . . , qk}=L{A1, . . . , Ak} para cadak. •Escribir el resultado comoA=QR, y usarlo para hallarA−1 resolviendoRX=QT . Sea B la matriz formada por las columnas A1, A2 de A . Encontrar la soluci´on por m´ınimos cuadradosdel SEL incompatibleBx=e3 , reciclandolos c´alculos anteriores (es decir, utilizando lo ya calculado con la mayor y m´as astuta pereza posible).

E 2.7 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1 ... continuaci´on.

SeaAcomo antes una matriz conmfilas,n < mcolumnas. DEFINICION:

Llamamosseudo-inversa28A[1] deA a la matriz (ATA)1AT , que cumple: A[1]A=In , AA[1]b=b sibIm(A)

Observaciones:

Cuando rango = n´umero de filas, como le sucede aB =AT , tambi´en hay una inversa a

un lado, la matrizC =BT(BBT)1 , que cumpleBC =I . En este caso, el SELBx=b s´ı

tiene soluciones (infinitas siB no es cuadrada), pero

x=Cbes la que tiene |x| m´ınimo posible .

Para ver por qu´e, observar queCb∈(Ker B) =Im(BT) , y que es soluci´on: B(Cb) =b ,

luego cualquier otra esx=Cb+ucon u∈Ker B , y se tiene |x|2=|Cb|2+|u|2 .

En la factorizaci´onQR, la matrizRrecoge los coeficientes con los quecombinamos columnas

deA para producir las de la matriz ortogonalQ= (qj). Pero se puede hacer al rev´es:

usarfactores ortogonales a la izquierda deA parairla convirtiendo en triangular superior.

Eso es lo que hacen losfactores Householder, usando la misma idea que ya vimos en la factorizaci´on LU: la de unalgoritmo recursivo al que le basta “limpiar la primera columna”, y recomenzar con tama˜non1 :

H1 es una simetr´ıa que transformav1 en±|v1|e1: H1(x) =x2(u·x)/|u|2 , conu=v1

± |v1|e1 ;

(el signo se escoge para evitar queusea unadiferencia peque˜na);

Hk hace lo mismo con el bloquei, jk, dejando fijos los vectorese1, . . . , ek−1 , de modo

que los ceros creados en las columnas anteriores permanecen.

28ATENCION: La notaci´onA[1]NO es est´andar, sino una propuesta que hago para usar entre nosotros, y tiene la virtud

de ser nemot´ecnica: alude a una inversa, y el[ ]recuerda la forma (m´as cols que filas) deA[1]; por desgracia, la notaci´on

(13)

Por lo tantoel producto R=Hn1· · ·H1A es triangular. Si usamos este proceso para

llegar aA=QR, la tarea de resolverAx=bse reduce a:

1) aplicar cadaHk a bpara obtenery=QTb (no necesitamos calcular Q);

2) resolverRx=y, por sustituci´on hacia atr´as.

Para la misma matrizA del E 2.7, hallar la primera de las simetr´ıas de Householder

que dan una factorizaci´on29 QR, y usarla para “limpiar” la primera columna deA.

En el caso de una matriz cuadrada, el factor Q es una matriz ortogonal, que vista como funci´on,conserva las longitudes de los vectores;con esta idea y la igualdad A=QR, probar que siAtiene columnasAj, es |det(A)| ≤0j|Aj| . ¿Qu´e significado geom´etrico tiene esa desigualdad?

•Reescribir el algoritmo deGram-Schmidten el siguienteorden modificado: Para cadak ,qk=vk/|vk|, y restar de cadavj ,j > k, su proyecci´on sobreqk . •Hallar el coste aproximado en f lops30 de resolver Ax=b , para unb arbitrario, con cada uno de los dos m´etodos QR (Gram-Schmidt y Householder), incluyendo el de la factorizaci´on. Comparar con LU.

E 2.8 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] Escribir la seudo-inversa de la matrizBdelE 2.7, y lainversa a la derecha Cde su traspuestaBT.

La matrizChallada no es la ´unica que cumpleBTC=I; para entender por qu´e, ver (y razonar) lo que

ocurre al sumar un vector deKer(BT) a cualquier columna deC. Explicar por qu´e la seudo-inversa de B tampoco es su ´unica “inversa a la izquierda”, pero probar que cumple lo siguiente:

cada vector fila f de la seudo-inversaX tiene el m´ınimo posible |f|2 bajo la condici´onXB=I . Una nueva mirada a los m´etodos iterativos.

Recordemos la descripci´on com´un de Jacobi y Gauss-Seidel:

Si partimos la matriz del SEL Ax=b como A =ST para definir las iteradas xk que

aproximen la soluci´on exacta ˙x, tenemos las igualdades Sx˙ =Tx˙+b

Sxk+1=T xk+b y las DEFINICIONES:

ek =xkx˙

xk=xk+1xk= ∆ek rk =bAxk=Aek

Restando, Sek+1=T ek , y de esa igualdad se deducen:

/

Sek = (T S)ek=Aek=rk Tek = (T−S)ek+1= rk+1

luego ek+1= (S−1T)ek , pero rk+1= (T S1)rk . La igualdad Sxk=rk nos dice

que el m´etodo iterativo usado equivale a

calcular el siguiente paso y= ∆xk resolviendo el SELSy=rk .

Esta manera de mirar el problema permite comparar intuitivamente con las iteraciones del Tema 1; imaginemos que nos estamos acercando al objetivo geom´etricamente31, con raz´on r <1 ; en ese caso,

dar pasos un poco mayores nos llevar´a m´as rapido hacia ´el (es la idea de la extrapolaci´on de Aitken, que usa, claro, un criterio razonable para elegir cu´anto m´as grandes); eso si es r > 0 , porque si fuese 1 < r < 0 , lo bueno ser´an pasos m´as peque˜nos; m´as a´un: recortando los pasos podr´ıamos incluso

convertir en convergente el proceso cuandor <1 .

La materializaci´on de esta idea es: elegir ∆xk resolviendo Sxk=ω rk , para alguna ω >0

(“constante” que se puede ir variando), y sufre el nombre derelajaci´onsi esω <1 , y peor a´un, sobre-relajaci´on sucesiva, ‘SOR’, si ω >1 ; por motivos m´as largos de explicar, constantes ω (1,2) son

´utiles en muchos casos de inter´es; y eso tiene que ver con un detalle importante: pese a que venimos hablando, para simplificar la analog´ıa con el caso de dim = 1, de la norma ||DG|| , la cantidad que importa (verE 2.9) es elradio espectral: el tama˜no del mayor autovalor de la matrizDG.

29Eso es lo que hace la funci´onqr(A)deMatlab. Pero como se ver´a, este c´alculo a mano es incomod´ısimo. 30Contar s´olo productos +cocientes +ra´ıces cuadradas.

31La debilidad de esa comparaci´on es que ahora estamos en dim>1 ; pero eso queda mitigado por el hecho siguiente:

cuando iteramos una funci´on lineal cuyo mayor autovalor sea real, todo “va cayendo” sobre su direcci´on de autovalores, haciendo como si la dimensi´on “colapsara” a 1; ¡esa ser´a la idea clave de los m´etodos para calcular autovalores!

(14)

Algunas ideas m´as sobre QR y problemas LS.

Como se ha visto ya en cursos anteriores, el producto escalar ordinario no es el ´unico que hay, y

laortogonalizaci´on se puede hacer respecto de cualquiera de ellos. Si por ejemplo tomamos en el espacio vectorial

P olN ={polinomiosp(x) =*Nk=0akxk}

el producto escalar dado por< f, g >=111f(x)g(x)dx , y si llamamosv0, v1, . . .a los monomios

1, x, x2, . . ., es f´acil comprobar que sus “ortogonalizados”wk son los polinomios w0= 1 , w1=x , w2=x2

1/3 , w3=x3

3x/5 , . . .

Estos son los llamadospolinomios de Legendre, que adem´as de su relaci´on con la ED de igual nombre, juegan un papel importante en el C´alculo Num´erico. Vemos los primeros de ellos en el siguiente gr´afico, normalizados de modo que todos cumplanwk(1) = 1 .

Applications of Legendre polynomials in physics Legendre polynomials are useful in expanding functions like

where r and r' are the lengths of the vectors and respectively and ! is the angle between those two vectors. This expansion holds where r > r'. This expression is used, for example, to obtain the potential of a point charge, felt at point while the charge is located at point . The expansion using Legendre polynomials might be useful when integrating this expression over a continuous charge distribution. Legendre polynomials occur in the solution of Laplace equation of the potential, , in a charge-free region of space, using the method of separation of variables, where the boundary conditions have axial symmetry (no dependence on an azimuthal angle). Where is the axis of symmetry and " is the angle between the position of the observer and the axis, the solution for the potential will be

Como la ortogonalidad es de lo que est´a hecha la definici´on de la SVD, no es sorprendente que la Prueba de su existencia (ver APENDICE al final de este Tema) se base en un problema de optimizaci´on. Esa Prueba permite ver por qu´e los problemas de “m´ınimos cuadrados” suelen ser reformulables como problemas de “m´aximos cuadrados”: encontrar el m´aximo valor posible para alguna suma de| |2 de ciertos vectores. Son esas sumas las que se suelen nombrar con el t´ermino

metaf´orico deenerg´ıa, como las expresiones de ese tipo (energ´ıa cin´etica) que aparecen en Mec´anica. Como muestra la Prueba, la SVD permite resolver, “con la m´ınima p´erdida de energ´ıa posible”, el problema de aproximar la matriz dadaAcon otra que tenga rangok < rango(A) .

La definici´on de soluci´on LS para un SEL sobredeterminado es un primer ejemplo de una idea

general que, igual que en la Mec´anica Cl´asica, brota por doquier en Matem´aticas, y en particular en los m´etodos Num´ericos: la “equivalencia” entre ecuaciones y problemas de optimizaci´on. Muchos de los SEL “muy grandes” que se necesita resolver, proceden de m´etodos basados en variantes de esa idea, como el de Elementos Finitos; y a su vez, esa equivalencia es el motor de los m´etodos iterativos m´as sofisticados para resolver un SEL, y la que los conecta en ciertos casos con losm´etodos directos (como son LU o QR), hasta casi borrar la frontera entre ambos.

¿Por qu´e iterar para conseguir aproximaciones si tenemos m´etodos directos32, que dan en un n´umero

fijo de pasos un resultado potencialmente exacto? Se puede dar como primera respuesta:

O(n3)f lopsesdemasiado coste sines muy grande: ¡la matriz misma s´olo tienen2 elementos!

Pero hay m´as motivos:

hay matrices A gigantescas para las que alg´un “truco” permite calcularAxparaxdado con un

coste peque˜no, mientras que “manipular sus entradas” est´a fuera de nuestro alcance; para ese caso hay m´etodos iterativos que usanAcomo unacaja negra que permite calcular los residuales; 32Esos m´etodos son desde luego lo que se usa para resolverAx=bsiAno es MUY grande.

(15)

muchas matricesAson “esencialmente singulares”, porque el cocienteσk/σ1de sus valores

singu-lares es desde˜nable a partir de ciertok=r; en ese caso, todo el “funcionamiento deA” se reduce a

lo que hace con el subespacioL{v1, . . . , vr} ; hay m´etodos iterativos que tratan de ir aproximando

ese subespacio ycalcular la soluci´on buscada dentro de ´el;

el otro gran problema del Algebra Lineal Num´erica: hallar los autovalores de A , no admite

m´etodos directos, porque eso supondr´ıa poder hallar “exactamente” las ra´ıces de un polinomio de grado arbitrario: por encima de n = 2 , lo ´unico que podemos esperar para ese problema son

m´etodos iterativos, que explotan la idea ya citada: al iterarA se va cayendo al subespacio donde

se alcanzan sus mayores autovalores.

•Para la matriz33:

A=

& 1 1 1 2

'

comprobar las siguientes cosas:

i) la derivadaS−1T de la iteraci´on de Gauss-Seidel tiene norma>1, peroradio espectral<1; ii) si multiplicamos cada incrementoxk por una misma constante w , la derivada de la iteraci´on se convierte en I−wS−1A, cuyo radio espectral es a´un menor para alg´unw >1. •Inspir´andose en ese ejemplo, estudiar en qu´e se convierte cada autovalor real o complejoλ deS−1T al pasar dew= 1(Gauss-Seidel) a otros valores dew, y deducir que ws´olo puede

ayudar si est´a en (0,2). (Indicaci´on: la matriz T es singular.) E 2.9 EJ EMP LO PARA TRABAJAR HAST A LA CLASE SIGUIE NT E 1

[] El problema de hallar lasoluci´on LS de un SEL sobredeterminado Ax =b , conrango(A) = su n´umero de columnas, tiene como soluci´on: x= A[1](b) , y como esa funci´on (la seudo-inversa de A)

tieneKer/={0} , esκ(A[1]) =

. Pero podemos fijarb, y buscar κ(A[1], b) = max δb & |δx| |x| : |δb| |b| '

dondeδbes el error con el que entrab en el c´alculo, y A[1](b+δb) =x+δx.

Probar que en ese caso

κ(A[1], b)≤||A|| · ||A [1]

|| c

conc=|πA(b)|/|b|= coseno del ´angulo entreby laIm(A) ; y que ese valor se alcanza sixes paralelo al v1 de la SVD deA , es decir, siπA(b) es paralelo aA(v1) .

Referencias

Documento similar

Dª María Teresa JIMÉNEZ PRIEGO Dª Ana María MUÑOZ AMILIBIA D. José Ercilio RUIZ LANZUELA.. En cuanto a los Profesores Tutores, con los 127 nuevos nombramientos su número

Se manifiesta de forma clara el dominio de los recursos técnicos necesarios para controlar la sonoridad de la pieza en atención a los criterios de estilo que le corresponden y con

La finition chêne gris, le ‘visone’ mat et le blanc caractérisent le plan de travail, les éléments hauts et l’armoire à provisions, en for- mant des espaces ambiants

Y en el caso específico del CEDH, valor orientativo mediado por la jurisprudencia del TEDH (6). El derecho a la inviolabilidad del domicilio que proclama el artículo 18.2 CE

Paso 1: cómo insertar la pila 10 Paso 2: cómo encender el audífono 12 Paso 3: cómo insertar su audífono 13 Paso 4: cómo cambiar el volumen 16 Paso 5: cómo cambiar los programas

La herramienta m´ as sencilla para domar al infinito es, probablemente, la inducci´ on matem´ atica , que consiste en llegar al infinito pasito a pasito, como en un efecto domin´

Preliminares Los procesos infinitos y sus paradojas ¿Cu´ antos infinitos hay?. ¿C´ omo se miden

cada recubrimiento tiene infinitos rect´ angulos, hay infinitos recubrimientos, por lo que tomar la mejor medici´ on requiere un proceso infinito.. Preliminares Los procesos infinitos