El Problema de Mínimos Cuadrados

(1)

Cap´ıtulo 8

El Problema de M´ınimos Cuadrados

8.1. El problema de m´ınimos cuadrados

El problema del ajuste de datos; es decir, descubrir una función matemática que pueda explicar de la mejor forma posible el comportamiento de algún mecanismo o grupo de seres u objetos que puede ser medido, y del cual conocemos algunos datos (con sus posibles errores de medición), es un problema clásico y ha supuesto un reto para la comunidad matemática desde su planteamiento por Gauss y Legendre hacia 1800.

En lenguaje de ´algebra lineal consiste en encontrar la soluci´on de un sistema lineal Ax b siendo A P _Cmn _con _m _¥ _{n. En} _A _y _b _{se recogen todos los datos del} experimento que se quieren ajustar. Enseguida veremos algunos ejemplos.

Sabemos que el sistema tiene solución si y sólo sibP ImA, condición que dif´ıcilmente se cumple si m es mucho mayor que n. Si m ¡ n diremos que el sistema Ax b está sobredeterminado; y si no existe ningún x P _Cn1 _{tal que} _Ax _b _{lo que se}

(2)

puede intentar es buscar un x de forma que el vector

r AxbP _Cm,

que se llama residuoo vector residual, sea lo “más pequeño” posible. Lo grande o pequeño que sea rlo mediremos mediante una norma.El problema de m´ınimos cuadradosconsiste en encontrarxP _Cn1 para que el vector residuo tenga la menor norma eucl´ıdea posible. Su formulación precisa ser´ıa la siguiente:

Problema de m´ınimos cuadrados: Sea _F_R o _C. Dada una matriz A P_Fmn y un vector b P_Fm_,(m ¥_{n) encontrar} _xP

Cn1 para que }Axb}2 sea m´ınimo.

La elección de la norma eucl´ıdea se puede justificar desde varios puntos de vista: histórico, geométrico, estad´ıstico, . . . ; pero sobre todo porque es la norma habitual, conduce a los algoritmos más sencillos y as´ı como todas las normas son funciones continuas de los vectores, la norma eucl´ıdea es, además, diferenciable. Como, por añadidura, la función }Axb}2 alcanza su máximo absoluto en un máximo local,

este máximo puede calcularse igualando a cero las derivadas parciales de dicha fun-ción. Este proceso conduce a lo que se llaman lasecuaciones normales del problema de m´ınimos cuadrados. Estas ecuaciones nos las encontraremos más adelante proce-dentes de un contexto completamente diferente.

Ejemplo 8.1 El ejemplo más t´ıpico de ajuste de datos por m´ınimos cuadrados es el cálculo del polinomio de interpolación: dados m puntos del plano pxi, yiq, i 1, . . . , m, de forma que xi xj para i j, se trata de encontrar un polinomio de grado a lo más m1, ppxq a0 a1x am1xm1, que pase por los n

puntos.

Se trata, entonces, de encontrar los coeficientes a0, a1,. . . , am1, para que

ppxiq yi, i1, . . . , m. Esto equivale a resolver el sistema lineal

(3)

8.1 El problema de m´ınimos cuadrados 161

cuya matriz de coeficientes es

Axj_i1 1 x1 x21 x m1 1 1 x2 x22 x m1 2 .. . ... ... . .. ... 1 xm x2m xmm1 Esta es una matriz de Vandermonde cuyo determinante es

detA¹ i j

pxixjq.

Por consiguiente A es invertible y el sistema (8.1) tiene una única solución. En la Figura 8.1 se muestra la gráfica del polinomio de interpolación que pasa por los 11 puntos pi,0q con i 5,4, . . . ,1,0,1, . . . ,4,5. Se trata de un polinomio de grado 10. A su derecha se ha escrito el código de MATLAB que obtiene los coeficientes del polinomio de interpolación: c Azb y que da la gráfica: plot(t, polyval(p,t),a,b,’r*’,’markersize’,10);. El comandopolyval(p,t) devuel-ve un devuel-vector: el valor del polinomio p en las componentes del vector t. Nótese el uso de las sentencias fliplr y flipud para obtener la matriz de los coeficientes del sistema y los coeficientes del polinomio de interpolación en la forma apropia-da. La sentencia zeroaxeshace que los ejes cartesianos se dibujen en la forma que se acostumbra a utilizar en la pizarra: dos l´ıneas perpendiculares que se cortan en p0,0q. −6 −4 −2 2 4 6 −3 −2 −1 1 2 3 4 5 Figura 8.1: a=-5:5; A=fliplr(vander(a)); b=[0 0 0 1 1 1 0 0 0 0 0]’; c=Azb; p=flipud(c); t=linspace(-5.05,5.05); plot(t, polyval(p,t),a,b,’r*’,...; ’markersize’,10); zeroaxes

Indudablemente el polinomio de interpolaci´on se ajusta perfectamente a los datos, pero a menudo ´estos proceden de experimentos y lo que se pretende es buscar una

(4)

curva que interprete los datos obtenidos. Como las mediciones se realizan en momen-tos puntuales, tal gráfica deber´ıa reflejar, salvo que se tengan motivos para pensar lo contrario, una comportamiento suave entre dos datos consecutivos, y no la fluc-tuación que muestra el polinomio de interpolación de nuestro ejemplo. Quizá un polinomio de menor grado pueda mostrar un mejor comportamiento. Tal polinomio no pasará por algunos de los puntos. Pero la medición de todo proceso real conlleva errores que podr´ıan explicar tal fenómeno.

Ejemplo 8.2 (Ajuste por m´ınimos cuadrados) Con los mismos datos del ejem-plo anterior calcular el polinomio de grado 7 que mejor se ajusta a los datos en el sentido de los m´ınimos cuadrados.

Siguiendo los mismos pasos que en el ejemplo anterior lo que buscamos es un poli-nomio de grado a lo m´asn1¤m1

ppxq a0 a1x an1xn1

tal que }ppxq y}2 sea m´ınimo. Aqu´ı, ppxq es el vector cuyai-´esima componente es

ppxiqy el vector y es el que tiene pori-´esima componenteyi. Ahora bien, si A 1 x1 x21 x n1 1 1 x2 x22 x n1 2 .. . ... ... . .. ... 1 xm x2m xnm1

es la matriz de Vandermonde truncada y c pa0, a1, . . . , an1q es el vector de los

coeficientes de p tenemos que ppxq Ac. As´ı que se trata de hallar un vector c en el que se alcance

m´ın xPCn}

Axy}2.

En la Figura 8.2 se presenta la gr´afica producida por MATLAB del polinomio de grado 7 que mejor se ajusta a los datospai, biqen el sentido de los m´ınimos cuadrados. El problema de m´ınimos cuadrados correspondiente se calcula en el interior de la sentenciaployfit. El resto del c´odigo de MATLAB que se muestra es el mismo que en el apartado anterior.

Una observaci´on final antes de abordar la soluci´on del problema de m´ınimos cua-drados y los algoritmos correspondientes. Una variante del problema de encontrar

(5)

8.2 La soluci´on del problema de m´ınimos cuadrados 163 −6 −4 −2 2 4 6 −3 −2 −1 1 2 3 4 5 Figura 8.2: a=-5:5 A=fliplr(vander(a)) b=[0 0 0 1 1 1 0 0 0 0 0]’; p=polyfit(a,b,7); t=linspace(-5.3,5.3); plot(t, polyval(p,t),a,b,’r*’,... ’markersize’,10); axis([-6 6 -3 5]); zeroaxes

el polinomio de grado a lo m´asn1 que mejor se ajusta a una nube dem puntos, pxi, yiq, distribu´ıdos en el plano es el de encontrar la funci´on

φpxq c1φ1pxq c2φ2pxq cnφnpxq,

que mejor se ajusta a una de tales nubes de puntos. Aqu´ıφ1,φ2,. . . ,φnson funciones dadas, o de las que uno sospecha que una combinaci´on lineal de ellas puede ajustarse bien a los datos. En este caso el problema se reduce a calcular el vectorc donde se alcanza el m´ınimo:

m´ın xPC }

Axy}2,

siendoAP _Fmn _{la matriz cuyo elemento en la posici´}_onp_{i, j}q _es_φ

jpxiqy siendoy el vector cuyas componetes son y1, . . . , ym.

8.2. La soluci´

on del problema de m´ınimos

cuadra-dos

En esta sección demostramos el resultado que nos da la solución del problema de m´ınimos cuadrados. Geométricamente la situación es muy simple (véase la Figura 8.3): el vector de ImA cuya distancia ab es m´ınima es la proyección ortogonal deb sobre ImA. Y la distancia m´ınima es la norma del residuo. Esto es lo que nos dice el siguiente Teorema.

(6)

b Im A

Ax₀ r=Ax₀−b

Figura 8.3: La soluci´on del problema de m´ınimos cuadrados Teorema 8.3 SeanAP_Fmn_,

FRoC, yb PFm1, m¥n. SeaPA la proyecci´on ortogonal sobre ImA. Entonces, Ax0 cumple

}Ax0b}2 m´ın

xPFn}

Axb}2

si y s´olo si se cumple cualquiera de las siguientes condiciones que son equivalentes: (i) Ax0 PAb.

(ii) bAx0 P pImAqK.

(iii) AAx0 Ab.

Además, la solución x0 es única si y sólo si rangAn.

En la demostraci´on se usa el teorema de Pit´agoras: Si x, y P _Cn _{son ortogonales} entonces }x y}2

2 }x}22 }y}22. En efecto,}x y}22 px yqpx yq xx y

xy yxxx yy }x}2₂ }y}2₂, donde hemos usado quexyyx0 porque x ey son ortogonales.

Demostración.- Todo se basa en la demostración de la idea geométrica expuesta más arriba:

m´ın xPCn}

Axb}2 }PAbb}2.

Vemaos que esto es as´ı. En efecto

(7)

8.3 Algoritmos para calcular la soluci´on del problema de m´ınimos cuadrados 165

porqueAxPAb PImA yPAbb pIPAqb P pImAqK y aplicando el Teorema de Pit´agoras. Por lo tanto, para todo xP_Cn

}Axb}2 ¥ }PAbb}2.

Pero comoPAb PImA, existex1 PCntal queAx1 PAb; i.e.,}Ax1b}2 }PAbb}2.

Por lo tanto m´ın xPCn}

Axb}2 }PAbb}2, tal y como dese´abamos mostrar.

Ahora, siAx0 es el vector que hace m´ınima la distancia de Ax ab entonces

}PAbb}22 m´ın

xPCn}

Axb}2₂ }Ax0b}22 }Ax0PAb}22 }PAbb}22.

De aqu´ı deducimos que }Ax0 PAb}2 0; es decir, Ax0 PAb.

S´olo queda demostrar la equivalencia entre las tres condiciones. Por una parte PAb Ax0 ñbAx0 bPAb pIPAqbP pImAqK.

Y sibAx0 P pImAqK entoncesPApbAx0q 0 de modo que PAb PAAx0. Pero

como Ax0 PImA tenemos que PAAx0 Ax0. Esto demuestra la equivalencia entre

las condiciones (i) y (ii).

Finalmente, como pImAqK KerA tenemos que b Ax0 P pImAqK si y s´olo si

ApbAx0q 0; i. e.,AAx0 Ab.

Falta demostrar que la solución del problema de m´ınimos cuadrados es única si y sólo si rangAn. Ahora bien, rangAn si y sólo siAAes invertible. Una forma de ver esto es, por ejemplo, la siguiente: rangA n si y sólo si σnpAq 0. Como los valores singulares de A son las ra´ıces cuadradas positivas de los valores propios de AA, σn 0 si y sólo si todos los valores propios de AA son distintos de cero; i.e. detpAAq 0. Pero AA es invertible si y sólo si el sistema AAx Ab tiene solución única.

8.3. Algoritmos para calcular la soluci´

on del

pro-blema de m´ınimos cuadrados

El Teorema 8.3 nos da las claves para calcular un vectorx0que solucione el problema

(8)

ecuaciones normales del problema de m´ınimos cuadrados. Es el sistema que aparece al calcular el m´ınimo local de la funci´on

fpxq }Axb}2.

Es decir, el sistema

Bf Bxip

xq 0, i1, . . . , n

da lugar al sistemaAAx Ab. Como la funci´onf es convexa, alcanza su m´ınimo absoluto en un m´ınimo local.

Para resolver el sistema AAx Ab numéricamente, tendremos en cuenta la es-tructura especial de la matrizAA: es herm´ıtica (simétrica en el caso real). Además es definida positiva porque xAAx }Ax}2 ¡ 0 para x 0. Ahora bien toda

matriz herm´ıtica definida positiva admite una factorización de Cholesky (variante de la factorización LU cuando la matriz es simétrica o herm´ıtica). En MATLAB el comando chol(A) devuelve la factorización de Cholesky de A si ésta es herm´ıti-ca definida positiva. Recordemos que una factorización de Cholesky de una matriz herm´ıtica definida positiva, A, es una factorización de la forma

ALL

siendo L una matriz triangular superior. Esta factorización es especialmente apro-piada para resolver sistemas lineales mediante sustitución hacia adelante y hacia atrás.

Teniendo en cuenta todo esto podemos dar un primer algoritmo para la resoluci´on del problema de m´ınimos cuadrados.

Algoritmo m´ınimos cuadrados via ecuaciones normales DadaAP_Fmn _{y dado} _b_P

Fm

1. F´ormense las matrices AA y Ab.

2. Calcúlese la factorización de Cholesky deAALL, (chol(A)) 3. Resuélvase LyAb (z o sustitución hacia adelante)

(9)

Cuando A es herm´ıtica definida positiva pero mal condicionada, el algoritmo de Cholesky puede dar resultados muy inexactos. Por lo tanto, el algoritmo anterior no es adecuado para resolver el problema de m´ınimos cuadrados. Una posibilidad ser´ıa usar la factorización QR de AA para conseguir la factorización de Cholesky deAA en vez del algoritmo de Cholesky. En efecto, si A QR es la factorización QR reducida de A, entonces

AARQQR RRLL,

donde hemos utilizado queQQIn, por tenerQ columnas ortonormales, y hemos puestoLR. Esto nos muestra que siA es de rango completo, la factorizaci´on de Cholesky de AA es ´unica. Esta alternativa, sin embargo, carece de sentido porque la ventaja del algoritmo de Choleski es que su coste es n2 _{(mientras que el de}

la factorización QR ser´ıa de orden cúbico) y hay otros algoritmos que, cuando el de Choleski no es aconsejable, usan la factorización QR y sólo precisan resolver un sistema triangular. Presentamos a continuación uno de tales algoritmos.

En el segundo algoritmo se trata de conseguir la soluci´on, x0, como soluci´on del

sistemaAx0 PAb. Para ello, debemos conseguirPA, que es la proyección ortogonal sobre ImA. Recordemos que PA QQ, donde Q es una matriz cuyas columnas son una base ortonormal de ImA. Recordemos que si A QR es una factorización QR de A entonces las columnas de Q son una base ortonormal de ImA y, por consiguiente, QQ es la proyección ortogonal sobre ImA.

Algoritmo m´ınimos cuadrados via factorizaci´on QR

Dada AP_Fmn y dado bP_Fm

1. Hállese la factorización QR, reducida, de A 2. Calcúlese Qb.

3. Resuélvase RxQb (z o sustitución hacia atrás)

Estos dos algoritmos pueden presentar problemas si la matriz A es singular o muy próxima a serlo; i.e., κpAq es muy grande. Si la situación es ésta, tenemos una alternativa: los valores singulares.

(10)

8.3.1. El problema de m´ınimos cuadrados y la inversa

Moore-Penrose

La inversa generalizada de Moore-Penrose se puede definir como la matriz que solu-ciona el problema de m´ınimos cuadrados. Es decir, de la misma que la soluci´on del sistema Axb esx A1b siempre que A sea invertible, la soluci´on del problema de m´ınimos cuadrados esx0 A:b. Veremos que esto es, en efecto as´ı, y que este

he-cho nos proporciona un algoritmo alternativo para resolver el problema de m´ınimos cuadrados.

Recordemos que x0 es soluci´on del problema se m´ınimos cuadrados si y s´olo si es

solución del sistema Ax PAb, siendo PA la proyección ortogonal sobre ImA. Re-cordemos también que sir rangAyAUΣV es una descomposicióncompleta deA en valores singulares, entonces las r primeras columnas de U son una base or-tonormal de ImA. (Proposición 3.10). Sea Ur la submatriz de U formada por sus r primeras columnas. Como son una base ortonormal de ImA, la matriz UrUr es la proyección ortogonal sobre ImA. Es decir, PAUrUr. As´ı pues, si ponemos

Σ

Σr 0 0 0

entonces el sistema AxPAb es equivalente a Ur

Σr 0

VxUrUrb. Y este sistema es equivalente a Σr 0

VxU_rb dado queU_rUr Ir. Pongamos cU_rb y y Vx. Entonces, AxPAb ô Σr 0 y c.

Si Σr Diagpσ1, . . . , σrq, la soluci´on general de este sistema es

yc1{σ1 c2{σ2 cr{σr yr 1 yn

T

conyr 1,. . . ,yn, números arbitrarios. Si el rango deAes completo,n, la solución del sistema queda completamente determinada; cosa que ya hab´ıamos demostrado. Pero si rangA n entonces hay infinitas soluciones del problema de m´ınimos cuadrados. Entre ellas, se suele escoger la solución de norma m´ınima. Y ésta es la que se consigue haciendo yr 1 yn 0. Finalmente, como y Vx, tenemos que x V y.

(11)

Adem´as, }x}2 }V y}2 }y}2. En definitiva, el vector x0 de norma m´ınima que

soluciona el problema de m´ınimos cuadrados es:

x0 V y0 V c1{σ1 c2{σ2 .. . cr{σr 0 .. . 0 Vr c1{σ1 c2{σ2 .. . cr{σr ,

dondeVr es la submatriz de V formada por sus r primeras columnas.

Ahora vamos a “volver hacia atrás” a fin de recuperar la solución del problema en términos de los datos originales: A y b. Recordemos, antes de nada, que con las notaciones introducidas A UrΣrVr es una descomposición reducida de A en valores singulares. En consecuencia

A:VrΣ_r1U_r es la inversa generalizada o Moore-Penrose deA. Ahora bien, x0 Vr c1{σ1 c2{σ2 .. . cr{σr VrΣr1cVrΣr1Urb,

porquecU_rb. As´ı pues, el vector de norma m´ınima que soluciona el problema de m´ınimos cuadrados es

x0 VrΣr1Urb A:b tal y como hab´ıamos anunciado.

Este proceso, además, nos proporciona un algoritmo para calcular la solución del problema de m´ınimos cuadrados en el caso más general.

(12)

Algoritmo m´ınimos cuadrados via valores singulares DadaAP_Fmn _{y dado} _bP

Fm

1. Calcular la descomposici´on reducida deA en valores singulares: A UΣV, U P _Fmr, V P _Fnr y ΣDiagpσ1, . . . , σrq.

2. Calcular cUb.

3. Calcular x VΣ1_{c. Este es el vector de menor norma que}

solu-ciona el problema de m´ınimos cuadrados.

8.4. El condicionamiento del problema de

m´ıni-mos cuadrados

El condicionamiento del problema de m´ınimos cuadrados es un tema importante por-que tiene implicaciones no triviales en el estudio de la estabilidad de los algoritmos para este problema. Como es habitual analizaremos en detalle el condicionamien-to del problema y estudiaremos la estabilidad de los algoritmos mediante ejemplos significativos.

Recordemos que el problema de m´ınimos cuadrados consiste en lo siguiente (supon-dremos en lo sucesivo que la matriz del sistema tiene rango completo):

DadaAP _Fmn _{de rango completo y}_m ¥_{n, y dado} _bP

Fm,

calcularxP_Fn para que }Axb}2 sea m´ınima.

(8.2)

Ya sabemos que, en este caso, la soluci´on del problema es ´unica y viene dada por xA:b

donde A:P_Fnn es la pseudoinversa o inversa generalizada de Moore-Penrose de A (ver 3.6). Además, si yAx es el vector en ImA más próximo a b entonces

(13)

8.4 El condicionamiento del problema de m´ınimos cuadrados 171

siendo P la proyecci´on ortogonal sobre ImA.

Nuestro objetivo es estudiar el condicionamiento del Problema (8.2) respecto a per-turbacione enA y en b. Es decir, los datos del problema son la matrizA y el vector b. La soluci´on es el vector de coeficientes x o el correspondiente vector y Ax. As´ı pues

Datos:A, b. Soluciones: x, y.

Tenemos as´ı, en realidad, cuatro posibles cuestiones de condicionamiento: Error relativo en xo y respecto a peque˜nas perturbaciones en los datos b oA.

El objetivo en esta sección es dar un resultado fundamental sobre el condicionamien-to del problema de m´ınimos cuadrados. Para entender el enunciado y como apoyo a la demostración necesitamos introducir algunos conceptos y un par de resultados auxiliares. En primer lugar debemos recordar que para una matriz A P _Fmn _de rango completo n el número de condición es

κ2pAq }A}2}A:}2 σ1 σn .

Im A

b

y=Ax=Pb

θ

r=Ax−b

Figura 8.4: El problema de m´ınimos cuadrados.

En segundo lugar, necesitamos el conceto de ´angulo entre dos vectores de _Fm_{. Lo} definimos, como es habitual, a partir de la desigualdad de Cauchy-Schwartz: six, y P

Fm entonces

(14)

de modo que

1¤ x

_y

}x}2}y}2 ¤

1. Se define, entonces el ´angulo, θ, de x,y como

θarc cos x _y }x}2}y}2 . Equivalentemente cosθ x _y }x}2}y}2 .

En nuestro caso, para calcular el ´angulo deb e ydebemos hacer el producto escalar by bP b. Teniendo en cuenta que P es una proyecci´on (P2 P) ortogonal pP P) resulta que bybP bbP P bbPP b }P b}2₂ }y}2₂. As´ı pues cosθ }y}2 }b}2 .

Para el seno usamos la identidad sen2_θ₁_cos2_θ:

sen2θ1}y} 2 2 }b}2 2 }b}22 }y}22 }b}2 2 .

Ahora bien, b y b y siendo y y b y ortogonales (y P ImA y b y bP b pImPqbP pImAqK). Por consiguiente, usando el Teorema de Pit´agoras, }b}2

2 }y}22 }by}22 y

senθ }by}2 }b}2

Todas estos resultados generalizan los habituales en _R2 (Figura 8.4)

En tercer lugar, para cualquier norma inducida }Ax} ¤ }A} }x}. Necesitaremos una medidad de lo lejos o cerca que est´a }y} }Ax} de su m´aximo valor posible:

η }A}2 }x}2 }y}2

}A}2 }x}2

}Ax}2

.

Estos par´ametros tienen el siguiente rango de variaci´on:

(15)

Todas estas acotaciones son claras excepto, quizá, la última que viene de la siguiente observación: }x}2 }A1Ax}2 ¤ }A1}2}Ax}2, de modo que η ¤ }A}2}A 1_} 2}Ax}2 }Ax}2 κ2pAq.

El resultado previo que necesitamos es el siguiente

Lema 8.4 Para AP_Fmn _{de rango completo} _n _{se tiene:} }pAAq1A}2 1 σn . (8.3) }pAAq1}2 1 σ2 n (8.4) siendo σ1 ¥ ¥σn los valores singulares de A.

Demostraci´on.- La propiedad (8.4) es una consecuencia inmediata de que los valo-res singulavalo-res deA son las ra´ıces cuadradas positivas de los valores propios deAA, y de que 1{σ_n2 es el mayor valor singular depAAq1 (ver Porposiciones 3.12 y 3.16). Para probar la propiedad (8.3) se usa el Teorema SVD para ver que los valores singulares depAAq1_A _{y los de} _A: _coinciden.

Podemos ahora plantear y demostrar el resultado principal

Teorema 8.5 Sean b P _Fm y A P _Fmn con b 0 y rangA n ¤ m. Para el problema de m´ınimos cuadrados (8.2) se cumplen las siguientes propiedades, todo respecto de la norma `2:

(i) El n´umero de condici´on del problema de calcular yAxP_Fn respecto de b es 1

(16)

(ii) El n´umero de condici´on del problema de calcular xP_Fn respecto de b es κ2pAq

ηcosθ. (8.6)

(iii) Sea x˜ la soluci´on del problema de m´ınimos cuadrados relativo a minimizar }pA δAqx˜b}2. Si y˜ pA δAqx˜ y }δA}2 }A}2 σn σ1 entonces }y˜y}2 }y}2 ¤κ2pAq cosθ Op 2_q_. _(8.7)

(iv) En las mismas condiciones del apartado anterior }x˜x}2 }x}2 ¤ κ2pAq κ2pAq2tanθ η Op2q. (8.8) (v) Sea x˜ es la soluci´on del problema de m´ınimos cuadrados relativo a minimizar

}pA δAqx˜ pb δbq}2. Si senθ1 y m´ax " }δA}2 }A}2 ,}δb}2 }b}2 * σn σ1

siendo σ1 ¥ ¥σn los valores singulares de A, entonces }x˜x}2 }x}2 ¤ " κ2pAq 1 ηcosθ 1 κ2pAq2tanθ η * Op2q. (8.9) En el caso especial en que m n, el problema de m´ınimos cuadrados se reduce al de la resoluci´on de un sistema de ecuaciones lineales. En tal caso θ 0 y las cotas de (8.6) y (8.8) se reducen a κ2pAq{η y κ2pAq recuperando los resultados vistos en

la Lecci´on 4.

Demostraci´on.- Demostraremos las propiedades (i) y (v). La propiedad (ii) se demuestra de manera muy similar a la propirdad (i), la propiedad (iv) es una caso particular de la (v) y la propiedad (iii) requiere una demostraci´on independiente pero parecida a la (iv).

(i) La relaci´on entre b e y es

(17)

siendoP la proyeccción ortogonal sobre ImA. Vimos en la Sección 4.3 del Cap´ıtulo 4 que el número de condición del problema de multiplicar Ax para A dada y x variable: f : _Fn _Ñ Fm x ; bAx es κ }f 1_p_x_q} }fpxq}{}x} }A} }x} }Ax} , (8.10)

En nuestro caso se trata del n´umero de condici´on del problema yP b respecto de b para P dado. Entonces

κpbq }P}2}b}2 }y}2

Como P es una proyecci´on ortogonal P QQ para alguna matriz Q P _Fnm con columnas ortonormales. SeaU

Q Qr

una matriz unitaria. Entonces

UP U Q r Q QQ Q Qr In 0 0 0

Por lo tanto, los valores singulares de P son todos iguales a 1 y en particular }P}2 σ1pPq 1

Finalmente, recordemos que cosθ }y}2 }b}2 . En conclusi´on: κpbq }P}2}b}2 }y}2 1 cosθ, tal y como se deseaba demostrar.

(v) En primer lugar definimos E 1

δAy f 1

δb. Por hip´otesis, }δA}2

}A}2

σn σ1

y como }A}2 σ1, tenemos que }δA}2 σn. Por el Teorema 3.18 resulta que rangpA δAq n y consecuentemente rangpA tEq n para todo t P r0, s. Se sigue entonces que el sistema

(18)

tiene una única solución para cada t P r0, s. Invertir una matriz es una función diferenciable en los elementos de la matriz. Por lo tantoxes una función diferenciable det enr0, s. Por la definición de diferencial

xpq xp0q x1p0q Op2q.

Como xpq x,˜ xp0q x, b0 y senθ1, tenemos que x0 y }x˜x}2 }x}2 }x 1_p₀_q} 2 }x}2 Op2q. (8.12)

Necesitamos una estimaci´on de }x1p0q}2. Para ello calculamos x1p0q en (8.11).

Pri-mero derivamos

EpA tEqxptq pA tEqExptq pA tEqpA tEqx1ptq Eppb tfq pA tEqf, y sustitu´ımos t0 recordando que xp0q x:

EAx AEx AAx1p0q Af Eb. As´ı

x1p0q pAAq1Apf Exq pAAq1EpbAxq. Tomando normas:

}x1p0q}2 ¤ }pAAq1A}2p}f}2 }E}2}x}2q }pAAq1}2}E}2}bAx}2.

Por una parte, }E}2

1

}δA}2 ¤ }A}2. Y de la misma forma }f}2 ¤ }b}2. Tambi´en }A}2 }A}2, as´ı que }x1p0q}2 ¤ }pAAq1A}2p}A}2}x}2 }b}2q }pAAq1}2}A}2}bAx}2 ¤ ¤ }pAAq1_A_} 2}A}2 }b}2 }A}2 }x}2 }pAAq1_} 2}A}22 }bAx}2 }A}2 .

Por otra parte, por el Lema 8.4, }pAAq1A}2}A}2 κ2pAq y }pAAq1}2}A}22

κ2pAq2. Entonces }x1p0q}2 }x}2 ¤κ2pAq }b}2{}Ax}2 }A}2}x}2{}Ax}2 1 κ2pAq2 }bAx}2{}Ax}2 }A}2}x}2{}Ax}2 .

(19)

8.5 Estabilidad de los algoritmos para el problema de m´ınimos cuadrados 177 Ahora bien, η }A}2}x}2 }Ax}2 , cosθ }Ax}2 }b}2 y tanθ }bAx}2 }Ax}2 . En consecuencia }x1p0q}2 }x}2 ¤κ2pAq 1 ηcosθ 1 κ2pAq2 tanθ η sustituyendo en (8.12) }x˜x}2 }x}2 ¤ " κ2pAq 1 ηcosθ 1 κ2pAq2tanθ η * Op2q, tal y como se quer´ıa demostrar.

8.5. Estabilidad de los algoritmos para el

proble-ma de m´ınimos cuadrados

Un estudio experimental de la estabilidad de los algoritmos para la resolución del problema de m´ınimos cuadrados lineal es el objetivo de una de las prácticas obli-gatorias con MATLAB que habrá de realizarse en este curso. En ella se plantea un problema de m´ınimos cuadrados cuya solución debe ser calculada con los tres algoritmos vistos en la Sección 8.3. A su vez, para los algoritmos basados en la fac-torizaciónQR, se utilizarán los tres algoritmos vistos en las Lecciones 6 y 7; es decir, los algoritmos clásico y modificado de Gram-Schmidt y el algoritmo de Householder. A través de dicho experimento se comprobará que los algoritmos basados en la reso-lución de las ecuaciones normales y el factorización de Cholesky as´ı como los basados en la factorización QR obtenida con los algoritmos de Gram-Schmidt pueden dar resultados con mucho error si la matriz del sistema está mal condicionada. Por lo tanto, estos algoritmos son inestables. No obstante, hay resultados (ver [11, Sec 20.4]) que muestran que para matrices bien condicionadas el algoritmo basado en la resolución de las ecuaciones normales es estable hacia atrás y para valores dem mu-cho mayores quen, el coste operacional sensiblemente menor que el método basado en la factorización QR mediante reflexiones de Householder. En tale situaciones, el método basado en la resolución de las ecuaciones normales ser´ıa el preferido. Por otra parte, a pesar de que el método basado en la factorización QR mediante el algoritmo modificado de Gram-Schmidt es inestable cuando se implementa de la manera indicada en la Sección 8.3, hay una forma de hacerlo que lo hace estable

(20)

hacia atrás (ver [11, Sec 20.3]). Finalmente, los algoritmos basados en la factoriza-ciónQR mediante reflexiones de Householder y valores singulares son estables hacia atrás para sistemas en los que A es una matriz de rango completo. A continuación se enuncian los teoremas que lo hace expl´ıto.

Teorema 8.6 Supongamos que el problema de m´ınimos cuadrados con una matriz A de rango completo se resuelve mediante el algoritmo QR por reflexiones de Hou-seholder o mediante la descomposición en valores singulares en un ordenador que cumple los axiomas (5.2) y (5.4) de la Lección 5. Este algoritmo es estable hacia atrás: para cada A P _Fmn (m ¥ n y rangA n) existe una perturbación δA tal que

}δA}

}A} OpMq y la soluci´on xpproducida por el algoritmo satisface

}pA δAqpxb}2 m´ın

xPFn}p

A δAqxb}2.

Para terminar, conviene mencionar que si la matriz A no es de rango completo, sabemos que la solución no está determinada de forma única y el único algoritmo completamente estable es el basado en la descomposición deAen valores singulares.