Ortogonalidad y mínimos cuadrados

(1)

Cap´ıtulo 7

Ortogonalidad y m´ınimos

cuadrados

7.1. Producto interno, longitud y ortogonalidad

Definici ón 7.1. Unproducto internoen un espacio vectorialV es una función que asocia a cada par de vectoresu,vun número realh_u_,_vi_{, satisfaciendo los siguiente} axiomas para todou,v,wenV ycescalar:

1. h_u_,_vi₌h_v_,_ui

2. h_u₊_v_,_wi₌h_u_,_wi₊h_v_,_wi 3. h_c_u_,_vi₌h_u_{, c}_vi₌_ch_v_,_ui

4. h_u_,_ui ≥₀_yh_u_,_ui_{= 0}_{solo cuando}_u₌_0.

Ejemplo 7.2.EnRn, podemos escribir un producto internoh_u_,_vi_{de dos} vectoresuyvcomo suproducto escalar u·_v:

u= (u1, u2, . . . , un), v= (v1, v2, . . . , vn) ⇒ u·v≡u1v1+u2v2+· · ·+unvn

Ser´a muy ´util escribir el producto escalaren forma matricial

u· _v ₌ _uT_v ₌ h_u₁ _u₂ · · · _u_ni               v1 v2 .. . vn               = u1v1 + u2v2 + · · · +unvn

No es dif´ıcil comprobar que el producto escalar satisface todos los axiomas para ser un producto interno.

(2)

Ejemplo 7.3.Definiendo, paraf , g∈_C_[_{a, b}_{] (el espacio vectorial de} fun-ciones continuas en [a, b]) f , g = Z b a f(t)g(t)dt

podemos mostrar, con las propiedades de la integral, que se cumplen todos los axiomas del producto interno.

Los espacios vectoriales que disponen de un producto interno se denominan es-pacios con producto interno. El ejemplo m´as importante de espacio con producto interno es el caso de Rn con el producto escalar ( ejemplo 7.2 ) denomina-doespacio eucl´ıdeo. Por ello, vamos a escribiren color rojolas definiciones o propiedades que son espec´ıficas del espacio eucl´ıdeoRn( se denomina con la misma notaci ´on que el espacio vectorial )

Norma

Definici ´on 7.4. Lalongitud(onorma)de un vectorv∈V _es k_vk₌ph_v_,_vi₌

√

v·_v₌

q

v₁2+v₂2+· · ·₊_v_n2

La primera observaci ón es que el único vector cuya norma es 0, es el vector nulo0, como consecuencia inmediata de la definici ón 7.1, punto 4. La longitud de un m últiplo escalarcves|_c|_{veces la longitud de}_{v, porque}

√

h_c_v_{, c}_vi₌p_c2h_v_,_vi₌ |_c|

√ h_v_,_vi_.

Es muy útil calcular, dado un vectorv, un vectorude longitud unidad en la misma direcci ón y sentido. Se obtiene con el denominado proceso de normaliza-ci ón:u= (1/k_vk₎_v_{( dividir el vector por su norma ) Los vectores cuya longitud} es 1 se denominanvectores unitarios.

Ejemplo 7.5.SiW = Gen

("

2 3

#)

encuentre una base deW que consista en un vector unitario.

Distancia

Definici ´on 7.6. La distancia entre dos vectoresu,vde un espacio vectorial se define y denota por

(3)

7.1. PRODUCTO INTERNO, LONGITUD Y ORTOGONALIDAD 133

Ejercicio 7.7. Calculad la distancia entreu= (1,2,3) yv= (1,6,6).

Vectores ortogonales

La siguiente definici ´on generaliza la noci ´on de perpendicularidad a espacios vectoriales arbitrarios.

Definici ´on 7.8. Dos vectoresu,vde un espacio vectorial sonortogonalessi h_u_,_vi_{= 0} ₍_u·_v_{= 0 )}

El siguiente resultado cl´asico se generaliza y es mucho m´as transparente usando la teor´ıa vectorial.

Teorema 7.9 (Teorema de Pit´agoras). Dos vectores u,vson ortogonales si y s´olo sik_u₊_vk2₌k_uk2₊k_vk2_.

Demostraci´on. k_u+_vk2₌h_u₊_v_,_u₊_vi₌h_u_,_ui₊h_u_,_vi₊h_v_,_ui₊h_v_,_vi₌k_uk2₊k_vk2₊ 2h_u_,_vi_.

´

Angulo

En Bachillerato se suele definir el producto escalar de dos vectores enR2 con la propiedad demostrada en el siguiente teorema.

Teorema 7.10. Seanv,w∈_R2_{y sea}₀≤_θ≤_π_{el ángulo entre ellos. Entonces} v·_w₌k_vk k_wk_cos_θ _(7.1) Demostración. La demostraci ón se realiza calculandok_w−_vk2 _{y estudiando el} triángulo formado porvyw:

Observando la figura 7.1 y planteando el triángulo rectángulo de la derecha tenemos quek_w−_vk2₌_x2₊k_wk2_sen2_θ_{= (}k_vk − k_wk_cos_θ₎2₊k_wk2_sen2_θ₌k_vk2− 2k_vkk_wk_cos_θ₊k_wk2_cos2_θ₊k_wk2_sen2_θ_{, con lo que hemos demostrado el teorema} del coseno, seg ún el cual

k_w−_vk2₌k_wk2₊k_vk2−₂k_wkk_vk_cos_θ.

Igualando esta expresi ´on al resultado al desarrollo dek_w−_vk2_{= (w}−_v)·_(w−_{v) =} k_wk2₊k_vk2−_2v·_w_{se deduce que}_v·_w₌k_vkk_wk_cos_θ_.

(4)

M L ML k M k sen kMkcos N

Figura 7.1: el teorema del coseno.

El mismo resultado se obtiene enR3, ya que dos vectores cualesquiera deR3 subtienden un plano, isomorfo aR2, y al cual el problema se puede reducir. De hecho, la f órmula (7.1) se puede utilizar paradefinirel ángulo entre dos vectores de un espacioRnde cualquier dimensi ón.

Definici ón 7.11( Ángulo). Dados dos vectoresv,w∈_Rn_{, el ángulo}_θ_{que subtienden} es aquel comprendido entre0yπ, que satisface

cosθ=_kv·w

vkk_wk, 0≤θ≤π. (7.2)

Esta definici ´on no es incoherente debido a que el lado derecho de 7.2 es en valor absoluto menor o igual que 1, por la desigualdad de Cauchy-Schwarz (7.8), que demostraremos m´as adelante.

Ejercicio 7.12. Encontrad el ´angulo entre los vectoresv= (cosφ,senφ) y w= −_(sen_φ,_cos_φ_).

El complemento ortogonal

Si un vector xes ortogonal a todos los vectores vque se encuentran en un subespacioW , se dice quexesortogonalaW . Dado un subespacioW ⊂V _de un espacio vectorialV , el conjunto de todos los vectoresx∈V _{ortogonales a}W se denominacomplemento ortogonaldeW , denot´andose porW ⊥:

W ⊥

={_x∈V _: _x_{es ortogonal a}W }

(5)

7.2. CONJUNTOS ORTOGONALES 135

Ejercicio 7.14. Sivestá enW y enW ⊥ simultáneamente, demostrad que s ólo puede serv=0.

Proposici ´on 7.15.

1. x ∈ W⊥ _{si y s´olo si} _x _{es ortogonal a todos los vectores de un conjunto de} generadores(cualquiera)deW.

2. W ⊥es un subespacio deV.

Teorema 7.16. Sea una matrizAdem×_n_{. El complemento ortogonal del espacio fila} deAes el espacio nulo deA, y el complemento ortogonal del espacio columna deAes el espacio nulo deAT:

(FilA)⊥= NulA y (ColA)⊥= NulAT

Demostraci´on. Usese la regla fila-columna para demostrar el primer resultado.´ El segundo se demuestra aplicando el primero a la matrizAT.

7.2. Conjuntos ortogonales

Un conjunto de vectores{_u₁_{, . . . ,}_u_n}_{es un}_{conjunto ortogonal}_{si sus vectores} son ortogonales dos a dos, es decir,Du_i,u_jE= 0 cuandoi,j.

Ejemplo 7.17.Mu´estrese que{_u₁_,_u₂_,_u₃}_con

u1=         3 1 1         , u2=         −₁ 2 1         , u3=         −₁_/₂ −₂ 7/2        

es ortogonal.Soluci ´on: u₁·_u₂_,_u₂·_u₃_,_u₃·_u₁_{. Dibujar.}

Teorema 7.18. SiS= {_u₁_{, . . . ,}_u_p}_{es un conjunto ortogonal de vectores no nulos de} un espacio vectorialV , entoncesSes linealmente independiente, y por lo tantoS es una base deGenS.

Demostraci´on. Multipl´ıquese por u_i la combinaci ´on lineal c1u1+· · ·+cpup =0.

Completar

Definici ´on 7.19. Unabase ortogonal de un espacio vectorial es una base que es tambi´en un conjunto ortogonal.

(6)

Teorema 7.20. Sea{_u₁_{, . . . ,}_u_p}_{una base ortogonal de un espacio vectorial}W _. En-tonces siy∈W _{es un vector que escrito en funci´on de la base es}

y=c1u1+c2u2+. . .+cpup

las coordenadasci se pueden calcular mediante una f´ormula directa

ci=

h_y_,_u_ii h_u_i_,_u_ii =

y·_u_i

u_i·_u_i (i= 1, . . . , p) (7.3)

Demostraci´on. Basta com multiplicar escalarmente la expresi ´on de y por un vectoru_i:

u_i·_y₌_u_i·₍_c₁_u₁₊_c₂_u₂₊_{. . .}₊_c_p_u_p_{) =}_c₁_u_i·_u₁₊· · ·₊_c_i_u_i·_u_i₊· · ·₊_c_p_u_p·_u_p =c1·0 +· · ·+ciui·ui+· · ·+cp·0 =ciui·ui

En una base ortogonal, el c´alculo de las coordenadas se simplifica mucho, por-que hay una operaci ´on por-que las produce directamente, sin necesidad de resolver un sistema de ecuaciones o invertir matrices.

Ejemplo 7.21. Demu´estrese que el conjunto S ₌{_u₁_,_u₂_,_u₃} _del ejem-plo 7.17 es una base ortogonal deR3. Una vez hecho esto, encuentre

las coordenadas [y]S del vectory=

        6 1 −₈         en la baseS_. Soluci ´on: y=u₁−_2u₂−_2u₃_.

Proyecci ´on ortogonal

Proyecci ón ortogonal sobre rectas. Sea dado un vectoru, no nulo, deRn. Con-sidérese el problema de descomponer cualquier vectorydeRnen sucomponente paralelaauy su componente perpendicularau. Es decir, yserá la suma de dos vectores

y= ˆy+z (7.4)

dondezes ortogonal au,u·_z_{= 0, y ˆ}_y_{es paralelo a}_{u, es decir ˆ}_y₌_α_u_{para alg ún} escalarα∈_{R. Hacer dibujo. En}_R2 _{y quizás}_R3_{nuestra intuici ón geométrica nos} dice que esta descomposici ón es posible y, aparentemente, única, pero puede que en Rn la descomposici ón (7.4) no sea posible, o sea posible de muchas maneras.

(7)

La condici ´on de ortogonalidad dezyues

0 =z·_u_{= (y}−_y)_ˆ ·_u_{= (y}−_α_y)·_u₌_y·_u−_α_u·_u que tiene soluci ´on ( ´unica)α= y·u

u·_u, lo cual implica a su vez que ˆy= y·_u u·_uu. El vector ˆyes la componente deyparalela au, oproyecci ´on ortogonal de y sobre u, yz=y−_y_ˆ _{es la componente perpendicular o} _{componente ortogonal a u de y.} En un espacio vectorial general, la proyecci ´on ortogonal de un vectorysobre otrouse define de forma evidente ˆy= h_hy,ui

u,uiu.

Una observaci ón importante es que la proyecci ón ortogonal deysobreuno depende de la longitud de u, s ólo de su direcci ón (ni siquiera de su sentido): proyectarysobre cualquier m últiplocuda lugar a ˆy= y·(cu)

(cu)·₍_c_u)cu= y·_u u·_uu, lo mismo que sobreu. Entonces, realmente la proyecci ón ortogonal de un vectory está determinada s ólo por la recta que generau, es decir, elsubespacioLgenerado poru. Por ello, se usa la siguiente notaci ón:

ˆ

y= proy_Ly=_hhy,ui u,uiu=

y·_u

u·_uu

proyecci ´on ortogonal deysobre la rectaLgenerada poru

Ejemplo 7.22.Seany= " 7 6 # yu= " 4 2 #

. Calc úlese la proyecci ón ortogonal deysobreu. Escr´ıbaseycomo la suma de un vector enL= Gen{_u}_y otro ortogonal au. Se suele abusar de la notaci ón escribiendo proy_u en vez de proy_L.

Soluci ´on:La proyecci ´on ortogonal es ˆ y= proy_uy= y·u u·_uu= 7·_{4 + 6}·₂ 4·_{4 + 2}·₂ " 4 2 # = 2 " 4 2 # = " 8 4 # La componente ortogonal es z=y−_y_ˆ ₌ " 7 6 # − " 8 4 # = " −₁ 2 #

Si todo es correcto, ˆy·_z_{= 0. Efectivamente (8}_,₄₎·₍−₁_,_{2) =}−_{8 + 8 = 0.} Ejercicio 7.23. Por proyecci ón de un vectoryen la direcci ón de otrouse entiende muchas veces la norma de la proyecci ón ortogonal. Demostrad que esa norma es

k_proy uyk=

y·_u k_uk.

(8)

La distancia de un vector y a una recta L se define como la norma de su componente ortogonalz=y−_proy

Lya la recta:

dist(y, L) =k_y−_proy

Lyk

En el caso del ejemplo 7.22 la distancia dey=

"

7 6

#

a la recta generada poru=

" 4 2 # es k_y−_proy Lyk=kzk= q (−₁₎2_{+ 2}2₌ √ 5

Interpretaci ón geométrica del teorema 7.20. EnRn, con la f órmula de la pro-yecci ón ortogonal a la vista, podemos deducir que las coordenadas ci de un

vectoryrespecto a una base ortogonal{_u₁_{, . . . ,}_u_n}_{son las proyecciones} ortogona-les con respecto a los ejesLi generados por los vectoresui de la base:

y= y·u1 u₁·_u₁u1+ y·_u₂ u₂·_u₂u2+· · ·+ y·_u_n u_n·_u_nun

= proy_L₁y+ proy_L₂y+· · ·_{+ proy}

Lny (7.5) En términos geométricos, estos ejes forman un sistema de referencia ortogonal deRn= Gen{_u₁_{, . . . ,}_u_n}_{, es decir, de ejes ortogonales. Un sistema de referencia} asociado a una base no ortogonal es mucho más inc ómodo de utilizar, puesto que sus coordenadas han de averiguarse a través de la resoluci ón de un sistema, de la matriz del cambio de base, o de otros procedimientos que siempre involucran la inversi ón de una matriz. Las proyecciones ortogonales son más sencillas de calcular, puesto que involucran únicamente productos escalares.

Conjuntos ortonormales

Se puede dar un paso más en la simplificaci ón de las bases a utilizar: conseguir encontrar unabase ortonormaldel espacio considerado. Una base ortonormal es una base ortogonal{_u₁_{, . . . ,}_u_p}_{compuesta de}_{vectores unitarios, es decir,}k_u_ik_{= 1} parai = 1, . . . , p. Eso era precisamente la base can ónica{_e₁_{, . . . ,}_e_n}_de_Rn_{, una base} ortonormal ( pero no la única ).

Ejemplo 7.24.Normalizando los vectores de una base ortogonal se con-sigue una base ortonormal. Por ejemplo, normalizando la base del ejemplo 7.17 se obtiene que

v₁=             3. √ 11 1. √ 11 1. √ 11             , v₂=             −₁. √ 6 2. √ 6 1. √ 6             , v₃=             −₁. √ 66 −₄. √ 66 7. √ 66            

(9)

es una base ortonormal.

Cuando se disponen de un conjunto ortonormal de vectores deRm, se puede formar una matriz cuyas columnas sean esos vectores. Este tipo de matrices es importante en la pr´actica, como veremos m´as adelante, y se pueden caracterizar mediante el siguiente resultado.

Teorema 7.25. La matrizU dem×_n_{tiene columnas ortonormales si y s´olo si}

UTU =In (7.6)

Demostraci´on. Es directa.

Teorema 7.26. SiU es una matrizm×_n_{de columnas y}_x_e_y_{vectores de}_Rn_{, entonces} 1. k_U_xk₌k_xk

2. (Ux)·₍_U_{y) =}_x·_y

3. (Ux)·₍_U_{y) = 0}_{si y s´olo si}_x·_y_{= 0}

Demostraci´on. Se prueba primero 2:

(Ux)·₍_U_{y) = (}_U_x)T₍_u_{y) =}_xT_UT_U_y₌_xT_y₌_x·_y Los casos 1 y 3 son claras consecuencias del caso 2.

Es importante interpretar geométricamente las propiedades anteriores. Consi-deremos una aplicaci ón matricialT(x) =UxdeRnaRm. La propiedad 2 significa que los productos escalares son respetados por la aplicaci ón. Las propiedades 1 y 2 significan que, en consecuencia, la norma y la ortogonalidad también son preservadas por la aplicaci ón.

Ejemplo 7.27.SeaU =             1. √ 2 2.3 1. √ 2 −₂.₃ 0 1.3             yx= "√ 2 3 #

. Las columnas deU son ortonormales y UTU=       1. √ 2 . √ 2 0 2.3 −₂._{3 1}.₃      =             1. √ 2 2.3 1. √ 2 −₂.₃ 0 1.3             = " 1 0 0 1 #

(10)

Se tiene queUx=             1. √ 2 2.3 1. √ 2 −₂.₃ 0 1.3             "√ 2 3 # =         3 −₁ 11         por lo que k_U_xk₌ √ 9 + 1 + 1 = √ 11 y k_xk₌ √ 2 + 9 = √ 11

SiT(x) =Uxes una transformaci ´on lineal matricialT :Rn→_Rn_{, la matriz}_U _es cuadrada. A las matrices cuadradas cuyas columnas son un conjunto ortogonal se las denominamatrices ortogonales. Tienen la siguiente propiedad:U−1=UT, ya que por (7.6) UT es la inversa por la izquierda de U, y entonces por el teorema 2.27 k. tambi´en lo es por la derecha.

Ejemplo 7.28. La matriz U =             3. √ 11 −₁. √ 6 −₁. √ 66 1. √ 11 2. √ 6 −₄. √ 66 1. √ 11 1. √ 6 7. √ 66             es ortogonal, porque es cuadrada y sus columnas son ortonormales.

Ejercicio 7.29. Demostrad que las filas de una matriz ortogonal forman un conjunto ortonormal.

7.3. Proyecciones ortogonales

Teorema 7.30(La descomposici ´on ortogonal). SeaW un subespacio de un espacio vectorialV . TodoydeV puede escribirse de manera ´unica como una suma

y= ˆy+z

conyˆ enW yzenW ⊥. Si{_u₁_{, . . . ,}_u_p}_{es una base ortogonal de}W _{, entonces}

ˆ y= _hhy,u1i u₁,u₁iu1+· · ·+ D y,u_pE D u_p,u_pEup z=y −_y_ˆ ˆ y= y·u1 u₁·_u₁u1+· · ·+ y·_u_p u_p·_u_pup z=y−yˆ (7.7)

Se dice queproy_W y= ˆyes laproyecci´on ortogonal deysobreW . Demostraci´on. Calculando

z·_y_ˆ _{= (y}−_y)_ˆ ·_y_ˆ ₌ y·u1

u₁·_u₁(y−y)ˆ ·u1+· · ·+ y·_u_p

(11)

7.3. PROYECCIONES ORTOGONALES 141

Pero todos los términos del lado derecho (i = 1, . . . , p) h_y−_y_ˆ_,_u_ii₌h_y_,_u_ii − h_y_ˆ_,_u_ii =h_y_,_u_ii − * h_y_,_u₁i h_u₁_,_u₁iu1+· · ·+ D y,u_pE D u_p,u_pEup,ui + =h_y_,_u_ii − hy,uii h_u_i_,_u_iihui,uii=hy,uii − hy,uii= 0 son cero. Por tanto,zes ortogonal aW ,z∈W ⊥_{. La descomposici ón es única por} lo siguiente. Supongamos que existen dos maneras de descomponery,y= ˆy₁+z₁ yy= ˆy₂+z₂, con ˆy₁, ˆy₂enW yz₁,z₁enW ⊥. Entonces ˆy₁+z₁= ˆy₂+z₂, es decir

ˆ

y₁−_y_ˆ₂₌_z₁−_z₂

donde el lado derecho es un vector deW y el izquierdo deW⊥, y son iguales. El ´unico vector com ´un aW yW ⊥es0, as´ı que ˆy₁= ˆy₂ yz₁=z₂.

Ejemplo 7.31.Seanu₁=         2 5 −₁         ,u₂=         −₂ 1 1         yy=         1 2 3         . El conjunto{_u₁_,_u₂}_es

una base ortogonal deW = Gen{_u₁_,_u₂}_{, porque son dos vectores} orto-gonales y, por tanto, linealmente independientes. La descomposici ´on ortogonal deycomo suma de un vector deW m´as otro deW ⊥

y= ˆy+z se obtiene con ˆ y= y·u1 u₁·_u₁u1+ y·_u₂ u₂·_u₂u2= 9 30         2 5 −₁         +3 6         −₂ 1 1         =           −₂.₅ 2 1.5           y z=y−_y_ˆ ₌           7.5 0 14.5          

siendo f´acil (y ´util) comprobar que es ortogonal aW z·_u₁₌_z·_u₂_{= 0}

(12)

La descomposici ´on es entonces y=         1 2 3         = ˆy+z=           −₂.₅ 2 1.5           +           7.5 0 14.5          

La interpretaci ón geométrica de la proyecci ón ortogonal de un vector so-bre un subespacio es sencilla: cada uno de los términos en ˆyes la proyecci ón ortogonal deysobre el eje de una base ortogonal de W . Sumando todas esas proyecciones, se obtiene un vector de W que es la proyecci ón ortogonal de y sobreW . Es interesante hacer notar que la proyección ortogonales siempre la misma, independientemente de la base ortogonal paraW que estemos usando en la f órmula (7.7).

Dos desigualdades. Dado un vector v en un espacio con producto interno, y dado un subespacioW de dimensi ón finita, se puede aplicar el teorema de Pitágoras a la descomposici ón ortogonal

k_vk2₌k_proy

W vk2+kv−proyW vk2

Esto implica que la norma de la proyecci ´on ortogonal k_proy_W _vk _{siempre es} menor o igual que la norma del vectork_vk_{. Y la siguiente importante} desigual-dad.

Teorema 7.32(Desigualdad de Cauchy-Schwarz). Para todou,v∈V

| h_u_,_vi | ≤ k_ukk_vk _(7.8) Demostraci´on. Siu=0la igualdad se cumple. Suponiendou_,0, denotandoW = Gen{_u} k_proy_W _vk₌ h_v_,_ui h_u_,_uiu = | h_{| h}v,ui | u,ui |kuk= | h_v_,_ui | k_uk2 kuk= | h_v_,_ui | k_uk Comok_proy_W _vk ≤ k_vk | h_v_,_ui | k_uk ≤ kvk ⇔ | hy,vi | ≤ kukkvk

Teorema 7.33(Desigualdad triangular). Para todou,v∈V

(13)

Demostraci´on.

k_u₊_vk2₌k_uk2₊k_vk2_{+ 2}h_u_,_vi ≤ k_uk2₊k_vk2_{+ 2}| h_u_,_vi |

≤ k_uk2₊k_vk2_{+ 2}k_ukk_vk_{= (}k_uk₊k_vk₎2

Ejercicio 7.34. ¿ Puede ser quek_u₊_vk2≥ k_uk2₊k_vk2 _?

Propiedades de las proyecciones ortogonales. La primera observaci ón es que siyestá dentro deW , entonces su proyecci ón ortogonal es él mismo:

Siyest´a enW = Gen{_u₁_{, . . . ,}_u_p}_{, entonces proy}_W _y₌_y

como se puede deducir comparando las coordenadas de yen la base ortogo-nal (7.5) con la f órmula de la proyecci ón (7.7) ( es la misma expresi ón ) En este caso, el vector normalz ser´ıa0. De hecho, esto es consecuencia del siguiente teorema de enorme utilidad práctica.

Teorema 7.35 (Teorema de mejor aproximaci ón). Sea W un subespacio de un espacio vectorial V, eyun vector deV . Entoncesy, la proyección ortogonal deˆ y sobreW , es el punto más cercano aydeW:

dist(y,y)ˆ <dist(y,w) ( ´ok_y_ˆ−_yk_<k_w−_yk₎ para todowenW distinto dey.ˆ

Una interpretaci ón de este teorema es la siguiente. Supongamos que s ólo disponemos de los vectores del subespacio W para describir los vectores del espacio totalV . Entonces, dado un vector generaly∈V_{, el mejor vector dentro} deV para describiryes su proyecci ón ortogonal ˆy, en el sentido de que es el más cercano ayde todos los que están enW. Si el vectoryya estaba enW , su proyecci ón ortogonal es él mismo, ˆy=y. Este teorema demuestra de una manera alternativa la unicidad de la proyecci ón ortogonal ˆy, que es independiente de la base ortogonal deW que estemos usando. Adicionalmente, el vectorz=y−_y_ˆ _es elvector error, siendo el error la distancia deyaW , es decirk_zk₌k_y−_y_ˆk_.

Demostración. Si v∈W _{es un vector cualquiera de}W _{, entonces, como ˆ}_y∈W _, también ˆy−_v∈W _{. El vector}_z₌_y−_y_ˆ _{es ortogonal a cualquier vector en}W _{, por} el teorema 7.8, y en particular a ˆy−_{v. Por ello, el teorema de Pitágoras 7.9 afirma} que

k_y−_y_ˆk2₊k_y_ˆ−_vk2 ₌k_y−_y_ˆ_{+ ˆ}_y−_vk2₌k_y−_vk2

Es decir, la distancia ( al cuadrado )k_y−_vk2 _de_y_{a cualquier vector}_v_,_y_ˆ _deW es mayor que la distancia ( al cuadrado )k_y−_y_ˆk2 _de_y_{a ˆ}_y.

(14)

Ejemplo 7.36. Sean u1 =         2 5 −₁         , u2 =         −₂ 1 1         , y =         1 2 3         y W = Gen{_u₁_,_u₂} como en el ejemplo 7.31. La proyecci ´on ortogonal deysobreW era

ˆ y= y·u1 u₁·_u₁u1+ y·_u₂ u₂·_u₂u2= 9 30         2 5 −₁         +3 6         −₂ 1 1         =           −₂.₅ 2 1.5          

que es el punto m´as cercano aydeW.

La distancia de un puntoya un subespacio se define como la distancia del punto al punto más cercano deW . Ese punto más cercano, como hemos demostrado, es el correspondiente a la proyecci ón ortogonal de ysobreW . Esta distancia es la norma del vectorz=y−_{y. En el caso del ejemplo 7.31, es}_ˆ

q (7₅)2_{+ (}14 5 )2= 1 5 √ 49 + 196 = 7₅ √ 5. Ejemplo 7.37.Siy=         −₁ −₅ 10         ,u₁=         5 −₂ 1         yu₂=         1 2 −₁         , la distancia deyaW = Gen{_u₁_,_u₂}_{es la longitud}k_y−_y_ˆk_{, donde ˆ}_y_{= proy}_W _{y. La proyecci ´on ˆ}_y se calcula con una base ortogonal deW que, afortunadamente,u₁ yu₂forman. Entonces: ˆ y= proy_W y= y·u1 u₁·_u₁u1+ y·_u₂ u₂·_u₂u2 = 15 30         5 −₂ 1         −21 6         1 2 −₁         =           5.2 −₁ 1.2           −           7.2 7 −₇.₂           =         −₁ −₈ 4         y z = y − _y_ˆ ₌         −₁ −₅ 10         −         −₁ −₈ 4         =         0 3 6         , k_zk ₌ √ 32_{+ 6}2 _{= 3} √ 5 que es la distancia deyaW .

Cuando la base deW de que disponemos no s ólo es ortogonal, sino ortonormal, la expresi ón de la proyecci ón ortogonal se simplifica, e incluso adquiere una interesante forma matricial.

(15)

Teorema 7.38. Si B ={_u₁_{, . . . ,}_u_p}_{es una base ortonormal de un subespacio}W _de un espacio vectorialV, entonces

proy_W y=h_y_,_u₁i_u₁₊· · ·₊D_y_,_u_pE_u_p

proy_W y= (y·_u₁₎_u₁₊· · ·_{+ (}_y·_u_p₎_u_p (7.10)

SiV =Rn, yU=hu₁ u₂ · · · _u_pi_entonces

[y]_B =UTy y proy_W y=U UTy ∀_y∈_Rn _(7.11) Demostración. Las f órmulas (7.10) de la proyecci ón son consecuencia directa de queh_u_i_,_u_ii_{= 1 en la f órmula (7.7). Las coordenadas de}_y_{en la base ortonormal}B son los coeficientesci =y·ui =uTi yen (7.10), con lo que se demuestra que [y]B = UTy. La f órmula matricial es simplemente la regla del producto matriz-vector que expresa proy_W ycomo combinaci ón lineal de las columnas{_u₁_{, . . . ,}_u_p}_de_U_.

Suele ser más ventajoso usar la f órmula (7.7) que (7.10), con una base dada ortogonal, puesto que normalizar suele dar lugar a la introducci ón de ra´ıces cuadradas que complican los cálculos.

Destaquemos que hemos formado, a partir de una matriz U den×_p_{, dos} matrices, UTU de p×_p _y _{U U}T _de _n×_n _{que se comportan, si} W _{es Col}_U_, como

UTUx=Ipx=x ∀x∈Rp

U UTy= proy_W y ∀_y∈_Rn

La matrizU UT es unamatriz de proyeccióno, en la jerga habitual, unproyector ortogonal. Su existencia demuestra que la proyecci ón ortogonal es una operaci ón lineal, y en aplicaciones es interesante disponer de una matriz que implementa la operaci ón, pudiendo ser utilizada cuando se deben proyectar muchos vectores sobre el mismo subespacio.

Ejercicio 7.39. Es fácil diagonalizar un proyector ortogonal visualizando geométri-camente la proyecci ón: ¿ cuáles serán los espacios propios ? ¿ Y los valores propios correspondientes ?

Cuando U es cuadrada ( de n×_n _{) con columnas ortonormales, tenemos} una matriz ortogonal, ColU es todoRn, las columnas forman una base deRny tantoUTU comoU UT son la identidad UTU =U UT =In ( el proyector es la

(16)

7.4. El proceso de Gram-Schmidt

Las f órmulas de la proyecci ón ortogonal dadas en las secciones anteriores dependen em modo esencial de que se disponga de una base ortogonal{_u₁_{, . . . ,}_u_p} del subespacio considerado. Pero, dado un subespacioW, ¿ y si no disponemos de una base ortogonal suya ? A continuaci ón veremos un procedimiento que construye expl´ıcitamente una base ortogonal partiendo de una base cualquiera del subespacio. Dicho sea de paso, este procedimiento también demuestra que siempre existe una base ortonogonal de un subespacio de dimensi ón finita.

Ejemplo 7.40.SeaW = Gen{_x₁_,_x₂}_con_x₁₌

        3 6 0         yx₂=         1 2 2         . Constr ´uyase una base ortogonal deW .

Se toma como primer vector ax1,v1=x1. Como segundo vector, a la

componente ortogonal dex₂ respecto av₁:v₂=x₂−_proy v1x2: v₂=x₂−x2·v1 v₁·_v₁v1=         0 0 2        

El conjunto{_v₁_,_v₂}_{es ortogonal, y ambos vectores est´an en}W_{. Es la} base ortogonal deseada.

Ejemplo 7.41.Seanx₁=             1 1 1 1             ,x₂=             0 1 1 1             ,x₃=             0 0 1 1             , con lo que{_x₁_,_x₂_,_x₃}_es

linealmente dependiente, y base del subespacio que generan enR4. Constr ´uyase una base ortogonal de este espacio.

Los dos primeros pasos son los mismos del ejemplo anterior: v1=x1 v2=x2−proyv1x1=x2− x₂·_v₁ v₁·_v₁v1=                  −₃.₄ 1.4 1.4 1.4                 

(17)

poste-7.5. M´INIMOS CUADRADOS 147 riores, eligiendo v0₂= 4v2=             −₃ 1 1 1            

Para encontrar el tercer vector, calculemos la componente ortogonal dex₃ al subespacio generado por los dos vectores anteriores W2 =

Gen{_v₁_,_v0 2}: v₃=x₃−_proy W2x3=x3 −x3·v1 v1·v1 v₁−x3·v2 v2·v2 v₂=                 0 −₂.₃ 1.3 1.3                

que podemos sustituir, si queremos, porv0₃= 3v3. La base ortogonal

es la formada por los vectores

v₁=             1 1 1 1             , v0₂=             −₃ 1 1 1             , v0₃=             0 −₂ 1 1            

Teorema 7.42. Dada una base {_x₁_{, . . . ,}_x_p} _{de un subespacio} W _de V_{, una base} ortogonal deW es la formada por los vectores

v₁=x₁ v2=x2− h_x₂_,_v₁i h_v₁_,_v₁iv1 v3=x3− h_x₃_,_v₁i h_v₁_,_v₁iv1− h_x₃_,_v₂i h_v₂_,_v₂iv2 .. . v_p=x_p− D x_p,v₁E h_v₁_,_v₁iv1− D x_p,v₂E h_v₂_,_v₂iv2− · · · − D x_p,v_p−₁ E D v_p−₁,v_p−₁ Evp−1

7.5. M´ınimos cuadrados

Como sabemos, hay sistemasAx=bque son inconsistentes y no tienen so-luci ´on. En la pr´actica, nos encontramos muchas veces con problemas de este

(18)

tipo. Basta con que la matrizAtenga más filas que columnas, para que la pro-babilidad de quebno esté en ColAsea elevada y, por tanto ( ver la proposici ón teorema 3.18 ) el sistema no tenga soluci ón.

La idea es encontrar el vector y=Ax del subespacio ColA que, ya que no puede serb, al menos sea el que m´as cercano se encuentre. Es decir, queremos encontrar el o los x tales que dist(Ax,b) = k_b−_A_xk _{sea m´ınima, para} _A _y _b dados. O, lo que es lo mismo, si bi e yi, con i = 1, . . . , m son las componentes de b e y, queremos encontrar la x tal que, si y= Ax, sea m´ınima k_b−_yk2 ₌ (b1−y1)2+· · ·+ (bm−ym)2, una suma de cuadrados ( de ah´ı el nombre de m´ınimos

cuadrados )

Definici ´on 7.43. SeanAdem×_n_y_b_en_Rm_{. Una}_{soluci´on por m´ınimos} cuadra-dosdeAx=bes un vectorxˆ tal que

k_b−_A_x_ˆk ≤ k_b−_A_xk para todoxenRn.

El teorema de mejor aproximaci ón 7.35 afirma que la soluci ón es aquella ( o aquellas ) ˆxtal quey=Axes la proyecci ón ˆb= proy_Col_Abdebsobre el espacio columna deA:

Axˆ = ˆb (7.12)

Este sistema tiene siempre soluci ón porque ˆbestá en el espacio columna deA. El denominado vector errorb−_bˆ _{es, por el teorema 7.8 de descomposici ón} ortogonal, la componente debortogonal al subespacio sobre el que se proyecta, ColA. Por tanto, es ortogonal a todas las columnasa_jdeA:a_j·_(b−_A_{x) =}_ˆ _aT

j (b−x) =ˆ

0. Podemos escribir esto matricialmente como

AT(b−_A_{x) =}_ˆ ₀

( Obs´ervese que pod´ıamos haber utilizado el teorema 7.16 para deducir este resultado: el ortogonal a ColAes NulAT ) Desarrollando

ATb−_AT_A_x_ˆ ₌₀ ⇔ _AT_A_x_ˆ₌_AT_b

Es decir, la ecuaci ´on fundamental de los c´alculos de m´ınimos cuadrados esATAx=

ATb, un sistema lineal denominadoecuaciones normales paraAx=b.

Teorema 7.44. El conjunto de soluciones por m´ınimos cuadrados deAx= bes el conjunto soluci´on de las ecuaciones normalesATAxˆ =ATb.

(19)

7.5. M´INIMOS CUADRADOS 149

Demostración. Hemos demostrado que si ˆxes una soluci ón por m´ınimos cuadra-dos, entonces es soluci ón de las ecuaciones normales. Viceversa, si ˆxes soluci ón de las ecuaciones normales,Axˆ−_b_{es ortogonal a todas las columnas de} _A_{. El} vector z = b−_A_x_ˆ _{es la componente ortogonal de} _b_{a Col}_A_{, y la componente} paralela esb−_z₌_A_{x, única por el teorema 7.8 de descomposici ón ortogonal.}_ˆ Entonces ha de ser igual a la proyecci ón debsobre ColA, es decirAxˆ = ˆb, y ˆxes una soluci ón por m´ınimos cuadrados.

El errorcometido por la o las soluciones de m´ınimos cuadrados es k_b−_bˆk_.

Ejemplo 7.45. A=         4 0 0 2 1 1         , b=         2 0 11         Entonces ATAx=ATb ⇔ " 17 1 1 5 # " x1 x2 # = " 19 11 # ComoATAes invertible ˆ x= (ATA)−1ATb= 1 84 " 5 −₁ −_{1 17} # " 19 11 # = " 1 2 #

El error de m´ınimos cuadradosk_b−_A_x_ˆk_{, como}

b=         2 0 11         y Axˆ =         4 0 0 2 1 1         " 1 2 # =         4 4 3         ⇒ _b−_A_x_ˆ₌         −₂ −₄ 8         esk_b−_A_x_ˆk₌p₍−₂₎2_{+ (}−₄₎2_{+ 8}2₌ √ 84

En el caso anteriorATAera invertible. No siempre es as´ı. Ejemplo 7.46. A=                      1 1 0 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1                      , b=                      −₃ −₁ 0 2 5 1                      ⇒_x_ˆ₌             3 −₅ −₂ 0             +x4             −₁ 1 1 1            

(20)

Hay un criterio para determinar cuándo la soluci ón al problema de m´ınimos cuadrados es única.

Teorema 7.47. La matriz ATA es invertible si y sólo si las columnas de A son linealmente independientes. En ese caso, la soluciónxˆpor m´ınimos cuadrados deAx= bes única y es

ˆ

x= (ATA)−1ATb

Demostraci´on. Las columnas deAson linealmente independientes si y solo si el espacio nulo NulA,∅no es trivial. La matrizATAes cuadrada, y es invertible si y solo si su espacio nulo Nul(ATA),∅no es trivial. Veamos que Nul(ATA) = NulA, por lo que el teorema quedar´a demostrado. Si 0=ATAx, entonces0= xTATAx=k_A_xk2_{, luego Nul(}_AT_A₎⊂_Nul_A_{. Y evidentemente Nul}_A⊂_Nul(_AT_A_), luego son dos conjuntos iguales.

La pseudoinversa de Moore-Penrose y el proyector ortogonal

Cuando tenemos un sistema Ax = b inconsistente se puede encontrar la soluci ´on por m´ınimos cuadrados resolviendo las ecuaciones normalesATAxˆ =

ATb. En el caso en que las columnas de A son linealmente independientes,

ATAes invertible, y podemos encontrar la soluci ´on de las ecuaciones normales invirtiendo esa matriz:

Axˆ =b ⇒ _x_ˆ _{= (}_AT_A₎−1_AT_b _si∃₍_AT_A₎−1

A la matriz A+ = (ATA)−1AT que da la soluci ´on de m´ınimos cuadrados se la denominapseudoinversadeA

Axˆ=b ⇒ _x_ˆ₌_A+_b

La pseudoinversaA+ es unainversa por la izaquierdadeA A+A= (ATA)−1ATA=I

SiAes cuadrada e invertible, la pseudoinversa coincide con la inversa (ATA)−1AT =A−1(AT)−1AT =A−1

Se puede obtener una f órmula para la proyecci ón ˆb = proy_Col_Ab en el caso de queAtenga columnas independientes. En efecto, seg ún (7.12) ˆb=Ax. Porˆ tanto

(21)

7.6. REGRESI ´ON LINEAL 151

La matrizA(ATA)−1AT es elproyector ortogonalsobre ColA, cuando las columnas deAforman una base de ColA( son linealmente independientes ) Es interesante observar que esta f ´ormula generaliza (7.11) aplicable en el caso de que la base deW = ColAsea ortonormal. Efectivamente, si este es el caso entoncesATA=I, y el proyector se convierte en

A(ATA)−1AT =AAT

.

7.6. Regresi ´on lineal

Un caso t´ıpico es de la la medici ´on de un sistema que sabemos reacciona de forma lineal a un est´ımulo. Por ejemplo, la determinaci ´on de una resistenciaR

mediante mediciones de las intensidades que la atraviesan i1,i2, . . . , in para

distintos valores del un voltaje aplicado v1, v2, . . . ,vn. Estas mediciones

con-ducen a un sistema de ecuacionesi1R=v1,i1R=v2, . . . ,inR=vn con una sola

inc ´ognita, de matriz ampliada

          i1 v1 .. . ... in vn          

. El sistema dif´ıcilmente ser´a compatible, pero nosotros necesitamos determinar de alg ´un modo la resistencia.

Xβ=y ⇔           i1 .. . in           R=           v1 .. . vn          

Lo podemos hacer por m´ınimos cuadrados:

XTX=hi1 · · · in i           i1 .. . in           =i₁2+· · ·₊_i2 n XTy=hi1 · · · in i h v1 · · · vn i =i1v1+· · ·+invn XTXβ=XTy ⇔₍_i2 1 +· · ·+in2)R=i1v1+· · ·+invn y la soluci ´on es R= i1v1+· · ·+invn i₁2+· · ·₊_i_n2 , 1 p v1 i1 +· · ·₊vn in !

(22)

En general, un problema de regresi ´on lineal de ajuste de la leyy=β0+β1x se

puede plantear matricialmente como

Xβ=y, con X=               1 x1 1 x2 .. . ... 1 xn               , β= " β0 β1 # , y=               y1 y₂ .. . y_n              

y esto es un problema de m´ınimos cuadrados. El error cuadr´atico que se minimiza es

||_y−_X_β||2 _{= (}_y₁−_β₀−_β₁_x₁₎2₊· · ·_{+ (}_y_n−_β₀−_β₁_x_n₎2_.

Las ecuaciones normales sonXTXβ=XTyy, si losxi no son todos iguales, hay

soluci ´on ´unica:

" 1 1 · · · ₁ x1 x2 · · · xn #               1 x1 1 x2 .. . ... 1 xn               " β0 β1 # = " 1 1 · · · ₁ x1 x2 · · · xn #               y1 y2 .. . yn               " n P xi P xi P(xi)2 # " β0 β1 # = " P yi P xiyi # , " β0 β1 # = 1 nP (xi)2−(Pxi)2 " _P (xi)2 −Pxi −P xi n # " P yi P xiyi #

con lo que la recta apropiada es

y= ( nP xiyi−(Pxi)(Pyi) nP (xi)2−(Pxi)2 ) x+ ( (P (xi)2)(Pyi)−(Pxi)(Pxiyi) nP (xi)2−(Pxi)2 ) .

Por ejemplo, un modelo de un sistema que se comporta aproximadamente de un modo lineal consiste en suponer que sixes un vector que codifica las entradas del sistema, la salida o respuesta es, seg ún este modelo lineal, un vectory=Ax dondeAes una matriz caracter´ıstica del sistema. En la práctica desconocemos esta matriz, y la tenemos que determinar realizando mediciones de diversas salidasyque son respuestas a correspondientes entradasx. Introduciendo su-ficientes entradas x1,. . . ,xp obtenemos, con un proceso de medici ón sobre el

sistema, salidas y₁,. . . ,yp correspondientes y con ellas podemos plantear un

sistema de ecuaciones

(23)

7.7. RESPUESTAS A LOS EJERCICIOS 153

Si x tiene n componentes, y A es dem×_n_{, las relaciones anteriores son}_p×_n ecuaciones sobre los coeficientesaijdeA. Si hacemosp=nmediciones, podemos

escribir esas ecuaciones en forma matricial

h

y₁ y₂ · · · _y_ni₌_Ah_x₁ _x₂ · · · _x_ni ⇔ _Y ₌_AX

y resolver para la matriz A=Y X−1. Este procedimiento puede presentar mu-chos inconvenientes: hay errores en la determinaci ón de las entradas x_i y las salidasy_i. No ser´ıa muy l ógico elegir dos entradasx_i yx_j iguales (x_i=x_j para dos mediciones distintas, pero si lo hiciéramos es muy posible que las salidas co-rrespondientesy_i,y_j fueran ( ligeramente ) distintas, con lo cual el sistema ser´ıa inconsistente ( ver (7.13) ) Lo más habitual es realizar muchas más mediciones de las necesarias,p > n, con lo cual la matrizX

7.7. Respuestas a los ejercicios

7.14 Como todos los vectores deW ⊥ son ortogonales a todos los vectores deW , vtiene que ser ortogonal a s´ı mismo:h_v_,_vi_{= 0. Eso implica, por la propiedad} correspondiente del producto interno, quev=0.

(24)

7.8. Resumen

Definici ´on(Producto interno). Para to-dou,v,wenV yc escalar: 1. h_u_,_vi₌h_v_,_ui 2. h_u₊_v_,_wi₌h_u_,_wi₊h_v_,_wi 3. h_c_u_,_vi₌h_u_{, c}_vi₌_ch_v_,_ui 4. h_u_,_ui ≥ ₀ _y h_u_,_ui _{= 0} _solo cuan-dou=0. Definici ´on. 1. Lalongitudonorma k_vk₌ph_v_,_vi₌ q v2₁+v₂2+· · ·₊_v2_n 2. Ladistanciaentreuyv dist(u,v) =k_v−_uk 3. Vectoresortogonalesu⊥_v h_u_,_vi_{= 0} ₍_u·_v_{= 0 )}

4. ´Angulo entre dos vectores

cosθ=_kv·w

vkk_wk, 0≤θ≤π. Teorema (Pit´agoras). u ⊥ _v _{si y s´olo} sik_u₊_vk2₌k_uk2₊k_vk2_.

Definici ´on(Complemento ortogonal). SiW ⊂V

W ⊥

={_x∈V _: _x_{es ortogonal a}W } Proposici ´on.

1. x∈W ⊥_{si y s´olo si}_x_{es ortogonal a} todos los vectores de un conjunto de generadores(cualquiera)deW. 2. W ⊥es un subespacio deV. Teorema. Adem×_n_.

(FilA)⊥= NulA y (ColA)⊥= NulAT

Teorema. S = {_u₁_{, . . . ,}_u_p} _ortogonal, u_i ,0∀i ⇒Slinte. independiente. Teorema. Sea{_u₁_{, . . . ,}_u_p}_{una base} orto-gonal deW . Entonces∀_y∈W

y= y·u1

u₁·_u₁u1+· · ·+ =

y·_u_p

u_p·_u_pup

Teorema (La descomposici ´on ortogo-nal). Sea W ⊂ V _{un subespacio de} V _.

Para todoy∈V

y= ˆy+z

conyˆ enW yzenW ⊥. Si{_u₁_{, . . . ,}_u_p}_es una base ortogonal deW , entonces

ˆ

y= y·u1

u₁·_u₁u1+· · ·+ =

y·_u_p

u_p·_u_pup

Se dice queproy_W y= ˆyes laproyecci´on ortogonal deysobreW.