• No se han encontrado resultados

Ortogonalidad y mínimos cuadrados

N/A
N/A
Protected

Academic year: 2021

Share "Ortogonalidad y mínimos cuadrados"

Copied!
24
0
0

Texto completo

(1)

Cap´ıtulo 7

Ortogonalidad y m´ınimos

cuadrados

7.1.

Producto interno, longitud y ortogonalidad

Definici ´on 7.1. Unproducto internoen un espacio vectorialV es una funci´on que asocia a cada par de vectoresu,vun n´umero realhu,vi, satisfaciendo los siguiente axiomas para todou,v,wenV ycescalar:

1. hu,vi=hv,ui

2. hu+v,wi=hu,wi+hv,wi 3. hcu,vi=hu, cvi=chv,ui

4. hu,ui ≥0yhu,ui= 0solo cuandou=0.

Ejemplo 7.2.EnRn, podemos escribir un producto internohu,vide dos vectoresuyvcomo suproducto escalar u·v:

u= (u1, u2, . . . , un), v= (v1, v2, . . . , vn) ⇒ u·v≡u1v1+u2v2+· · ·+unvn

Ser´a muy ´util escribir el producto escalaren forma matricial

v = uTv = hu1 u2 · · · uni               v1 v2 .. . vn               = u1v1 + u2v2 + · · · +unvn

No es dif´ıcil comprobar que el producto escalar satisface todos los axiomas para ser un producto interno.

(2)

Ejemplo 7.3.Definiendo, paraf , gC[a, b] (el espacio vectorial de fun-ciones continuas en [a, b]) f , g = Z b a f(t)g(t)dt

podemos mostrar, con las propiedades de la integral, que se cumplen todos los axiomas del producto interno.

Los espacios vectoriales que disponen de un producto interno se denominan es-pacios con producto interno. El ejemplo m´as importante de espacio con producto interno es el caso de Rn con el producto escalar ( ejemplo 7.2 ) denomina-doespacio eucl´ıdeo. Por ello, vamos a escribiren color rojolas definiciones o propiedades que son espec´ıficas del espacio eucl´ıdeoRn( se denomina con la misma notaci ´on que el espacio vectorial )

Norma

Definici ´on 7.4. Lalongitud(onorma)de un vectorv∈V es kvk=phv,vi=

v=

q

v12+v22+· · ·+vn2

La primera observaci ´on es que el ´unico vector cuya norma es 0, es el vector nulo0, como consecuencia inmediata de la definici ´on 7.1, punto 4. La longitud de un m ´ultiplo escalarcves|c|veces la longitud dev, porque

hcv, cvi=pc2hv,vi= |c|

√ hv,vi.

Es muy ´util calcular, dado un vectorv, un vectorude longitud unidad en la misma direcci ´on y sentido. Se obtiene con el denominado proceso de normaliza-ci ´on:u= (1/kvk)v( dividir el vector por su norma ) Los vectores cuya longitud es 1 se denominanvectores unitarios.

Ejemplo 7.5.SiW = Gen

("

2 3

#)

encuentre una base deW que consista en un vector unitario.

Distancia

Definici ´on 7.6. La distancia entre dos vectoresu,vde un espacio vectorial se define y denota por

(3)

7.1. PRODUCTO INTERNO, LONGITUD Y ORTOGONALIDAD 133

Ejercicio 7.7. Calculad la distancia entreu= (1,2,3) yv= (1,6,6).

Vectores ortogonales

La siguiente definici ´on generaliza la noci ´on de perpendicularidad a espacios vectoriales arbitrarios.

Definici ´on 7.8. Dos vectoresu,vde un espacio vectorial sonortogonalessi hu,vi= 0 (u·v= 0 )

El siguiente resultado cl´asico se generaliza y es mucho m´as transparente usando la teor´ıa vectorial.

Teorema 7.9 (Teorema de Pit´agoras). Dos vectores u,vson ortogonales si y s´olo siku+vk2=kuk2+kvk2.

Demostraci´on. ku+vk2=hu+v,u+vi=hu,ui+hu,vi+hv,ui+hv,vi=kuk2+kvk2+ 2hu,vi.

´

Angulo

En Bachillerato se suele definir el producto escalar de dos vectores enR2 con la propiedad demostrada en el siguiente teorema.

Teorema 7.10. Seanv,w∈R2y sea0θπel ´angulo entre ellos. Entoncesw=kvk kwkcosθ (7.1) Demostraci´on. La demostraci ´on se realiza calculandokwvk2 y estudiando el tri´angulo formado porvyw:

Observando la figura 7.1 y planteando el tri´angulo rect´angulo de la derecha tenemos quekwvk2=x2+kwk2sen2θ= (kvk − kwkcosθ)2+kwk2sen2θ=kvk2− 2kvkkwkcosθ+kwk2cos2θ+kwk2sen2θ, con lo que hemos demostrado el teorema del coseno, seg ´un el cual

kwvk2=kwk2+kvk2−2kwkkvkcosθ.

Igualando esta expresi ´on al resultado al desarrollo dekwvk2= (wv)·(wv) = kwk2+kvk2−2v·wse deduce quev·w=kvkkwkcosθ.

(4)

M L M€L k M k sen kMkcos N

Figura 7.1: el teorema del coseno.

El mismo resultado se obtiene enR3, ya que dos vectores cualesquiera deR3 subtienden un plano, isomorfo aR2, y al cual el problema se puede reducir. De hecho, la f ´ormula (7.1) se puede utilizar paradefinirel ´angulo entre dos vectores de un espacioRnde cualquier dimensi ´on.

Definici ´on 7.11( ´Angulo). Dados dos vectoresv,w∈Rn, el ´anguloθque subtienden es aquel comprendido entre0yπ, que satisface

cosθ=kv·w

vkkwk, 0≤θπ. (7.2)

Esta definici ´on no es incoherente debido a que el lado derecho de 7.2 es en valor absoluto menor o igual que 1, por la desigualdad de Cauchy-Schwarz (7.8), que demostraremos m´as adelante.

Ejercicio 7.12. Encontrad el ´angulo entre los vectoresv= (cosφ,senφ) y w= −(senφ,cosφ).

El complemento ortogonal

Si un vector xes ortogonal a todos los vectores vque se encuentran en un subespacioW , se dice quexesortogonalaW . Dado un subespacioW ⊂V de un espacio vectorialV , el conjunto de todos los vectoresx∈V ortogonales aW se denominacomplemento ortogonaldeW , denot´andose porW ⊥:

W ⊥

={x∈V : xes ortogonal aW }

(5)

7.2. CONJUNTOS ORTOGONALES 135

Ejercicio 7.14. Sivest´a enW y enW ⊥ simult´aneamente, demostrad que s ´olo puede serv=0.

Proposici ´on 7.15.

1. x ∈ W⊥ si y s´olo si x es ortogonal a todos los vectores de un conjunto de generadores(cualquiera)deW.

2. W ⊥es un subespacio deV.

Teorema 7.16. Sea una matrizAdem×n. El complemento ortogonal del espacio fila deAes el espacio nulo deA, y el complemento ortogonal del espacio columna deAes el espacio nulo deAT:

(FilA)⊥= NulA y (ColA)⊥= NulAT

Demostraci´on. Usese la regla fila-columna para demostrar el primer resultado.´ El segundo se demuestra aplicando el primero a la matrizAT.

7.2.

Conjuntos ortogonales

Un conjunto de vectores{u1, . . . ,un}es unconjunto ortogonalsi sus vectores son ortogonales dos a dos, es decir,Dui,ujE= 0 cuandoi,j.

Ejemplo 7.17.Mu´estrese que{u1,u2,u3}con

u1=         3 1 1         , u2=         −1 2 1         , u3=         −1/22 7/2        

es ortogonal.Soluci ´on: u1·u2,u2·u3,u3·u1. Dibujar.

Teorema 7.18. SiS= {u1, . . . ,up}es un conjunto ortogonal de vectores no nulos de un espacio vectorialV , entoncesSes linealmente independiente, y por lo tantoS es una base deGenS.

Demostraci´on. Multipl´ıquese por ui la combinaci ´on lineal c1u1+· · ·+cpup =0.

Completar

Definici ´on 7.19. Unabase ortogonal de un espacio vectorial es una base que es tambi´en un conjunto ortogonal.

(6)

Teorema 7.20. Sea{u1, . . . ,up}una base ortogonal de un espacio vectorialW . En-tonces siy∈W es un vector que escrito en funci´on de la base es

y=c1u1+c2u2+. . .+cpup

las coordenadasci se pueden calcular mediante una f´ormula directa

ci=

hy,uii hui,uii =

ui

ui·ui (i= 1, . . . , p) (7.3)

Demostraci´on. Basta com multiplicar escalarmente la expresi ´on de y por un vectorui:

ui·y=ui·(c1u1+c2u2+. . .+cpup) =c1ui·u1+· · ·+ciui·ui+· · ·+cpup·up =c1·0 +· · ·+ciui·ui+· · ·+cp·0 =ciui·ui

En una base ortogonal, el c´alculo de las coordenadas se simplifica mucho, por-que hay una operaci ´on por-que las produce directamente, sin necesidad de resolver un sistema de ecuaciones o invertir matrices.

Ejemplo 7.21. Demu´estrese que el conjunto S ={u1,u2,u3} del ejem-plo 7.17 es una base ortogonal deR3. Una vez hecho esto, encuentre

las coordenadas [y]S del vectory=

        6 1 −8         en la baseS. Soluci ´on: y=u12u22u3.

Proyecci ´on ortogonal

Proyecci ´on ortogonal sobre rectas. Sea dado un vectoru, no nulo, deRn. Con-sid´erese el problema de descomponer cualquier vectorydeRnen sucomponente paralelaauy su componente perpendicularau. Es decir, yser´a la suma de dos vectores

y= ˆy+z (7.4)

dondezes ortogonal au,u·z= 0, y ˆyes paralelo au, es decir ˆy=αupara alg ´un escalarαR. Hacer dibujo. EnR2 y quiz´asR3nuestra intuici ´on geom´etrica nos dice que esta descomposici ´on es posible y, aparentemente, ´unica, pero puede que en Rn la descomposici ´on (7.4) no sea posible, o sea posible de muchas maneras.

(7)

7.2. CONJUNTOS ORTOGONALES 137

La condici ´on de ortogonalidad dezyues

0 =z·u= (yy)ˆ ·u= (yαy)·u=y·uαu·u que tiene soluci ´on ( ´unica)α= y·u

u, lo cual implica a su vez que ˆy= y·uuu. El vector ˆyes la componente deyparalela au, oproyecci ´on ortogonal de y sobre u, yz=y−yˆ es la componente perpendicular o componente ortogonal a u de y. En un espacio vectorial general, la proyecci ´on ortogonal de un vectorysobre otrouse define de forma evidente ˆy= hhy,ui

u,uiu.

Una observaci ´on importante es que la proyecci ´on ortogonal deysobreuno depende de la longitud de u, s ´olo de su direcci ´on (ni siquiera de su sentido): proyectarysobre cualquier m ´ultiplocuda lugar a ˆy= y·(cu)

(cu)·(cu)cu= y·uuu, lo mismo que sobreu. Entonces, realmente la proyecci ´on ortogonal de un vectory est´a determinada s ´olo por la recta que generau, es decir, elsubespacioLgenerado poru. Por ello, se usa la siguiente notaci ´on:

ˆ

y= proyLy=hhy,ui u,uiu=

u

uu

proyecci ´on ortogonal deysobre la rectaLgenerada poru

Ejemplo 7.22.Seany= " 7 6 # yu= " 4 2 #

. Calc ´ulese la proyecci ´on ortogonal deysobreu. Escr´ıbaseycomo la suma de un vector enL= Gen{u}y otro ortogonal au. Se suele abusar de la notaci ´on escribiendo proyu en vez de proyL.

Soluci ´on:La proyecci ´on ortogonal es ˆ y= proyuy= y·u u·uu= 7·4 + 6·24 + 2·2 " 4 2 # = 2 " 4 2 # = " 8 4 # La componente ortogonal es z=y−yˆ = " 7 6 # − " 8 4 # = " −1 2 #

Si todo es correcto, ˆy·z= 0. Efectivamente (8,4)·(1,2) =8 + 8 = 0. Ejercicio 7.23. Por proyecci ´on de un vectoryen la direcci ´on de otrouse entiende muchas veces la norma de la proyecci ´on ortogonal. Demostrad que esa norma es

kproy uyk=

u kuk.

(8)

La distancia de un vector y a una recta L se define como la norma de su componente ortogonalz=y−proy

Lya la recta:

dist(y, L) =kyproy

Lyk

En el caso del ejemplo 7.22 la distancia dey=

"

7 6

#

a la recta generada poru=

" 4 2 # es kyproy Lyk=kzk= q (−1)2+ 22= √ 5

Interpretaci ´on geom´etrica del teorema 7.20. EnRn, con la f ´ormula de la pro-yecci ´on ortogonal a la vista, podemos deducir que las coordenadas ci de un

vectoryrespecto a una base ortogonal{u1, . . . ,un}son las proyecciones ortogona-les con respecto a los ejesLi generados por los vectoresui de la base:

y= y·u1 u1·u1u1+ y·u2 u2·u2u2+· · ·+ y·un un·unun

= proyL1y+ proyL2y+· · ·+ proy

Lny (7.5) En t´erminos geom´etricos, estos ejes forman un sistema de referencia ortogonal deRn= Gen{u1, . . . ,un}, es decir, de ejes ortogonales. Un sistema de referencia asociado a una base no ortogonal es mucho m´as inc ´omodo de utilizar, puesto que sus coordenadas han de averiguarse a trav´es de la resoluci ´on de un sistema, de la matriz del cambio de base, o de otros procedimientos que siempre involucran la inversi ´on de una matriz. Las proyecciones ortogonales son m´as sencillas de calcular, puesto que involucran ´unicamente productos escalares.

Conjuntos ortonormales

Se puede dar un paso m´as en la simplificaci ´on de las bases a utilizar: conseguir encontrar unabase ortonormaldel espacio considerado. Una base ortonormal es una base ortogonal{u1, . . . ,up}compuesta devectores unitarios, es decir,kuik= 1 parai = 1, . . . , p. Eso era precisamente la base can ´onica{e1, . . . ,en}deRn, una base ortonormal ( pero no la ´unica ).

Ejemplo 7.24.Normalizando los vectores de una base ortogonal se con-sigue una base ortonormal. Por ejemplo, normalizando la base del ejemplo 7.17 se obtiene que

v1=             3. √ 11 1. √ 11 1. √ 11             , v2=             −1. √ 6 2. √ 6 1. √ 6             , v3=             −1. √ 66 −4. √ 66 7. √ 66            

(9)

7.2. CONJUNTOS ORTOGONALES 139

es una base ortonormal.

Cuando se disponen de un conjunto ortonormal de vectores deRm, se puede formar una matriz cuyas columnas sean esos vectores. Este tipo de matrices es importante en la pr´actica, como veremos m´as adelante, y se pueden caracterizar mediante el siguiente resultado.

Teorema 7.25. La matrizU dem×ntiene columnas ortonormales si y s´olo si

UTU =In (7.6)

Demostraci´on. Es directa.

Teorema 7.26. SiU es una matrizm×nde columnas yxeyvectores deRn, entonces 1. kUxk=kxk

2. (Ux)·(Uy) =x·y

3. (Ux)·(Uy) = 0si y s´olo six·y= 0

Demostraci´on. Se prueba primero 2:

(Ux)·(Uy) = (Ux)T(uy) =xTUTUy=xTy=x·y Los casos 1 y 3 son claras consecuencias del caso 2.

Es importante interpretar geom´etricamente las propiedades anteriores. Consi-deremos una aplicaci ´on matricialT(x) =UxdeRnaRm. La propiedad 2 significa que los productos escalares son respetados por la aplicaci ´on. Las propiedades 1 y 2 significan que, en consecuencia, la norma y la ortogonalidad tambi´en son preservadas por la aplicaci ´on.

Ejemplo 7.27.SeaU =             1. √ 2 2.3 1. √ 2 −2.3 0 1.3             yx= "√ 2 3 #

. Las columnas deU son ortonormales y UTU=       1. √ 2 . √ 2 0 2.3 −2.3 1.3      =             1. √ 2 2.3 1. √ 2 −2.3 0 1.3             = " 1 0 0 1 #

(10)

Se tiene queUx=             1. √ 2 2.3 1. √ 2 −2.3 0 1.3             "√ 2 3 # =         3 −1 11         por lo que kUxk= √ 9 + 1 + 1 = √ 11 y kxk= √ 2 + 9 = √ 11

SiT(x) =Uxes una transformaci ´on lineal matricialT :RnRn, la matrizU es cuadrada. A las matrices cuadradas cuyas columnas son un conjunto ortogonal se las denominamatrices ortogonales. Tienen la siguiente propiedad:U−1=UT, ya que por (7.6) UT es la inversa por la izquierda de U, y entonces por el teorema 2.27 k. tambi´en lo es por la derecha.

Ejemplo 7.28. La matriz U =             3. √ 11 −1. √ 6 −1. √ 66 1. √ 11 2. √ 6 −4. √ 66 1. √ 11 1. √ 6 7. √ 66             es ortogonal, porque es cuadrada y sus columnas son ortonormales.

Ejercicio 7.29. Demostrad que las filas de una matriz ortogonal forman un conjunto ortonormal.

7.3.

Proyecciones ortogonales

Teorema 7.30(La descomposici ´on ortogonal). SeaW un subespacio de un espacio vectorialV . TodoydeV puede escribirse de manera ´unica como una suma

y= ˆy+z

conenW yzenW ⊥. Si{u1, . . . ,up}es una base ortogonal deW , entonces

ˆ y= hhy,u1i u1,u1iu1+· · ·+ D y,upE D up,upEup z=y −yˆ ˆ y= y·u1 u1·u1u1+· · ·+ y·up up·upup z=y−yˆ (7.7)

Se dice queproyW y= ˆyes laproyecci´on ortogonal deysobreW . Demostraci´on. Calculando

yˆ = (yy)ˆ ·yˆ = y·u1

u1·u1(y−y)ˆ ·u1+· · ·+ y·up

(11)

7.3. PROYECCIONES ORTOGONALES 141

Pero todos los t´erminos del lado derecho (i = 1, . . . , p) hyyˆ,uii=hy,uii − hyˆ,uii =hy,uii − * hy,u1i hu1,u1iu1+· · ·+ D y,upE D up,upEup,ui + =hy,uii − hy,uii hui,uiihui,uii=hy,uii − hy,uii= 0 son cero. Por tanto,zes ortogonal aW ,z∈W ⊥. La descomposici ´on es ´unica por lo siguiente. Supongamos que existen dos maneras de descomponery,y= ˆy1+z1 yy= ˆy2+z2, con ˆy1, ˆy2enW yz1,z1enW ⊥. Entonces ˆy1+z1= ˆy2+z2, es decir

ˆ

y1yˆ2=z1z2

donde el lado derecho es un vector deW y el izquierdo deW⊥, y son iguales. El ´unico vector com ´un aW yW ⊥es0, as´ı que ˆy1= ˆy2 yz1=z2.

Ejemplo 7.31.Seanu1=         2 5 −1         ,u2=         −2 1 1         yy=         1 2 3         . El conjunto{u1,u2}es

una base ortogonal deW = Gen{u1,u2}, porque son dos vectores orto-gonales y, por tanto, linealmente independientes. La descomposici ´on ortogonal deycomo suma de un vector deW m´as otro deW ⊥

y= ˆy+z se obtiene con ˆ y= y·u1 u1·u1u1+ y·u2 u2·u2u2= 9 30         2 5 −1         +3 6         −2 1 1         =           −2.5 2 1.5           y z=y−yˆ =           7.5 0 14.5          

siendo f´acil (y ´util) comprobar que es ortogonal aW z·u1=z·u2= 0

(12)

La descomposici ´on es entonces y=         1 2 3         = ˆy+z=           −2.5 2 1.5           +           7.5 0 14.5          

La interpretaci ´on geom´etrica de la proyecci ´on ortogonal de un vector so-bre un subespacio es sencilla: cada uno de los t´erminos en ˆyes la proyecci ´on ortogonal deysobre el eje de una base ortogonal de W . Sumando todas esas proyecciones, se obtiene un vector de W que es la proyecci ´on ortogonal de y sobreW . Es interesante hacer notar que la proyecci´on ortogonales siempre la misma, independientemente de la base ortogonal paraW que estemos usando en la f ´ormula (7.7).

Dos desigualdades. Dado un vector v en un espacio con producto interno, y dado un subespacioW de dimensi ´on finita, se puede aplicar el teorema de Pit´agoras a la descomposici ´on ortogonal

kvk2=kproy

W vk2+kv−proyW vk2

Esto implica que la norma de la proyecci ´on ortogonal kproyW vk siempre es menor o igual que la norma del vectorkvk. Y la siguiente importante desigual-dad.

Teorema 7.32(Desigualdad de Cauchy-Schwarz). Para todou,v∈V

| hu,vi | ≤ kukkvk (7.8) Demostraci´on. Siu=0la igualdad se cumple. Suponiendou,0, denotandoW = Gen{u} kproyW vk= hv,ui hu,uiu = | h| hv,ui | u,ui |kuk= | hv,ui | kuk2 kuk= | hv,ui | kuk ComokproyW vk ≤ kvk | hv,ui | kuk ≤ kvk ⇔ | hy,vi | ≤ kukkvk

Teorema 7.33(Desigualdad triangular). Para todou,v∈V

(13)

7.3. PROYECCIONES ORTOGONALES 143

Demostraci´on.

ku+vk2=kuk2+kvk2+ 2hu,vi ≤ kuk2+kvk2+ 2| hu,vi |

≤ kuk2+kvk2+ 2kukkvk= (kuk+kvk)2

Ejercicio 7.34. ¿ Puede ser queku+vk2≥ kuk2+kvk2 ?

Propiedades de las proyecciones ortogonales. La primera observaci ´on es que siyest´a dentro deW , entonces su proyecci ´on ortogonal es ´el mismo:

Siyest´a enW = Gen{u1, . . . ,up}, entonces proyW y=y

como se puede deducir comparando las coordenadas de yen la base ortogo-nal (7.5) con la f ´ormula de la proyecci ´on (7.7) ( es la misma expresi ´on ) En este caso, el vector normalz ser´ıa0. De hecho, esto es consecuencia del siguiente teorema de enorme utilidad pr´actica.

Teorema 7.35 (Teorema de mejor aproximaci ´on). Sea W un subespacio de un espacio vectorial V, eyun vector deV . Entoncesy, la proyecci´on ortogonal deˆ y sobreW , es el punto m´as cercano aydeW:

dist(y,y)ˆ <dist(y,w) ( ´okyˆyk<kwyk) para todowenW distinto dey.ˆ

Una interpretaci ´on de este teorema es la siguiente. Supongamos que s ´olo disponemos de los vectores del subespacio W para describir los vectores del espacio totalV . Entonces, dado un vector generaly∈V, el mejor vector dentro deV para describiryes su proyecci ´on ortogonal ˆy, en el sentido de que es el m´as cercano ayde todos los que est´an enW. Si el vectoryya estaba enW , su proyecci ´on ortogonal es ´el mismo, ˆy=y. Este teorema demuestra de una manera alternativa la unicidad de la proyecci ´on ortogonal ˆy, que es independiente de la base ortogonal deW que estemos usando. Adicionalmente, el vectorz=y−yˆ es elvector error, siendo el error la distancia deyaW , es decirkzk=kyyˆk.

Demostraci´on. Si v∈W es un vector cualquiera deW , entonces, como ˆy∈W , tambi´en ˆy−v∈W . El vectorz=yyˆ es ortogonal a cualquier vector enW , por el teorema 7.8, y en particular a ˆy−v. Por ello, el teorema de Pit´agoras 7.9 afirma que

kyyˆk2+kyˆvk2 =kyyˆ+ ˆyvk2=kyvk2

Es decir, la distancia ( al cuadrado )kyvk2 deya cualquier vectorv,yˆ deW es mayor que la distancia ( al cuadrado )kyyˆk2 deya ˆy.

(14)

Ejemplo 7.36. Sean u1 =         2 5 −1         , u2 =         −2 1 1         , y =         1 2 3         y W = Gen{u1,u2} como en el ejemplo 7.31. La proyecci ´on ortogonal deysobreW era

ˆ y= y·u1 u1·u1u1+ y·u2 u2·u2u2= 9 30         2 5 −1         +3 6         −2 1 1         =           −2.5 2 1.5          

que es el punto m´as cercano aydeW.

La distancia de un puntoya un subespacio se define como la distancia del punto al punto m´as cercano deW . Ese punto m´as cercano, como hemos demostrado, es el correspondiente a la proyecci ´on ortogonal de ysobreW . Esta distancia es la norma del vectorz=y−y. En el caso del ejemplo 7.31, esˆ

q (75)2+ (14 5 )2= 1 5 √ 49 + 196 = 75 √ 5. Ejemplo 7.37.Siy=         −15 10         ,u1=         5 −2 1         yu2=         1 2 −1         , la distancia deyaW = Gen{u1,u2}es la longitudkyyˆk, donde ˆy= proyW y. La proyecci ´on ˆy se calcula con una base ortogonal deW que, afortunadamente,u1 yu2forman. Entonces: ˆ y= proyW y= y·u1 u1·u1u1+ y·u2 u2·u2u2 = 15 30         5 −2 1         −21 6         1 2 −1         =           5.2 −1 1.2           −           7.2 7 −7.2           =         −18 4         y z = y − yˆ =         −15 10         −         −18 4         =         0 3 6         , kzk = √ 32+ 62 = 3 √ 5 que es la distancia deyaW .

Cuando la base deW de que disponemos no s ´olo es ortogonal, sino ortonormal, la expresi ´on de la proyecci ´on ortogonal se simplifica, e incluso adquiere una interesante forma matricial.

(15)

7.3. PROYECCIONES ORTOGONALES 145

Teorema 7.38. Si B ={u1, . . . ,up}es una base ortonormal de un subespacioW de un espacio vectorialV, entonces

proyW y=hy,u1iu1+· · ·+Dy,upEup

proyW y= (y·u1)u1+· · ·+ (y·up)up (7.10)

SiV =Rn, yU=hu1 u2 · · · upientonces

[y]B =UTy y proyW y=U UTy ∀yRn (7.11) Demostraci´on. Las f ´ormulas (7.10) de la proyecci ´on son consecuencia directa de quehui,uii= 1 en la f ´ormula (7.7). Las coordenadas deyen la base ortonormalB son los coeficientesci =y·ui =uTi yen (7.10), con lo que se demuestra que [y]B = UTy. La f ´ormula matricial es simplemente la regla del producto matriz-vector que expresa proyW ycomo combinaci ´on lineal de las columnas{u1, . . . ,up}deU.

Suele ser m´as ventajoso usar la f ´ormula (7.7) que (7.10), con una base dada ortogonal, puesto que normalizar suele dar lugar a la introducci ´on de ra´ıces cuadradas que complican los c´alculos.

Destaquemos que hemos formado, a partir de una matriz U den×p, dos matrices, UTU de p×p y U UT de n×n que se comportan, si W es ColU, como

UTUx=Ipx=x ∀x∈Rp

U UTy= proyW y ∀yRn

La matrizU UT es unamatriz de proyecci´ono, en la jerga habitual, unproyector ortogonal. Su existencia demuestra que la proyecci ´on ortogonal es una operaci ´on lineal, y en aplicaciones es interesante disponer de una matriz que implementa la operaci ´on, pudiendo ser utilizada cuando se deben proyectar muchos vectores sobre el mismo subespacio.

Ejercicio 7.39. Es f´acil diagonalizar un proyector ortogonal visualizando geom´etri-camente la proyecci ´on: ¿ cu´ales ser´an los espacios propios ? ¿ Y los valores propios correspondientes ?

Cuando U es cuadrada ( de n×n ) con columnas ortonormales, tenemos una matriz ortogonal, ColU es todoRn, las columnas forman una base deRny tantoUTU comoU UT son la identidad UTU =U UT =In ( el proyector es la

(16)

7.4.

El proceso de Gram-Schmidt

Las f ´ormulas de la proyecci ´on ortogonal dadas en las secciones anteriores dependen em modo esencial de que se disponga de una base ortogonal{u1, . . . ,up} del subespacio considerado. Pero, dado un subespacioW, ¿ y si no disponemos de una base ortogonal suya ? A continuaci ´on veremos un procedimiento que construye expl´ıcitamente una base ortogonal partiendo de una base cualquiera del subespacio. Dicho sea de paso, este procedimiento tambi´en demuestra que siempre existe una base ortonogonal de un subespacio de dimensi ´on finita.

Ejemplo 7.40.SeaW = Gen{x1,x2}conx1=

        3 6 0         yx2=         1 2 2         . Constr ´uyase una base ortogonal deW .

Se toma como primer vector ax1,v1=x1. Como segundo vector, a la

componente ortogonal dex2 respecto av1:v2=x2proy v1x2: v2=x2−x2·v1 v1·v1v1=         0 0 2        

El conjunto{v1,v2}es ortogonal, y ambos vectores est´an enW. Es la base ortogonal deseada.

Ejemplo 7.41.Seanx1=             1 1 1 1             ,x2=             0 1 1 1             ,x3=             0 0 1 1             , con lo que{x1,x2,x3}es

linealmente dependiente, y base del subespacio que generan enR4. Constr ´uyase una base ortogonal de este espacio.

Los dos primeros pasos son los mismos del ejemplo anterior: v1=x1 v2=x2−proyv1x1=x2− x2·v1 v1·v1v1=                  −3.4 1.4 1.4 1.4                 

(17)

poste-7.5. M´INIMOS CUADRADOS 147 riores, eligiendo v02= 4v2=             −3 1 1 1            

Para encontrar el tercer vector, calculemos la componente ortogonal dex3 al subespacio generado por los dos vectores anteriores W2 =

Gen{v1,v0 2}: v3=x3proy W2x3=x3 −x3·v1 v1·v1 v1−x3·v2 v2·v2 v2=                 0 −2.3 1.3 1.3                

que podemos sustituir, si queremos, porv03= 3v3. La base ortogonal

es la formada por los vectores

v1=             1 1 1 1             , v02=             −3 1 1 1             , v03=             0 −2 1 1            

Teorema 7.42. Dada una base {x1, . . . ,xp} de un subespacio W de V, una base ortogonal deW es la formada por los vectores

v1=x1 v2=x2− hx2,v1i hv1,v1iv1 v3=x3− hx3,v1i hv1,v1iv1− hx3,v2i hv2,v2iv2 .. . vp=xp− D xp,v1E hv1,v1iv1− D xp,v2E hv2,v2iv2− · · · − D xp,vp1 E D vp1,vp1 Evp−1

7.5.

M´ınimos cuadrados

Como sabemos, hay sistemasAx=bque son inconsistentes y no tienen so-luci ´on. En la pr´actica, nos encontramos muchas veces con problemas de este

(18)

tipo. Basta con que la matrizAtenga m´as filas que columnas, para que la pro-babilidad de quebno est´e en ColAsea elevada y, por tanto ( ver la proposici ´on teorema 3.18 ) el sistema no tenga soluci ´on.

La idea es encontrar el vector y=Ax del subespacio ColA que, ya que no puede serb, al menos sea el que m´as cercano se encuentre. Es decir, queremos encontrar el o los x tales que dist(Ax,b) = kbAxk sea m´ınima, para A y b dados. O, lo que es lo mismo, si bi e yi, con i = 1, . . . , m son las componentes de b e y, queremos encontrar la x tal que, si y= Ax, sea m´ınima kbyk2 = (b1−y1)2+· · ·+ (bmym)2, una suma de cuadrados ( de ah´ı el nombre de m´ınimos

cuadrados )

Definici ´on 7.43. SeanAdem×nybenRm. Unasoluci´on por m´ınimos cuadra-dosdeAx=bes un vectortal que

kbAxˆk ≤ kbAxk para todoxenRn.

El teorema de mejor aproximaci ´on 7.35 afirma que la soluci ´on es aquella ( o aquellas ) ˆxtal quey=Axes la proyecci ´on ˆb= proyColAbdebsobre el espacio columna deA:

Axˆ = ˆb (7.12)

Este sistema tiene siempre soluci ´on porque ˆbest´a en el espacio columna deA. El denominado vector errorb−bˆ es, por el teorema 7.8 de descomposici ´on ortogonal, la componente debortogonal al subespacio sobre el que se proyecta, ColA. Por tanto, es ortogonal a todas las columnasajdeA:aj·(bAx) =ˆ aT

j (b−x) =ˆ

0. Podemos escribir esto matricialmente como

AT(b−Ax) =ˆ 0

( Obs´ervese que pod´ıamos haber utilizado el teorema 7.16 para deducir este resultado: el ortogonal a ColAes NulAT ) Desarrollando

ATb−ATAxˆ =0ATAxˆ=ATb

Es decir, la ecuaci ´on fundamental de los c´alculos de m´ınimos cuadrados esATAx=

ATb, un sistema lineal denominadoecuaciones normales paraAx=b.

Teorema 7.44. El conjunto de soluciones por m´ınimos cuadrados deAx= bes el conjunto soluci´on de las ecuaciones normalesATAxˆ =ATb.

(19)

7.5. M´INIMOS CUADRADOS 149

Demostraci´on. Hemos demostrado que si ˆxes una soluci ´on por m´ınimos cuadra-dos, entonces es soluci ´on de las ecuaciones normales. Viceversa, si ˆxes soluci ´on de las ecuaciones normales,Axˆ−bes ortogonal a todas las columnas de A. El vector z = b−Axˆ es la componente ortogonal de ba ColA, y la componente paralela esb−z=Ax, ´unica por el teorema 7.8 de descomposici ´on ortogonal.ˆ Entonces ha de ser igual a la proyecci ´on debsobre ColA, es decirAxˆ = ˆb, y ˆxes una soluci ´on por m´ınimos cuadrados.

El errorcometido por la o las soluciones de m´ınimos cuadrados es kbbˆk.

Ejemplo 7.45. A=         4 0 0 2 1 1         , b=         2 0 11         Entonces ATAx=ATb ⇔ " 17 1 1 5 # " x1 x2 # = " 19 11 # ComoATAes invertible ˆ x= (ATA)−1ATb= 1 84 " 5 −11 17 # " 19 11 # = " 1 2 #

El error de m´ınimos cuadradoskbAxˆk, como

b=         2 0 11         y Axˆ =         4 0 0 2 1 1         " 1 2 # =         4 4 3         ⇒ bAxˆ=         −24 8         eskbAxˆk=p(2)2+ (4)2+ 82= √ 84

En el caso anteriorATAera invertible. No siempre es as´ı. Ejemplo 7.46. A=                      1 1 0 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1                      , b=                      −31 0 2 5 1                      ⇒xˆ=             3 −52 0             +x4             −1 1 1 1            

(20)

Hay un criterio para determinar cu´ando la soluci ´on al problema de m´ınimos cuadrados es ´unica.

Teorema 7.47. La matriz ATA es invertible si y s´olo si las columnas de A son linealmente independientes. En ese caso, la soluci´onpor m´ınimos cuadrados deAx= bes ´unica y es

ˆ

x= (ATA)−1ATb

Demostraci´on. Las columnas deAson linealmente independientes si y solo si el espacio nulo NulA,∅no es trivial. La matrizATAes cuadrada, y es invertible si y solo si su espacio nulo Nul(ATA),∅no es trivial. Veamos que Nul(ATA) = NulA, por lo que el teorema quedar´a demostrado. Si 0=ATAx, entonces0= xTATAx=kAxk2, luego Nul(ATA)NulA. Y evidentemente NulANul(ATA), luego son dos conjuntos iguales.

La pseudoinversa de Moore-Penrose y el proyector ortogonal

Cuando tenemos un sistema Ax = b inconsistente se puede encontrar la soluci ´on por m´ınimos cuadrados resolviendo las ecuaciones normalesATAxˆ =

ATb. En el caso en que las columnas de A son linealmente independientes,

ATAes invertible, y podemos encontrar la soluci ´on de las ecuaciones normales invirtiendo esa matriz:

Axˆ =b ⇒ xˆ = (ATA)−1ATb si(ATA)−1

A la matriz A+ = (ATA)−1AT que da la soluci ´on de m´ınimos cuadrados se la denominapseudoinversadeA

Axˆ=b ⇒ xˆ=A+b

La pseudoinversaA+ es unainversa por la izaquierdadeA A+A= (ATA)−1ATA=I

SiAes cuadrada e invertible, la pseudoinversa coincide con la inversa (ATA)−1AT =A−1(AT)−1AT =A−1

Se puede obtener una f ´ormula para la proyecci ´on ˆb = proyColAb en el caso de queAtenga columnas independientes. En efecto, seg ´un (7.12) ˆb=Ax. Porˆ tanto

(21)

7.6. REGRESI ´ON LINEAL 151

La matrizA(ATA)−1AT es elproyector ortogonalsobre ColA, cuando las columnas deAforman una base de ColA( son linealmente independientes ) Es interesante observar que esta f ´ormula generaliza (7.11) aplicable en el caso de que la base deW = ColAsea ortonormal. Efectivamente, si este es el caso entoncesATA=I, y el proyector se convierte en

A(ATA)−1AT =AAT

.

7.6.

Regresi ´on lineal

Un caso t´ıpico es de la la medici ´on de un sistema que sabemos reacciona de forma lineal a un est´ımulo. Por ejemplo, la determinaci ´on de una resistenciaR

mediante mediciones de las intensidades que la atraviesan i1,i2, . . . , in para

distintos valores del un voltaje aplicado v1, v2, . . . ,vn. Estas mediciones

con-ducen a un sistema de ecuacionesi1R=v1,i1R=v2, . . . ,inR=vn con una sola

inc ´ognita, de matriz ampliada

          i1 v1 .. . ... in vn          

. El sistema dif´ıcilmente ser´a compatible, pero nosotros necesitamos determinar de alg ´un modo la resistencia.

=y ⇔           i1 .. . in           R=           v1 .. . vn          

Lo podemos hacer por m´ınimos cuadrados:

XTX=hi1 · · · in i           i1 .. . in           =i12+· · ·+i2 n XTy=hi1 · · · in i h v1 · · · vn i =i1v1+· · ·+invn XTXβ=XTy ⇔(i2 1 +· · ·+in2)R=i1v1+· · ·+invn y la soluci ´on es R= i1v1+· · ·+invn i12+· · ·+in2 , 1 p v1 i1 +· · ·+vn in !

(22)

En general, un problema de regresi ´on lineal de ajuste de la leyy=β0+β1x se

puede plantear matricialmente como

Xβ=y, con X=               1 x1 1 x2 .. . ... 1 xn               , β= " β0 β1 # , y=               y1 y2 .. . yn              

y esto es un problema de m´ınimos cuadrados. El error cuadr´atico que se minimiza es

||yXβ||2 = (y1β0β1x1)2+· · ·+ (ynβ0β1xn)2.

Las ecuaciones normales sonXTXβ=XTyy, si losxi no son todos iguales, hay

soluci ´on ´unica:

" 1 1 · · · 1 x1 x2 · · · xn #               1 x1 1 x2 .. . ... 1 xn               " β0 β1 # = " 1 1 · · · 1 x1 x2 · · · xn #               y1 y2 .. . yn               " n P xi P xi P(xi)2 # " β0 β1 # = " P yi P xiyi # , " β0 β1 # = 1 nP (xi)2−(Pxi)2 " P (xi)2 −Pxi −P xi n # " P yi P xiyi #

con lo que la recta apropiada es

y= ( nP xiyi−(Pxi)(Pyi) nP (xi)2−(Pxi)2 ) x+ ( (P (xi)2)(Pyi)−(Pxi)(Pxiyi) nP (xi)2−(Pxi)2 ) .

Por ejemplo, un modelo de un sistema que se comporta aproximadamente de un modo lineal consiste en suponer que sixes un vector que codifica las entradas del sistema, la salida o respuesta es, seg ´un este modelo lineal, un vectory=Ax dondeAes una matriz caracter´ıstica del sistema. En la pr´actica desconocemos esta matriz, y la tenemos que determinar realizando mediciones de diversas salidasyque son respuestas a correspondientes entradasx. Introduciendo su-ficientes entradas x1,. . . ,xp obtenemos, con un proceso de medici ´on sobre el

sistema, salidas y1,. . . ,yp correspondientes y con ellas podemos plantear un

sistema de ecuaciones

(23)

7.7. RESPUESTAS A LOS EJERCICIOS 153

Si x tiene n componentes, y A es dem×n, las relaciones anteriores sonp×n ecuaciones sobre los coeficientesaijdeA. Si hacemosp=nmediciones, podemos

escribir esas ecuaciones en forma matricial

h

y1 y2 · · · yni=Ahx1 x2 · · · xni ⇔ Y =AX

y resolver para la matriz A=Y X−1. Este procedimiento puede presentar mu-chos inconvenientes: hay errores en la determinaci ´on de las entradas xi y las salidasyi. No ser´ıa muy l ´ogico elegir dos entradasxi yxj iguales (xi=xj para dos mediciones distintas, pero si lo hici´eramos es muy posible que las salidas co-rrespondientesyi,yj fueran ( ligeramente ) distintas, con lo cual el sistema ser´ıa inconsistente ( ver (7.13) ) Lo m´as habitual es realizar muchas m´as mediciones de las necesarias,p > n, con lo cual la matrizX

7.7.

Respuestas a los ejercicios

7.14 Como todos los vectores deW ⊥ son ortogonales a todos los vectores deW , vtiene que ser ortogonal a s´ı mismo:hv,vi= 0. Eso implica, por la propiedad correspondiente del producto interno, quev=0.

(24)

7.8.

Resumen

Definici ´on(Producto interno). Para to-dou,v,wenV yc escalar: 1. hu,vi=hv,ui 2. hu+v,wi=hu,wi+hv,wi 3. hcu,vi=hu, cvi=chv,ui 4. hu,ui ≥ 0 y hu,ui = 0 solo cuan-dou=0. Definici ´on. 1. Lalongitudonorma kvk=phv,vi= q v21+v22+· · ·+v2n 2. Ladistanciaentreuyv dist(u,v) =kvuk 3. Vectoresortogonalesu⊥v hu,vi= 0 (u·v= 0 )

4. ´Angulo entre dos vectores

cosθ=kv·w

vkkwk, 0≤θπ. Teorema (Pit´agoras). u ⊥ v si y s´olo siku+vk2=kuk2+kvk2.

Definici ´on(Complemento ortogonal). SiW ⊂V

W ⊥

={x∈V : xes ortogonal aW } Proposici ´on.

1. x∈W ⊥si y s´olo sixes ortogonal a todos los vectores de un conjunto de generadores(cualquiera)deW. 2. W ⊥es un subespacio deV. Teorema. Adem×n.

(FilA)⊥= NulA y (ColA)⊥= NulAT

Teorema. S = {u1, . . . ,up} ortogonal, ui ,0∀iSlinte. independiente. Teorema. Sea{u1, . . . ,up}una base orto-gonal deW . Entoncesy∈W

y= y·u1

u1·u1u1+· · ·+ =

up

up·upup

Teorema (La descomposici ´on ortogo-nal). Sea W ⊂ V un subespacio de V .

Para todoy∈V

y= ˆy+z

conenW yzenW ⊥. Si{u1, . . . ,up}es una base ortogonal deW , entonces

ˆ

y= y·u1

u1·u1u1+· · ·+ =

up

up·upup

Se dice queproyW y= ˆyes laproyecci´on ortogonal deysobreW.

Referencias

Documento similar