Tema 1. Preliminares. 1.1 Resultados algebraicos

(1)

Tema 1. Preliminares

1.1 Resultados algebraicos

Consideraremos habitualmente matrices con coeficientes enRy, ocasionalmente, en C. Denotaremos por ai j a los elementos de una matriz A, donde el sub´ındice i indica la fila y el j la columna donde se sit´ua dicho elemento.

Diremos que A es de orden m×n si tiene m filas y n columnas. A se dice cuadrada de orden n si es de

orden n×n. Los elementos deRnser´an considerados como matrices columna, es decir, de orden n×1:

x∈Rn si y s´olo si x=     x1 .. . xn    

A lo largo del texto tanto los vectores como las matrices aparecer´an escritos en letra negrita.

Si A=(ai j) denotaremos Ata la matriz traspuesta de A (At=(aji)). Una matriz cuadrada A es sim´etrica si A=At_.

La suma de las matrices A=(ai j) y B=(bi j) es la matriz A+B=(ai j+bi j). El producto de la matriz A=(ai j) por el escalar k es la matriz kA=(kai j).

Una matriz cuadrada D= (di j) se dice diagonal si di j = 0 para todo i , j. A la matriz diagonal, que

verifica dii = 1 para todo i se le denomina matriz identidad (la denotaremos por I ´o In si queremos especificar su orden). La matriz nula 0 es aquella cuyos elementos son todos iguales a 0.

El producto de las matrices A=(ai j) de orden m×n y B=(bi j) de orden n×p es la matriz AB=(ci j), de orden m×p, cuyo elemento (i,j) es ci j=

P_n

k=1aikbk j.

Una matriz cuadrada A es invertible o no singular si existe otra matriz A−1de modo que AA−1=A−1A= I. En caso contrario se dice que A es singular. Una matriz cuadrada A es ortogonal si su traspuesta y su inversa coinciden, es decir, si AAt=AtA=I.

Denotaremos por|A|´o det(A) al determinante de la matriz cuadrada A. Veamos algunas propiedades de las matrices:

• (At₎t₌_A _, _(AB)t₌_Bt_At

• At_A₌₀ _{si y s´olo si} _A₌₀

• (A−1₎−1₌_A _, _(AB)−1 ₌_B−1_A−1

• (At₎−1₌_(A−1₎t

• kA=Ak para todo escalar k.

• AI=IA=A

• Si AB=0 (A y B cuadradas) entonces A=0 ´o B=0 ´o ambas son singulares. Traza

La traza de una matriz cuadrada de orden n, A = (ai j), es la suma de los elementos de su diagonal principal, es decir, tr(A)=Pn

i=1aii. Algunas propiedades de la traza:

• tr(A+B)=tr(A)+tr(B) , tr(kA)=k tr(A) siendo k escalar. • tr(A)=tr(At₎

(2)

• tr(AB)=tr(BA)

• tr(ABC)=tr(CAB)=tr(BCA) (que no tienen por qu´e ser iguales a tr(ACB))

• si P invertible tr(A)=tr(P−1AP) Rango

El rango de una matriz A es el m´aximo n´umero de filas o columnas linealmente independientes. Lo denotaremos por r(A). Algunas propiedades del rango son:

• r(AB)≤min{r(A),r(B)}

• r(A+B)≤r(A)+r(B)

• Si A,C invertibles, entonces r(AB)=r(BC)=r(B)

• Si A y B son matrices cuadradas de orden n y rangos r y s, respectivamente, entonces r(AB) ≥

r+s−n

• r(AtA)=r(AAt)=r(A)=r(At)

• Una matriz cuadrada de orden n, A, es invertible si y s´olo si r(A)=n si y s´olo si|A|,0. Autovalores y autovectores

Sea A una matriz cuadrada de orden n. Diremos que un escalarλes un valor propio ´o autovalor de A si existe un vector X=(x1, . . . ,xn)t_,_{0 tal que AX}₌_λ_{X. Diremos que X es un vector propio ´o autovector} de la matriz A.

Llamaremos polinomio caracter´ıstico de la matriz A al determinanteχA(x)=|xIn−A|. Este polinomio tiene algunas propiedades interesantes:

• El grado deχA(x) es n. Adem´as el coeficiente principal deχA(x) es igual a 1.

• El coeficiente del monomio de grado n−1 deχA(x) es igual a la traza de A.

• El t´ermino independiente deχA(x) es igual a| −A|=(−1)n|A|. En consecuencia, A es invertible si

y s´olo si 0 no es autovalor de A.

• Si P es invertible, entoncesχA(x)=χP−1_AP(x).

• Si A es una matriz de orden n con n autovalores1(no necesariamente distintos), entonces el deter-minante de A es igual al producto de dichos autovalores y la traza de A es igual a la suma de los mismos. Es decir, si A tiene orden n yλ1, . . . , λnson los autovalores de A, entonces

|A|=λ1· · · · ·λn tr(A)=λ1+· · ·+λn

Diremos que una matriz cuadrada de orden n, A, es diagonalizable si existe otra matriz P invertible tal que P−1_AP₌_{D, siendo D una matriz diagonal. Los elementos de la diagonal de D son los autovalores} de A. Las columnas de la matriz P son n autovectores de A linealmente independientes. (La matriz P, en general, no es ´unica)

Toda matriz simétrica A es diagonalizable. Además podemos encontrar una base ortonormal de autovec-tores de A, es decir, existe una matriz ortogonal P tal que PtAP=D, con D diagonal. (Los autovectores ortonormales son los que forman las columnas de P. No necesariamente son los primeros que vamos a encontrar. Una forma de obtener P, podr´ıa ser hallar primero una base cualquiera de autovectores y ortonormalizarla por el método de Gramm-Schmidt)

(3)

Matrices y formas cuadr´aticas definidas positivas.

Si A es una matriz cuadrada de orden n, x∈Rn_{, se denomina forma cuadr´atica a cualquier expresi´on del} tipo xtAx= n X i,j=1 ai jxixj

Matrices distintas pueden tener asociada la misma forma cuadr´atica. As´ı por ejemplo es sencillo com-probar que si B=(A+At)/2, entonces

xtAx=xtBx

Pero a diferencia de A, B es simétrica, y además es la única matriz simétrica cuya forma cuadrática asociada es xtBx. De este modo, cuando tengamos una forma cuadrática xtAx, siempre supondremos que A es la matriz simétrica asociada a dicha forma.

Diremos que una forma cuadr´atica xt_{Ax es definida positiva si}

xtAx≥0 ∀x∈Rn ; xtAx=0 ⇐⇒ x=0

Diremos xtAx es semidefinida positiva si xtAx ≥ 0 para todo x ∈ Rn. La matriz A es (semi)definida positiva si su forma cuadr´atica asociada lo es.

Un criterio sencillo para determinar si una forma cuadrática es definida positiva es el criterio de Sylvester: una matriz simétrica es definida positiva si y sólo si sus menores principales son mayores estrictamente que 0. En consecuencia todas las matrices definidas positivas son no singulares. Si los menores principales son mayores o iguales que 0, entonces la matriz es semidefinida positiva. Veamos algunas propiedades de estas matrices:

• Si P es una matriz no singular y A sim´etrica, entonces A es (semi)definida positiva si y s´olo si Pt_{AP es (semi)definida positiva.}

• Si A es definida positiva entonces existe una matriz no singular P tal que Pt_AP₌_{I. A es definida} positiva si y s´olo si existe Q no singular tal que A=QtQ (Q=P−1).

• Los autovalores de una matriz definida positiva son mayores estrictamente que 0. Si la matriz es semidefinida positiva sus autovalores son no negativos, aunque pueden ser 0.

A partir de matrices no cuadradas se pueden obtener matrices definidas positivas. En efecto, si A es una matriz de orden m×n, entonces se verifica que tanto AtA como AAt son matrices semidefinidas positivas. Ahora bien,

• Si r(A)=m entonces AAt_{es definida positiva.}

• Si r(A)=n entonces At_{A es definida positiva.} Por último, también tiene interés el siguiente resultado:

Si A es una matriz sim´etrica de orden n y rango r con coeficientes reales entonces existe una matriz L de orden n×r (con coeficientes complejos) tal que A=LLt_.

Si adem´as A es semidefinida positiva entonces L tiene coeficientes reales.

Por último, si A es definida positiva entonces L es cuadrada y no singular. Además podemos tomar L simétrica y definida positiva. En este último caso denotaremos a L como A1/2, es decir la matriz “ra´ız cuadrada” de la matriz A. Una interesante propiedad es que (A1/2)−1= (A−1)1/2. A esta última matriz la denotaremos A−1/2.

(4)

Matrices idempotentes.

Una matriz cuadrada P se dice idempotente si P2 ₌ _{P. Es sencillo verificar que si P es una matriz} idempotente entonces sus ´unicos posibles autovalores, tanto reales como complejos, son 0 y/´o 1. Veamos algunas propiedades de las matrices idempotentes:

• Si P idempotente entonces (si y s´olo si) I−P idempotente.

• Si P es una matriz sim´etrica de orden n entonces P es idempotente de rango r si y s´olo si P tiene el autovalor 1 con multiplicidad r y el 0 con multiplicidad n−r.

• Si P sim´etrica idempotente entonces r(P)=tr(P).

• Si P sim´etrica idempotente entonces es semidefinida positiva.

• Sean A y V matrices sim´etricas y V definida positiva. Si AV tiene como ´unicos autovalores 0 y 1 entonces AV es idempotente.

Producto de Kronecker

Si A =(ai j) y B =(bi j) son matrices de dimensiones m×n y p×q, respectivamente, el producto de

Kronecker de A con B es otra matriz de dimensi´on mp×nq definida mediante la expresi´on:

A⊗B=     a11B a12B . . . a1nB .. . ... . .. ... am1B a12B . . . amnB     Enumeramos a continuaci´on algunas propiedades importantes:

• (λA)⊗B=A⊗(λB)=λ(A⊗B),λescalar

• (A+B)⊗C=A⊗C+B⊗C y A⊗(B+C)=A⊗B+A⊗C

• A⊗(B⊗C)=(A⊗B)⊗C

• (A⊗B)(C⊗D)=(AC)⊗(BD)

• (A⊗B)t₌_At_⊗_Bt

• Si A y B son cuadradas tr(A⊗B)=tr(A) tr(B)

• Si A y B son cuadradas de ´ordenes m y n, respectivamente, entonces det(A⊗B)=det(A)ndet(B)m

• Si A y B son cuadradas y no singulares entonces (A⊗B)ttambi´en es no singular y (A⊗B)−1 =A−1⊗B−1

El producto de Kronecker tiene cierta relaci´on con la “vectorizaci´on” de una matriz. Dada una matriz A=(ai j) de orden m×n denotamos por vec(A) al vector deRmndefinido por

vec(A)=(a11, . . . ,a1n,a21, . . . ,am1, . . . ,amn)t Se verifica que

(5)

Desigualdades de matrices y maximizaci´on

• (desigualdad de Cauchy-Schwarz) Si a,b son dos vectores p-dimensionales entonces (atb)2≤(ata)(btb)

y se da la igualdad si y s´olo si a,b son linealmente dependientes

• (desigualdad de Cauchy-Schwarz extendida) Si a,b son dos vectores p-dimensionales y B es una matriz cuadrada de orden p definida positiva entonces

(atb)2≤(atBa)(btB−1b)

• (lema de maximizaci´on) Si a es un vector p-dimensional y B es una matriz cuadrada de orden p definida positiva entonces

max

x,0

(xt_a)2 xt_Bx =a

t_B−1_a

y se alcanza sobre x=λB−1a para cualquier constanteλ,0.

• (maximización de formas cuadráticas sobre la esfera unidad) Sea B una matriz de orden p definida positiva con autovalores λ1 ≥ λ2 ≥ · · · ≥ λp > 0 y autovectores ortonormales e1,e2, . . . ,ep asociados. Entonces max x,0 xt_Bx xt_x =λ1 y se alcanza sobre x=e1 min x,0 xt_Bx xt_x =λp y se alcanza sobre x=ep Además, para k=2, . . . ,p−1 max x⊥e1,...,ek−1 xt_Bx xt_x =λk y se alcanza sobre x=ek

(6)

1.2 Distribuci´on Normal Multivariante y distribuciones relacionadas.

Sea V=(σi j) una matriz cuadrada de orden n, con coeficientes reales, sim´etrica y semidefinida positiva; y seaµ=(µ1, . . . , µn)t∈Rn

D´ . Diremos que el vector aleatorio (v.a.) n-dimensional X=(X1, . . . ,Xn)t_{sigue distribución} Normal n-dimensional de parámetrosµy V si su función caracter´ıstica es

ϕX(s)=exp{istµ−

1 2s

t

Vs} , s∈Rn

En tal caso lo denotaremos X∼ Nn(µ,V).

P:

• Si V es definida positiva, la funci´on de densidad de X es

f (x)= 1 (2π)n/2_|_V_|1/2exp{− 1 2(x−µ) t_V−1_(x₋_µ₎_} _, _x₌_(x 1, . . . ,xn)t∈Rn.

• El vector de medias de X esµy su matriz de covarianzas es V.

• Las distribuciones marginales de una distribuci´on Normal Multivariante son Normales. Concreta-mente, la distribuci´on marginal del vector X1=(X1, . . . ,Xk)t _k_<_{n es una Normal k-dimensional} de mediaµ₁y matriz de covarianzas V11, donde

µ1=(µ1, . . . , µk)t y V11=     σ11 . . . σ1k .. . . .. ... σk1 . . . σkk    

• Supongamos que dividimos la matriz de covarianzas V de la forma V= V11 V12

Vt 12 V22

!

siendo V11como en el punto anterior. La distribuci´on del vector X1=(X1, . . . ,Xk)t_condicionada a Xk+1 = xk+1, . . . ,Xn =xnes normal k dimensional de mediaµ1+V12V−221(x2−µ2) y matriz de covarianzas V11−V12V−1 22V t 12, siendo x2=(xk+1, . . . ,xn) t_y_µ 2=(µk+1, . . . , µn)t

• Sea X∼ Nn(µ,V) e Y=AX+β, donde A es una matriz k×n de rango k (k≤n) yβun vector

k×1. Entonces Y=(Y1, . . . ,Yk)t∼ Nk(Aµ+β,AVAt).

• Si Xt=(Xt₁,Xt₂) con X1=(X1, . . . ,Xk)ty X2=(Xk+1, . . . ,Xn)tentonces

X1y X2son independientes si y s´olo siσi j =Cov(Xi,Xj)=0 para todo i=1, . . . ,k y

j=k+1, . . . ,n

• X=(X1. . . ,Xn)t ∼ Nn(µ,V) si y sólo si toda combinación lineal de X1. . . ,Xnsigue distribución Normal (i.e. para todoλ∈Rn_,_λt_X_{∼ N}₍_λt_µ_,_λt_V_λ_)).

(7)

Distribuci´on Chi-cuadrado no central

D´ . Si X ∼ Nn(µ,In), llamaremos Chi-cuadrado no central con n grados de libertad y

pa-rámetro de descentralización µ∗ _{a la distribución de la variable aleatoria Y} ₌ _Xt_{X y escribiremos}

Y∼χ2_(n_{, µ}∗_).

P:

• Y tiene funci´on de densidad

f (x)= ∞ X k=0 exp{−µ∗}µ ∗k k! xn+22k−1exp{−x 2} Γ(n+₂2k)2n+22k si x>0; 0 si x≤0, siendoµ∗= 1₂µtµ.

• La funci´on generatriz de momentos de Y es

MY(s)=(1−2s)−n/2exp{−µ∗(1− 1

1−2s)} , s en un entorno de 0

• χ2_(n_,₀₎_≡_χ2_(n).

• Si X∼ Nn(µ, σ2In), entonces XtX/σ2∼χ2(n, µ∗), siendoµ∗=₂_σ12µ

t_µ_.

• Sean Yi∼χ2_(ni_{, µ}_{i), i}₌₁_{, . . . ,}_{k, variables aleatorias independientes. Entonces} k X i=1 Yi∼χ2( k X i=1 ni, k X i=1 µi)

Distribuci´on F-Snedecor no central

D´ . Si Y1 ∼χ2(n1, µ) e Y2 ∼χ2(n2,0) son v.a. independientes, se denomina distribución F de Snedecor no central con n1, n2grados de libertad y parámetro de descentralizaciónµa la distribución

de la v.a.

Z=Y1/n1

Y2/n2

y escribiremos Z∼F(n1,n2, µ). Z tiene funci´on de densidad

f (x)= ∞ X k=0 e−µµ k k! (n1 n2) n1+2k 2 Γ(n1+n2+2k 2 ) Γ(n1+2k 2 )Γ( n2 2) xn1 +2k 2 −1₍₁+n1 n2 x)−n1 +_n2+2k 2 _{si x}>_0; ₀ _{si x}≤₀ O´ : • F(n1,n2,0)≡F(n1,n2). • Si Y∼t(n) entonces Y2_∼_F(1_,_n)

(8)

1.3 Modelo Lineal Normal univariante.

D´ . Sea Y = (Y1, . . . ,Yn)t un vector aleatorio n-dimensional y X una matriz de orden n×p

(p<n) de constantes conocidas. Diremos que Y satisface un Modelo Lineal si

E[Y]=Xβ,

dondeβ=(β1, . . . , βp)tes un vector de par´ametros desconocidos. Es conveniente escribir

Y=Xβ+E, (1)

dondeE=(E1, . . . ,En)tes un vector aleatorio no observable con E[E]=0. La relaci´on (1) se conoce como Modelo Lineal General.

En este resumen supondremos que el modelo es de rango completo, es decir r(X) = p, y que es

normal, es decirE∼ Nn(0, σ2In).

Estimaci´on puntual en el Modelo Lineal Normal Univariante. Funci´on de verosimilitud del Modelo Lineal Normal:

L(β, σ2₎₌ 1 (2π)n/2_σnexp ( − 1 2σ2(Y−Xβ) t_(Y₋_X_β₎ )

Buscamos los estimadores de m´axima verosimilitud, es decir, los valores deβyσ2 _{que hagan m´axima}

L(β, σ2_).

a) Estimador deβ: bβ=(Xt_X)−1_Xt_Y b) Estimador deσ2_: _e_σ2₌1

n(Y−Xbβ)

t_(Y₋_Xb_β_).

Al no ser insesgado el estimadoreσ2, corregimos dicho estimador por sesgo, obteni´endose como estimador insesgado paraσ2

b σ2₌ n n−pσe 2₌ 1 n−p(Y−X b_β₎t (Y−Xbβ)

Propiedades de los estimadores:

• bβybσ2son los estimadores insesgados de m´ınima varianza deβyσ2respectivamente.

• bβ∼ Np(β, σ2(XtX)−1).

• (n−p)bσ2_/σ2_∼_χ2_(n₋_p).

(9)

Intervalos de confianza en el Modelo Lineal Normal.

a) Intervalo de confianza al nivel 1−αparaσ2:   (n−p)bσ 2 χ2 n−p,α/2 ,(n−p)bσ 2 χ2 n−p,1−α/2    b) Intervalo de confianza al nivel 1−αparaβi:

h b_β_i₋_b_σ√ciitn−p,α/2,bβi+bσ √ ciitn−p,α/2 i , i=1, . . . ,p, siendo (Xt_X)−1₌_{(ci j)}

c) Intervalo de confianza al nivel 1−αparaλtβ: " λtb_β₋_b_σ q λt_(Xt_X)−1_λ_t n−p,α/2,λtbβ+bσ q λt_(Xt_X)−1_λ_t n−p,α/2 # ,

Contraste de Hip´otesis en el Modelo Lineal Normal Univariante a) Contraste de H0:β=β0(β0vector de constantes conocidas).

Rechazamos H0al nivel de significaci´onαsi

Q1/p Q0/(n−p) ≥Fp,n−p,α siendo Q0=Yt_Y₋b_βt_Xt_{Y y Q1}₌₍b_β₋_β 0)t(XtX)−1(bβ−β0). b) Contraste de H0:λtβ=0.

Rechazamos H0al nivel de significaci´onαsi

|λtb_β| b

σpλt_(Xt_X)−1_λ≥tn−p,α/2 c) Contraste de la hip´otesis H0:β1=. . .=βk=0 (k<p).

Partimos X = (X1,X2) siendo X1 la matriz que contiene a las k primeras columnas de X y X2 la que contiene las p−k ´ultimas. Tambi´en dividimosβt = (γt₁,γt₂), siendoγt₁ = (β1, . . . , βk) y

γt

2=(βk+1, . . . , βp). De esta forma tenemos dos Modelos Lineales de Rango Completo: El Modelo original: Y=Xβ+E ; bβ=(Xt_X)−1_Xt_Y

El Modelo reducido por H0: Y=X2γ2+E ; bγ2=(Xt2X2)

−1_Xt 2Y Rechazamos H0al nivel de significaci´onαsi

Q1/k

Q0/(n−p)

≥Fk,n−p,α

(10)

1.4 Caracterizaci´on de datos en el an´alisis multivariante

En este curso trataremos del análisis de datos que se corresponden con más de una variable o carac-ter´ıstica, Y1, . . . ,Yp. La forma habitual de presentar cada una de las mediciones de las variables de interés es un vector. As´ı si el número de variables de interés es p, cada medición de las variables nos dará un vector p dimensional. Si tenemos n de estas mediciones Y1, . . . ,Yn, lo usual es colocarlas en una matriz de datos Y que queda definida por

Y=     Yt 1 .. . Yt n    =     Y11 . . . Y1p .. . . .. ... Yn1 . . . Ynp    

En esta matriz cada fila representa una medici´on sobre un mismo individuo de las p variables. Cada columna representa las n mediciones de una misma variable. A partir de aqu´ı podemos calcular los distintos par´ametros muestrales:

• la media muestral de la variable j ( j=1, . . . ,p): Yj= 1 n n X i=1 Yi j

• la covarianza muestral entre las variables j y k ( j,k=1, . . . ,p): sjk= 1 n−1 n X i=1 (Yi j−Yj)(Yik−Yk)

• la varianza muestral de la variable j ( j=1, . . . ,p): s2 j =sj j

• la correlaci´on muestral entre las variables j y k ( j,k=1, . . . ,p): rjk= sjk sjsk = √sjk sj jskk (rj j =1)

Estos estad´ısticos descriptivos pueden ser organizados en vectores y matrices y, aún más, calculados mediante fórmulas matriciales:

• El vector de medias Y=     Y1 .. . Yp    =1nY t₁ n= 1 n n X i=1 Yi • La matriz de covarianzas S=     s11 . . . s1p .. . . .. ... sp1 . . . spp    = n−11Y t_(In₋1 n1n)Y= 1 n−1 n X i=1 (Yi−Y) (Yi−Y)t • La matriz de correlaciones R=     r11 . . . r1p .. . . .. ... rp1 . . . rpp    =D−s1SD −1 s con Ds=     s1 . . . 0 .. . . .. ... 0 . . . sp    