Tema 1. Preliminares
1.1 Resultados algebraicos
Consideraremos habitualmente matrices con coeficientes enRy, ocasionalmente, en C. Denotaremos por ai j a los elementos de una matriz A, donde el sub´ındice i indica la fila y el j la columna donde se sit´ua dicho elemento.
Diremos que A es de orden m×n si tiene m filas y n columnas. A se dice cuadrada de orden n si es de
orden n×n. Los elementos deRnser´an considerados como matrices columna, es decir, de orden n×1:
x∈Rn si y s´olo si x= x1 .. . xn
A lo largo del texto tanto los vectores como las matrices aparecer´an escritos en letra negrita.
Si A=(ai j) denotaremos Ata la matriz traspuesta de A (At=(aji)). Una matriz cuadrada A es sim´etrica si A=At.
La suma de las matrices A=(ai j) y B=(bi j) es la matriz A+B=(ai j+bi j). El producto de la matriz A=(ai j) por el escalar k es la matriz kA=(kai j).
Una matriz cuadrada D= (di j) se dice diagonal si di j = 0 para todo i , j. A la matriz diagonal, que
verifica dii = 1 para todo i se le denomina matriz identidad (la denotaremos por I ´o In si queremos especificar su orden). La matriz nula 0 es aquella cuyos elementos son todos iguales a 0.
El producto de las matrices A=(ai j) de orden m×n y B=(bi j) de orden n×p es la matriz AB=(ci j), de orden m×p, cuyo elemento (i,j) es ci j=
Pn
k=1aikbk j.
Una matriz cuadrada A es invertible o no singular si existe otra matriz A−1de modo que AA−1=A−1A= I. En caso contrario se dice que A es singular. Una matriz cuadrada A es ortogonal si su traspuesta y su inversa coinciden, es decir, si AAt=AtA=I.
Denotaremos por|A|´o det(A) al determinante de la matriz cuadrada A. Veamos algunas propiedades de las matrices:
• (At)t=A , (AB)t=BtAt
• AtA=0 si y s´olo si A=0
• (A−1)−1=A , (AB)−1 =B−1A−1
• (At)−1=(A−1)t
• kA=Ak para todo escalar k.
• AI=IA=A
• Si AB=0 (A y B cuadradas) entonces A=0 ´o B=0 ´o ambas son singulares. Traza
La traza de una matriz cuadrada de orden n, A = (ai j), es la suma de los elementos de su diagonal principal, es decir, tr(A)=Pn
i=1aii. Algunas propiedades de la traza:
• tr(A+B)=tr(A)+tr(B) , tr(kA)=k tr(A) siendo k escalar. • tr(A)=tr(At)
• tr(AB)=tr(BA)
• tr(ABC)=tr(CAB)=tr(BCA) (que no tienen por qu´e ser iguales a tr(ACB))
• si P invertible tr(A)=tr(P−1AP) Rango
El rango de una matriz A es el m´aximo n´umero de filas o columnas linealmente independientes. Lo denotaremos por r(A). Algunas propiedades del rango son:
• r(AB)≤min{r(A),r(B)}
• r(A+B)≤r(A)+r(B)
• Si A,C invertibles, entonces r(AB)=r(BC)=r(B)
• Si A y B son matrices cuadradas de orden n y rangos r y s, respectivamente, entonces r(AB) ≥
r+s−n
• r(AtA)=r(AAt)=r(A)=r(At)
• Una matriz cuadrada de orden n, A, es invertible si y s´olo si r(A)=n si y s´olo si|A|,0. Autovalores y autovectores
Sea A una matriz cuadrada de orden n. Diremos que un escalarλes un valor propio ´o autovalor de A si existe un vector X=(x1, . . . ,xn)t,0 tal que AX=λX. Diremos que X es un vector propio ´o autovector de la matriz A.
Llamaremos polinomio caracter´ıstico de la matriz A al determinanteχA(x)=|xIn−A|. Este polinomio tiene algunas propiedades interesantes:
• El grado deχA(x) es n. Adem´as el coeficiente principal deχA(x) es igual a 1.
• El coeficiente del monomio de grado n−1 deχA(x) es igual a la traza de A.
• El t´ermino independiente deχA(x) es igual a| −A|=(−1)n|A|. En consecuencia, A es invertible si
y s´olo si 0 no es autovalor de A.
• Si P es invertible, entoncesχA(x)=χP−1AP(x).
• Si A es una matriz de orden n con n autovalores1(no necesariamente distintos), entonces el deter-minante de A es igual al producto de dichos autovalores y la traza de A es igual a la suma de los mismos. Es decir, si A tiene orden n yλ1, . . . , λnson los autovalores de A, entonces
|A|=λ1· · · · ·λn tr(A)=λ1+· · ·+λn
Diremos que una matriz cuadrada de orden n, A, es diagonalizable si existe otra matriz P invertible tal que P−1AP=D, siendo D una matriz diagonal. Los elementos de la diagonal de D son los autovalores de A. Las columnas de la matriz P son n autovectores de A linealmente independientes. (La matriz P, en general, no es ´unica)
Toda matriz sim´etrica A es diagonalizable. Adem´as podemos encontrar una base ortonormal de autovec-tores de A, es decir, existe una matriz ortogonal P tal que PtAP=D, con D diagonal. (Los autovectores ortonormales son los que forman las columnas de P. No necesariamente son los primeros que vamos a encontrar. Una forma de obtener P, podr´ıa ser hallar primero una base cualquiera de autovectores y ortonormalizarla por el m´etodo de Gramm-Schmidt)
Matrices y formas cuadr´aticas definidas positivas.
Si A es una matriz cuadrada de orden n, x∈Rn, se denomina forma cuadr´atica a cualquier expresi´on del tipo xtAx= n X i,j=1 ai jxixj
Matrices distintas pueden tener asociada la misma forma cuadr´atica. As´ı por ejemplo es sencillo com-probar que si B=(A+At)/2, entonces
xtAx=xtBx
Pero a diferencia de A, B es sim´etrica, y adem´as es la ´unica matriz sim´etrica cuya forma cuadr´atica asociada es xtBx. De este modo, cuando tengamos una forma cuadr´atica xtAx, siempre supondremos que A es la matriz sim´etrica asociada a dicha forma.
Diremos que una forma cuadr´atica xtAx es definida positiva si
xtAx≥0 ∀x∈Rn ; xtAx=0 ⇐⇒ x=0
Diremos xtAx es semidefinida positiva si xtAx ≥ 0 para todo x ∈ Rn. La matriz A es (semi)definida positiva si su forma cuadr´atica asociada lo es.
Un criterio sencillo para determinar si una forma cuadr´atica es definida positiva es el criterio de Sylvester: una matriz sim´etrica es definida positiva si y s´olo si sus menores principales son mayores estrictamente que 0. En consecuencia todas las matrices definidas positivas son no singulares. Si los menores principales son mayores o iguales que 0, entonces la matriz es semidefinida positiva. Veamos algunas propiedades de estas matrices:
• Si P es una matriz no singular y A sim´etrica, entonces A es (semi)definida positiva si y s´olo si PtAP es (semi)definida positiva.
• Si A es definida positiva entonces existe una matriz no singular P tal que PtAP=I. A es definida positiva si y s´olo si existe Q no singular tal que A=QtQ (Q=P−1).
• Los autovalores de una matriz definida positiva son mayores estrictamente que 0. Si la matriz es semidefinida positiva sus autovalores son no negativos, aunque pueden ser 0.
A partir de matrices no cuadradas se pueden obtener matrices definidas positivas. En efecto, si A es una matriz de orden m×n, entonces se verifica que tanto AtA como AAt son matrices semidefinidas positivas. Ahora bien,
• Si r(A)=m entonces AAtes definida positiva.
• Si r(A)=n entonces AtA es definida positiva. Por ´ultimo, tambi´en tiene inter´es el siguiente resultado:
Si A es una matriz sim´etrica de orden n y rango r con coeficientes reales entonces existe una matriz L de orden n×r (con coeficientes complejos) tal que A=LLt.
Si adem´as A es semidefinida positiva entonces L tiene coeficientes reales.
Por ´ultimo, si A es definida positiva entonces L es cuadrada y no singular. Adem´as podemos tomar L sim´etrica y definida positiva. En este ´ultimo caso denotaremos a L como A1/2, es decir la matriz “ra´ız cuadrada” de la matriz A. Una interesante propiedad es que (A1/2)−1= (A−1)1/2. A esta ´ultima matriz la denotaremos A−1/2.
Matrices idempotentes.
Una matriz cuadrada P se dice idempotente si P2 = P. Es sencillo verificar que si P es una matriz idempotente entonces sus ´unicos posibles autovalores, tanto reales como complejos, son 0 y/´o 1. Veamos algunas propiedades de las matrices idempotentes:
• Si P idempotente entonces (si y s´olo si) I−P idempotente.
• Si P es una matriz sim´etrica de orden n entonces P es idempotente de rango r si y s´olo si P tiene el autovalor 1 con multiplicidad r y el 0 con multiplicidad n−r.
• Si P sim´etrica idempotente entonces r(P)=tr(P).
• Si P sim´etrica idempotente entonces es semidefinida positiva.
• Sean A y V matrices sim´etricas y V definida positiva. Si AV tiene como ´unicos autovalores 0 y 1 entonces AV es idempotente.
Producto de Kronecker
Si A =(ai j) y B =(bi j) son matrices de dimensiones m×n y p×q, respectivamente, el producto de
Kronecker de A con B es otra matriz de dimensi´on mp×nq definida mediante la expresi´on:
A⊗B= a11B a12B . . . a1nB .. . ... . .. ... am1B a12B . . . amnB Enumeramos a continuaci´on algunas propiedades importantes:
• (λA)⊗B=A⊗(λB)=λ(A⊗B),λescalar
• (A+B)⊗C=A⊗C+B⊗C y A⊗(B+C)=A⊗B+A⊗C
• A⊗(B⊗C)=(A⊗B)⊗C
• (A⊗B)(C⊗D)=(AC)⊗(BD)
• (A⊗B)t=At⊗Bt
• Si A y B son cuadradas tr(A⊗B)=tr(A) tr(B)
• Si A y B son cuadradas de ´ordenes m y n, respectivamente, entonces det(A⊗B)=det(A)ndet(B)m
• Si A y B son cuadradas y no singulares entonces (A⊗B)ttambi´en es no singular y (A⊗B)−1 =A−1⊗B−1
El producto de Kronecker tiene cierta relaci´on con la “vectorizaci´on” de una matriz. Dada una matriz A=(ai j) de orden m×n denotamos por vec(A) al vector deRmndefinido por
vec(A)=(a11, . . . ,a1n,a21, . . . ,am1, . . . ,amn)t Se verifica que
Desigualdades de matrices y maximizaci´on
• (desigualdad de Cauchy-Schwarz) Si a,b son dos vectores p-dimensionales entonces (atb)2≤(ata)(btb)
y se da la igualdad si y s´olo si a,b son linealmente dependientes
• (desigualdad de Cauchy-Schwarz extendida) Si a,b son dos vectores p-dimensionales y B es una matriz cuadrada de orden p definida positiva entonces
(atb)2≤(atBa)(btB−1b)
• (lema de maximizaci´on) Si a es un vector p-dimensional y B es una matriz cuadrada de orden p definida positiva entonces
max
x,0
(xta)2 xtBx =a
tB−1a
y se alcanza sobre x=λB−1a para cualquier constanteλ,0.
• (maximizaci´on de formas cuadr´aticas sobre la esfera unidad) Sea B una matriz de orden p definida positiva con autovalores λ1 ≥ λ2 ≥ · · · ≥ λp > 0 y autovectores ortonormales e1,e2, . . . ,ep asociados. Entonces max x,0 xtBx xtx =λ1 y se alcanza sobre x=e1 min x,0 xtBx xtx =λp y se alcanza sobre x=ep Adem´as, para k=2, . . . ,p−1 max x⊥e1,...,ek−1 xtBx xtx =λk y se alcanza sobre x=ek
1.2 Distribuci´on Normal Multivariante y distribuciones relacionadas.
Sea V=(σi j) una matriz cuadrada de orden n, con coeficientes reales, sim´etrica y semidefinida positiva; y seaµ=(µ1, . . . , µn)t∈Rn
D´ . Diremos que el vector aleatorio (v.a.) n-dimensional X=(X1, . . . ,Xn)tsigue distribuci´on Normal n-dimensional de par´ametrosµy V si su funci´on caracter´ıstica es
ϕX(s)=exp{istµ−
1 2s
t
Vs} , s∈Rn
En tal caso lo denotaremos X∼ Nn(µ,V).
P:
• Si V es definida positiva, la funci´on de densidad de X es
f (x)= 1 (2π)n/2|V|1/2exp{− 1 2(x−µ) tV−1(x−µ)} , x=(x 1, . . . ,xn)t∈Rn.
• El vector de medias de X esµy su matriz de covarianzas es V.
• Las distribuciones marginales de una distribuci´on Normal Multivariante son Normales. Concreta-mente, la distribuci´on marginal del vector X1=(X1, . . . ,Xk)t k<n es una Normal k-dimensional de mediaµ1y matriz de covarianzas V11, donde
µ1=(µ1, . . . , µk)t y V11= σ11 . . . σ1k .. . . .. ... σk1 . . . σkk
• Supongamos que dividimos la matriz de covarianzas V de la forma V= V11 V12
Vt 12 V22
!
siendo V11como en el punto anterior. La distribuci´on del vector X1=(X1, . . . ,Xk)tcondicionada a Xk+1 = xk+1, . . . ,Xn =xnes normal k dimensional de mediaµ1+V12V−221(x2−µ2) y matriz de covarianzas V11−V12V−1 22V t 12, siendo x2=(xk+1, . . . ,xn) tyµ 2=(µk+1, . . . , µn)t
• Sea X∼ Nn(µ,V) e Y=AX+β, donde A es una matriz k×n de rango k (k≤n) yβun vector
k×1. Entonces Y=(Y1, . . . ,Yk)t∼ Nk(Aµ+β,AVAt).
• Si Xt=(Xt1,Xt2) con X1=(X1, . . . ,Xk)ty X2=(Xk+1, . . . ,Xn)tentonces
X1y X2son independientes si y s´olo siσi j =Cov(Xi,Xj)=0 para todo i=1, . . . ,k y
j=k+1, . . . ,n
• X=(X1. . . ,Xn)t ∼ Nn(µ,V) si y s´olo si toda combinaci´on lineal de X1. . . ,Xnsigue distribuci´on Normal (i.e. para todoλ∈Rn,λtX∼ N(λtµ,λtVλ)).
Distribuci´on Chi-cuadrado no central
D´ . Si X ∼ Nn(µ,In), llamaremos Chi-cuadrado no central con n grados de libertad y
pa-r´ametro de descentralizaci´on µ∗ a la distribuci´on de la variable aleatoria Y = XtX y escribiremos
Y∼χ2(n, µ∗).
P:
• Y tiene funci´on de densidad
f (x)= ∞ X k=0 exp{−µ∗}µ ∗k k! xn+22k−1exp{−x 2} Γ(n+22k)2n+22k si x>0; 0 si x≤0, siendoµ∗= 12µtµ.
• La funci´on generatriz de momentos de Y es
MY(s)=(1−2s)−n/2exp{−µ∗(1− 1
1−2s)} , s en un entorno de 0
• χ2(n,0)≡χ2(n).
• Si X∼ Nn(µ, σ2In), entonces XtX/σ2∼χ2(n, µ∗), siendoµ∗=2σ12µ
tµ.
• Sean Yi∼χ2(ni, µi), i=1, . . . ,k, variables aleatorias independientes. Entonces k X i=1 Yi∼χ2( k X i=1 ni, k X i=1 µi)
Distribuci´on F-Snedecor no central
D´ . Si Y1 ∼χ2(n1, µ) e Y2 ∼χ2(n2,0) son v.a. independientes, se denomina distribuci´on F de Snedecor no central con n1, n2grados de libertad y par´ametro de descentralizaci´onµa la distribuci´on
de la v.a.
Z=Y1/n1
Y2/n2
y escribiremos Z∼F(n1,n2, µ). Z tiene funci´on de densidad
f (x)= ∞ X k=0 e−µµ k k! (n1 n2) n1+2k 2 Γ(n1+n2+2k 2 ) Γ(n1+2k 2 )Γ( n2 2) xn1 +2k 2 −1(1+n1 n2 x)−n1 +n2+2k 2 si x>0; 0 si x≤0 O´ : • F(n1,n2,0)≡F(n1,n2). • Si Y∼t(n) entonces Y2∼F(1,n)
1.3 Modelo Lineal Normal univariante.
D´ . Sea Y = (Y1, . . . ,Yn)t un vector aleatorio n-dimensional y X una matriz de orden n×p
(p<n) de constantes conocidas. Diremos que Y satisface un Modelo Lineal si
E[Y]=Xβ,
dondeβ=(β1, . . . , βp)tes un vector de par´ametros desconocidos. Es conveniente escribir
Y=Xβ+E, (1)
dondeE=(E1, . . . ,En)tes un vector aleatorio no observable con E[E]=0. La relaci´on (1) se conoce como Modelo Lineal General.
En este resumen supondremos que el modelo es de rango completo, es decir r(X) = p, y que es
normal, es decirE∼ Nn(0, σ2In).
Estimaci´on puntual en el Modelo Lineal Normal Univariante. Funci´on de verosimilitud del Modelo Lineal Normal:
L(β, σ2)= 1 (2π)n/2σnexp ( − 1 2σ2(Y−Xβ) t(Y−Xβ) )
Buscamos los estimadores de m´axima verosimilitud, es decir, los valores deβyσ2 que hagan m´axima
L(β, σ2).
a) Estimador deβ: bβ=(XtX)−1XtY b) Estimador deσ2: eσ2=1
n(Y−Xbβ)
t(Y−Xbβ).
Al no ser insesgado el estimadoreσ2, corregimos dicho estimador por sesgo, obteni´endose como estimador insesgado paraσ2
b σ2= n n−pσe 2= 1 n−p(Y−X bβ)t (Y−Xbβ)
Propiedades de los estimadores:
• bβybσ2son los estimadores insesgados de m´ınima varianza deβyσ2respectivamente.
• bβ∼ Np(β, σ2(XtX)−1).
• (n−p)bσ2/σ2∼χ2(n−p).
Intervalos de confianza en el Modelo Lineal Normal.
a) Intervalo de confianza al nivel 1−αparaσ2: (n−p)bσ 2 χ2 n−p,α/2 ,(n−p)bσ 2 χ2 n−p,1−α/2 b) Intervalo de confianza al nivel 1−αparaβi:
h bβi−bσ√ciitn−p,α/2,bβi+bσ √ ciitn−p,α/2 i , i=1, . . . ,p, siendo (XtX)−1=(ci j)
c) Intervalo de confianza al nivel 1−αparaλtβ: " λtbβ−bσ q λt(XtX)−1λt n−p,α/2,λtbβ+bσ q λt(XtX)−1λt n−p,α/2 # ,
Contraste de Hip´otesis en el Modelo Lineal Normal Univariante a) Contraste de H0:β=β0(β0vector de constantes conocidas).
Rechazamos H0al nivel de significaci´onαsi
Q1/p Q0/(n−p) ≥Fp,n−p,α siendo Q0=YtY−bβtXtY y Q1=(bβ−β 0)t(XtX)−1(bβ−β0). b) Contraste de H0:λtβ=0.
Rechazamos H0al nivel de significaci´onαsi
|λtbβ| b
σpλt(XtX)−1λ≥tn−p,α/2 c) Contraste de la hip´otesis H0:β1=. . .=βk=0 (k<p).
Partimos X = (X1,X2) siendo X1 la matriz que contiene a las k primeras columnas de X y X2 la que contiene las p−k ´ultimas. Tambi´en dividimosβt = (γt1,γt2), siendoγt1 = (β1, . . . , βk) y
γt
2=(βk+1, . . . , βp). De esta forma tenemos dos Modelos Lineales de Rango Completo: El Modelo original: Y=Xβ+E ; bβ=(XtX)−1XtY
El Modelo reducido por H0: Y=X2γ2+E ; bγ2=(Xt2X2)
−1Xt 2Y Rechazamos H0al nivel de significaci´onαsi
Q1/k
Q0/(n−p)
≥Fk,n−p,α
1.4 Caracterizaci´on de datos en el an´alisis multivariante
En este curso trataremos del an´alisis de datos que se corresponden con m´as de una variable o carac-ter´ıstica, Y1, . . . ,Yp. La forma habitual de presentar cada una de las mediciones de las variables de inter´es es un vector. As´ı si el n´umero de variables de inter´es es p, cada medici´on de las variables nos dar´a un vector p dimensional. Si tenemos n de estas mediciones Y1, . . . ,Yn, lo usual es colocarlas en una matriz de datos Y que queda definida por
Y= Yt 1 .. . Yt n = Y11 . . . Y1p .. . . .. ... Yn1 . . . Ynp
En esta matriz cada fila representa una medici´on sobre un mismo individuo de las p variables. Cada columna representa las n mediciones de una misma variable. A partir de aqu´ı podemos calcular los distintos par´ametros muestrales:
• la media muestral de la variable j ( j=1, . . . ,p): Yj= 1 n n X i=1 Yi j
• la covarianza muestral entre las variables j y k ( j,k=1, . . . ,p): sjk= 1 n−1 n X i=1 (Yi j−Yj)(Yik−Yk)
• la varianza muestral de la variable j ( j=1, . . . ,p): s2 j =sj j
• la correlaci´on muestral entre las variables j y k ( j,k=1, . . . ,p): rjk= sjk sjsk = √sjk sj jskk (rj j =1)
Estos estad´ısticos descriptivos pueden ser organizados en vectores y matrices y, a´un m´as, calculados mediante f´ormulas matriciales:
• El vector de medias Y= Y1 .. . Yp =1nY t1 n= 1 n n X i=1 Yi • La matriz de covarianzas S= s11 . . . s1p .. . . .. ... sp1 . . . spp = n−11Y t(In−1 n1n)Y= 1 n−1 n X i=1 (Yi−Y) (Yi−Y)t • La matriz de correlaciones R= r11 . . . r1p .. . . .. ... rp1 . . . rpp =D−s1SD −1 s con Ds= s1 . . . 0 .. . . .. ... 0 . . . sp