Tema 1: Introducci´ on
Pedro Galeano Departamento de Estad´ıstica Universidad Carlos III de Madrid
[email protected]
Curso 2016/2017
Grado en Estad´ıstica y Empresa
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
An´ alisis multivariante: Conjunto de t´ ecnicas para el an´ alisis simult´ aneo de una colecci´ on de datos procedentes de varias variables.
Temas desarrollados en el curso anterior:
1
An´ alisis descriptivo: Medidas de localizaci´ on y dispersi´ on, gr´ aficos,. . .
2
Distribuciones estad´ısticas e inferencia: Variables aleatorias multivariantes, distribuciones multivariantes, ajuste de par´ ametros, contrastes,. . .
3
Reducci´ on de la dimensi´ on: Componentes principales.
4
An´ alisis de clasificaci´ on: Clasificadores basados en el Teorema de Bayes,
regresi´ on log´ıstica y vecinos m´ as cercanos.
Breve recordatorio: Conceptos importantes del curso anterior necesarios en este curso.
Notaci´ on: Fijar notaci´ on importante que vamos a utilizar en este curso.
Nuevos contenidos: Breve introducci´ on de los contenidos de este curso.
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Variables univariantes: x 1 , . . . , x p .
Variable aleatoria multivariante: x = (x 1 , . . . , x p ) 0 .
Funci´ on de distribuci´ on de x: Si las variables univariates son cuantitativas, F x x 0
= Pr x ≤ x 0
= Pr x 1 ≤ x 1 0 , . . . , x p ≤ x p 0
siendo x 0 = x 1 0 , . . . , x p 0 0
.
Funci´ on de densidad de x: Si las variables univariantes son cuantitativas y continuas,
F x x 0
= Z x
p0−∞
· · · Z x
10−∞
f x (x 1 , . . . , x p ) dx 1 · · · dx p
donde f x (x) = f x (x 1 , . . . , x p ) es una funci´ on no negativa entre otros aspec-
tos.
Esperanza o vector de medias de x:
E [x] =
E [x 1 ]
.. . E [x p ]
donde E [x 1 ] , . . . , E [x p ] son las esperanzas de x 1 , . . . , x p . Significado: Promedio de los posibles valores de x.
Notaci´ on: µ x = E [x ].
Matriz de covarianzas de x:
Cov [x] = E
(x − µ x ) (x − µ x ) 0
=
σ 1 2 σ 12 · · · σ 1p
σ 21 σ 2 2 . . . .. .
.. . . . . . . . σ p−1,p
σ p1 · · · σ p,p−1 σ p 2
donde
1
σ
2j= Var [x
j] = E
(x
j− E [x
j])
2, para j = 1, . . . , p; y
2
σ
jk= Cov [x
j, x
k] = E [(x
j− E [x
j]) (x
k− E [x
k])], para j, k = 1, . . . , p.
Significado: Matriz de las desviaciones de x con respecto a su vector de medias, µ x .
Notaci´ on: Σ x = Cov [x].
Propiedad importante: Σ x es una matriz semi-definida positiva.
Matriz de correlaciones de x:
Cor [x] = ∆ −1/2 x Σ x ∆ −1/2 x =
1 ρ 12 · · · ρ 1p
ρ 21 1 . . . .. .
.. . . . . . . . ρ p−1,p ρ p1 · · · ρ p,p−1 1
donde
1
Σ
xes la matriz de covarianzas de x ;
2
∆
xes la matriz diagonal que contiene las varianzas de x;
3
ρ
jk= Cor [x
j, x
k] =
σσjkjσk
, para j, k = 1, . . . , p.
Significado: Matriz de covarianzas de las variables estandarizadas.
Notaci´ on: % x = Cor [x].
Propiedad importante: % x es una matriz semi-definida positiva.
Distribuci´ on Gaussiana multivariante: Con funci´ on de densidad f x (x) = (2π) −p/2 |Σ x | −1/2 exp
− (x − µ x ) 0 Σ −1 x (x − µ x ) 2
para x = (x 1 , . . . , x p ) 0 , donde −∞ < x j < ∞, para j = 1, . . . , p.
Notaci´ on: x ∼ N p (µ x , Σ x ).
Propiedad importante: La distribuci´ on Gaussiana multivariante es sim´ etri-
ca alrededor de µ x , donde alcanza su m´ aximo valor.
x1
−4
−2
0
2
4
x2
−4
−2 0
2 0.05 4
0.10 0.15
FD de la Gaussiana multivariante estándar
x1
−4
−2
0
2
4
x2
−4
−2 0
2 4
0.0 0.1 0.2 0.3
FD de la Gaussiana multivariante con varianzas 1 y correlación .9
x1
−4
−2
0
2
4
x2
−4
−2 0
2 4
0.0 0.1 0.2 0.3
FD de la Gaussiana multivariante con varianzas 1 y correlación −.9
Curvas de nivel: Formadas por los valores de x que tienen exactamente el mismo valor de la funci´ on de densidad
{x : f x (x ) = c}
donde c es una constante.
Distribuci´ on Gaussiana multivariante: Curvas de nivel dadas por x : (x − µ x ) 0 Σ −1 x (x − µ x ) = k
para cierta constante k .
Ejercicio: ¿Cu´ al es el valor de k para un cierto valor c de la curva de nivel?
Para p=2: Las curvas de nivel son elipses.
Curvas de nivel para Gaussiana estándar
−4 −2 0 2 4
−4−2024
Curvas de nivel para Gaussiana con varianzas 1 y correlación .9
−4 −2 0 2 4
−4−2024
Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
−4 −2 0 2 4
−4−2024
Curvas de nivel para Gaussiana estándar
−4 −2 0 2 4
−4−2024
Curvas de nivel para Gaussiana con varianzas 1 y correlación .9
−4 −2 0 2 4
−4−2024
Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9
−4 −2 0 2 4
−4−2024
Transformaci´ on lineal de x: Una variable aleatoria y = (y 1 , . . . , y q ) 0 dada por
y = Ax + b
donde A es una matriz de dimensi´ on q × p y b es un vector de dimensi´ on q × p.
Notar: q puede ser p, es decir, A puede tener dimensi´ on p × p.
Esperanza de y: E [y] = AE [x] + b.
Matriz de covarianzas de y : Cov [y ] = ACov [x] A 0 .
Ejercicio: Demostrar estas dos ´ ultimas igualdades.
Dos variables multivariantes x = (x 1 , . . . , x p ) 0 e y = (y 1 , . . . , y q ) 0 :
1
Variable conjunta formada por x e y y sus caracter´ısticas: Funci´ on de densidad, funci´ on de distribuci´ on, esperanza, matriz de covarianzas, matriz de correlaciones,. . .
2
Variable x condicionada a y y sus caracter´ısticas: Funci´ on de densidad, funci´ on de distribuci´ on, esperanza, matriz de covarianzas, matriz de correla- ciones,. . .
3
Independencia entre x e y .
4
Relaci´ on entre x e y : Matriz de covarianzas y matriz de correlaciones entre
x e y .
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Matriz de datos: Valores de una variable aleatoria multivariante x = (x 1 , . . . , x p ) 0 para una muestra de n elementos
X =
x 11 x 12 · · · x 1p x 21 x 22 · · · x 2p .. . .. . . . . .. . x n1 x n2 · · · x np
donde x ij representa el valor del individuo i-´ esimo para la variable univariante
j-´ esima.
Dimensi´ on de la matriz de datos: n × p.
Tama˜ no muestral: n.
Dimensi´ on: p.
Valores de la variable j-´ esima, x j : x 1j , . . . , x nj , para j = 1, . . . , p.
Valores del elemento i-´ esimo de la muestra: x i1 , . . . , x ip , para i = 1, . . . , n.
Planetas fuera del sistema solar: Informaci´ on sobre n = 101 planetas fuera del sistema solar resumida en p = 3 variables.
Variables:
1
Masa Jupiter del Planeta: Unidad de masa con respecto a la masa total del planeta Jupiter.
2
Periodo del planeta: Tiempo con respecto a un d´ıa en la Tierra en dar una vuelta sobre su eje principal.
3
Excentricidad radial del planeta: Medida no negativa que determina en que
cantidad su ´ orbita se desv´ıa de un circulo (0 implica ´ orbita circular).
Matriz de datos:
Planeta Masa Periodo Excentricidad
1 0.120 4.950 0.000
2 0.197 3.971 0.000
3 0.210 44.280 0.340
.. . .. . .. . .. .
101 17.500 256.030 0.429
Masa
0 1000 2000 3000 4000 5000
051015
010002000300040005000
Periodo
0 5 10 15 0.0 0.2 0.4 0.6 0.8
0.00.20.40.60.8
Excentricidad Datos
Matriz de datos en logaritmos (se ha sumado 1 antes de tomar loga- ritmos):
Planeta Log-Masa Log-Periodo Log-Excentricidad
1 0.113 1.783 0.000
2 0.179 1.603 0.000
3 0.190 3.812 0.292
.. . .. . .. . .. .
101 2.917 5.549 0.356
Matriz de datos X : Matriz de datos de dimensi´ on 101 × 3 tras la transfor-
maci´ on en logaritmos.
Log−Masa
2 4 6 8
0.00.51.01.52.02.53.0
2468
Log−Periodo
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
0.00.10.20.30.40.50.6
Log−Excentricidad Datos
Diagrama de dispersión en 3d
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.00.10.20.30.40.50.60.7
0 2
4 6
8 10
Log−Masa
Log−Periodo
Log−Excentricidad
Vector de medias muestral de X :
x =
x 1
x 2
.. . x p
= 1 n X 0 1 n
donde
1
1
n= (1, 1, . . . , 1)
0es el vector de unos de dimensi´ on n × 1; y
2
x
jes la media muestral de la variable univariante j-´ esima.
Estimador: El vector x es un estimador del vector de medias de la variable
multivariante x, µ x .
Matriz de covarianzas muestral de X :
S x =
s 1 2 s 12 · · · s 1p
s 21 s 2 2 . . . s 2p
.. . . . . . . . .. . s p1 s p2 · · · s p 2
donde:
1
s
j2es la varianza muestral de la variable x
j, para j = 1, . . . , p; y
2
s
jkes la covarianza muestral entre las variables x
jy x
k, para j, k = 1, . . . , p con j 6= k.
Propiedad importante: S x es una matriz sim´ etrica semidefinida positiva.
Estimador: La matriz S x es un estimador de la matriz de covarianzas de x,
Σ x .
Matriz de correlaciones muestral de X :
R x = D x −1/2 S x D x −1/2 =
1 r 12 · · · r 1p r 21 1 . . . .. .
.. . . . . . . . r p−1,p
r p1 · · · r p,p−1 1
donde:
1
S
xes la matriz de covarianzas muestral de X ;
2
D
xes la matriz diagonal que contiene las varianzas muestrales de X ;
3
r
jk=
ssjkjsk
, para j, k = 1, . . . , p, son las correlaciones muestrales entre las variables x
jy x
k.
Propiedad importante: R x es una matriz sim´ etrica semidefinida positiva.
Estimador: La matriz R x es un estimador de la matriz de correlaciones de
x, % x .
Vector de medias muestral de X :
x = (1.190, 5.228, 0.235) 0
Medias muestrales individuales: El vector est´ a formado por las medias muestrales de las variables individuales.
Diferentes unidades de medida: Cada una de las variables individuales
tiene su propia unidad de medida. Lo mismo ocurre con el vector de medias
muestral.
Matriz de covarianzas muestral de X :
S x =
0.507 0.633 0.044 0.633 4.278 0.151 0.044 0.151 0.026
Autovalores de S x : λ 1 = 4.387, λ 2 = 0.404 y λ 3 = 0.019.
Traza de S x : Tr (S x ) = 4.811.
Determinante de S x : |S x | = 0.034.
Matriz de correlaciones muestral de X :
R x =
1 0.430 0.383
0.430 1 0.453
0.383 0.453 1
Autovalores de R x : λ 1 = 1.845, λ 2 = 0.618 y λ 3 = 0.535.
Traza de R x : Tr (R x ) = 3.
Determinante de R x : |R x | = 0.611 que no es muy pr´ oximo a 0 debido a
que no existen variables altamente correladas.
Matriz de datos centrados: X e = X − 1 n x 0 . Estandarizaci´ on individual de X :
Y = X D e x −1/2
donde D x es la matriz diagonal que contiene las varianzas muestrales de X .
Caracter´ısticas muestrales de Y : y = 0 p , S y = R x y R y = R x . Es decir,
S y = R y .
Y1
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1012
−1.5−1.0−0.50.00.51.01.5
Y2
−1 0 1 2 −1 0 1 2
−1012
Y3 Datos estandarizados
Inferencia con la matriz de datos:
1
Estimaci´ on m´ aximo-verosimil: Ajuste de los par´ ametros de una distribuci´ on.
2
Contrastes de hip´ otesis: Inferencia sobre los par´ ametros de una distribuci´ on,
independencia,. . .
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
Componentes principales: M´ etodo muy sencillo y efectivo de:
1
Identificar variables latentes incorreladas: Proporcionan interpretaciones interesantes de los datos;
2
Obtener una nueva matriz de datos con menos variables: Eliminaci´ on del
ruido.
Misma unidad de medida en X :
Z = X V e p
donde V p es la matriz ortogonal cuyas columnas son los p autovectores de S x .
Diferentes unidades de medida en X : Z = YV p R
donde Y = X D e x −1/2 es la estandarizaci´ on individual de X y V p R es la matriz
ortogonal cuyas columnas son los p autovectores de R x .
Diferentes unidades de medida: Tres variables con diferentes unidades de medida.
Autovectores de R x : Columnas de la siguiente matriz:
V 3 R =
−0.56 0.76 0.30
−0.59 −0.12 −0.79
−0.57 −0.62 0.52
Puntuaciones de los CPs:
Z = YV 3 R
Log−Masa
2 4 6 8
0.00.51.01.52.02.53.0
2468
Log−Periodo
0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6
0.00.10.20.30.40.50.6
Log−Excentricidad Datos
CP1
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−2−1012
−1.5−1.0−0.50.00.51.01.5
CP2
−2 −1 0 1 2 −2 −1 0 1
−2−101
CP3 CPs
Diagrama de dispersión en 3d de Datos
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.00.10.20.30.40.50.60.7
0 2
4 6
8 10
Log−Masa
Log−Periodo
Log−Excentricidad
Diagrama de dispersión en 3d de CPs
−3 −2 −1 0 1 2 3
−2−1 0 1 2
−2.0
−1.5
−1.0
−0.5 0.0
0.5 1.0
1.5 2.0
CP1
CP2
CP3
Varianzas de los CPs:
1
Misma unidad de medida en X : Autovalores de la matriz S
x.
2
Diferentes unidades de medida en X : Autovalores de la matriz R
x. Ejercicio: Demostrar lo anterior.
Notaci´ on para los autovalores: λ 1 , . . . , λ p .
Importancia de las CPs: Utilizar las proporciones de variabilidad explicada y variabilidad explicada acumulada.
Proporci´ on de variabilidad explicada por cada CP:
PV j = λ j λ 1 + · · · + λ p
j = 1, . . . , p
Proporci´ on de variabilidad explicada acumulada por los primeros j CPs:
PVA j = λ 1 + · · · + λ j
λ 1 + · · · + λ p
j = 1, . . . , p
Autovalores de R x :
λ 1 = 1.8454, λ 2 = 0.6185, λ 3 = 0.5359.
Proporci´ on de variabilidad explicada por cada CP:
PV 1 = 0.6151, PV 2 = 0.2061, PV 3 = 0.1786.
Proporci´ on de variabilidad explicada acumulada por los primeros j CPs:
PVA 1 = 0.6151, PVA 2 = 0.8213, PVA 3 = 1.000.
Gráfico de codo
Variances 0.60.81.01.21.41.61.8
Comp.1 Comp.2 Comp.3
N´ umero de CPs importantes: Dos primeras CPs explican el 82.13 % de la variabilidad total.
Primera CP:
z 1 = −0.56y 1 − 0.59y 2 − 0.57y 3 , donde y j = (x j − x j ) /s j , para j = 1, . . . , 3.
Interpretaci´ on de la primera CP: Separa planetas con valores altos de
masa, periodo y excentricidad, de planetas con valores bajos de dichas va-
riables.
Segunda CP:
z 1 = 0.76y 1 − 0.12y 2 − 0.62y 3 , donde y j = (x j − x j ) /s j , para j = 1, . . . , 3.
Interpretaci´ on de la segunda CP: Separa planetas con valores altos de
masa pero bajos de excentricidad, de planetas con valores bajos de masa
pero altos de excentricidad.
2 Variables aleatorias multivariantes
3 La matriz de datos
4 Componentes principales
5 ¿A donde vamos?
T´ ecnicas avanzadas para datos multivariantes:
1
An´ alisis de conglomerados.
2
Escalado multimensional.
3
An´ alisis factorial.
4
Regresi´ on multivariante.
5
Correlaciones can´ onicas.
An´ alisis de conglomerados:
1
An´ alisis de conglomerados: Conjunto de m´ etodos para dividir las observa- ciones de un conjunto de datos multivariantes en grupos.
2
Similaridad: Observaciones dentro del mismo grupo deben sean similares y a la vez diferentes de observaciones en otros grupos.
3
T´ ecnica exploratoria: ¿Qu´ e significa de dos observaciones sean similares?
Escalado multidimensional:
1
Escalado multidimensional: Procedimiento para obtener variables cuando los datos representan distancias entre observaciones.
2
T´ ecnica exploratoria: El objetivo final es obtener gr´ aficos de ciertas variables a obtener que nos ayudan a entender por qu´ e dos observaciones est´ an cerca o lejos.
3
Aplicaciones: Marketing y an´ alisis de encuestas.
An´ alisis factorial:
1
An´ alisis factorial: Procedimiento para obtener variables latentes, llamadas factores, a partir de una matriz de datos.
2
Extensi´ on: El an´ alisis factorial es una extensi´ on m´ as elaborada del an´ alisis de componentes principales.
3
Variables latentes: Permite definir variables que no se pueden medir direc-
tamente: inteligencia, clase social,. . .
Regresi´ on multivariante:
1
Regresi´ on multivariante: Procedimiento para predecir una variable respuesta multivariante mediante una variable regresora multivariante.
2
Regresi´ on univariante: Esencialmente la regresi´ on multivariante es una ex-
tensi´ on directa de la extensi´ on univariante, si bien hay aspectos algo m´ as
complejos.
Correlaciones can´ onicas:
1
Correlaciones can´ onicas: Consiste en un procedimiento para medir el grado de dependencia que hay entre dos variables multivariantes.
2