Tema 1: Introducci´ on

(1)

Tema 1: Introducci´ on

Pedro Galeano Departamento de Estad´ıstica Universidad Carlos III de Madrid

[email protected]

Curso 2016/2017

Grado en Estad´ıstica y Empresa

(2)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(3)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(4)

An´ alisis multivariante: Conjunto de t´ ecnicas para el an´ alisis simult´ aneo de una colecci´ on de datos procedentes de varias variables.

Temas desarrollados en el curso anterior:

1

An´ alisis descriptivo: Medidas de localizaci´ on y dispersi´ on, gr´ aficos,. . .

2

Distribuciones estad´ısticas e inferencia: Variables aleatorias multivariantes, distribuciones multivariantes, ajuste de par´ ametros, contrastes,. . .

3

Reducci´ on de la dimensi´ on: Componentes principales.

4

An´ alisis de clasificaci´ on: Clasificadores basados en el Teorema de Bayes,

regresi´ on log´ıstica y vecinos m´ as cercanos.

(5)

Breve recordatorio: Conceptos importantes del curso anterior necesarios en este curso.

Notaci´ on: Fijar notaci´ on importante que vamos a utilizar en este curso.

Nuevos contenidos: Breve introducci´ on de los contenidos de este curso.

(6)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(7)

Variables univariantes: x ₁ , . . . , x _p .

Variable aleatoria multivariante: x = (x ₁ , . . . , x _p ) ⁰ .

Funci´ on de distribuci´ on de x: Si las variables univariates son cuantitativas, F x x ⁰

= Pr x ≤ x ⁰

= Pr x 1 ≤ x ₁ ⁰ , . . . , x p ≤ x _p ⁰

siendo x ⁰ = x ₁ ⁰ , . . . , x _p ⁰ 0

.

Funci´ on de densidad de x: Si las variables univariantes son cuantitativas y continuas,

F x x ⁰

= Z x

_p⁰

−∞

· · · Z x

₁⁰

−∞

f x (x 1 , . . . , x p ) dx 1 · · · dx p

donde f _x (x) = f _x (x ₁ , . . . , x _p ) es una funci´ on no negativa entre otros aspec-

tos.

(8)

Esperanza o vector de medias de x:

E [x] =





 E [x ₁ ]

.. . E [x p ]







donde E [x 1 ] , . . . , E [x p ] son las esperanzas de x 1 , . . . , x p . Significado: Promedio de los posibles valores de x.

Notaci´ on: µ _x = E [x ].

(9)

Matriz de covarianzas de x:

Cov [x] = E

(x − µ _x ) (x − µ _x ) ⁰

=







σ ₁ ² σ 12 · · · σ 1p

σ ₂₁ σ ² ₂ . . . .. .

.. . . . . . . . σ p−1,p

σ p1 · · · σ p,p−1 σ _p ²







donde

1

σ

²_j

= Var [x

j

] = E

(x

j

− E [x

j

])

²

, para j = 1, . . . , p; y

2

σ

jk

= Cov [x

j

, x

k

] = E [(x

j

− E [x

j

]) (x

k

− E [x

k

])], para j, k = 1, . . . , p.

Significado: Matriz de las desviaciones de x con respecto a su vector de medias, µ x .

Notaci´ on: Σ _x = Cov [x].

Propiedad importante: Σ x es una matriz semi-definida positiva.

(10)

Matriz de correlaciones de x:

Cor [x] = ∆ ^−1/2 _x Σ x ∆ ^−1/2 _x =







1 ρ 12 · · · ρ 1p

ρ 21 1 . . . .. .

.. . . . . . . . ρ _p−1,p ρ _p1 · · · ρ _p,p−1 1







donde

1

Σ

x

es la matriz de covarianzas de x ;

2

∆

x

es la matriz diagonal que contiene las varianzas de x;

3

ρ

jk

= Cor [x

j

, x

k

] =

_σ^σ^jk

jσ_k

, para j, k = 1, . . . , p.

Significado: Matriz de covarianzas de las variables estandarizadas.

Notaci´ on: % x = Cor [x].

Propiedad importante: % _x es una matriz semi-definida positiva.

(11)

Distribuci´ on Gaussiana multivariante: Con funci´ on de densidad f _x (x) = (2π) ^−p/2 |Σ _x | ^−1/2 exp

− (x − µ x ) ⁰ Σ ⁻¹ _x (x − µ x ) 2

para x = (x ₁ , . . . , x _p ) ⁰ , donde −∞ < x _j < ∞, para j = 1, . . . , p.

Notaci´ on: x ∼ N p (µ x , Σ x ).

Propiedad importante: La distribuci´ on Gaussiana multivariante es sim´ etri-

ca alrededor de µ _x , donde alcanza su m´ aximo valor.

(12)

x1

−4

−2

0

2

4

x2

−4

−2 0

2 0.05 4

0.10 0.15

FD de la Gaussiana multivariante estándar

(13)

x1

−4

−2

0

2

4

x2

−4

−2 0

2 4

0.0 0.1 0.2 0.3

FD de la Gaussiana multivariante con varianzas 1 y correlación .9

(14)

x1

−4

−2

0

2

4

x2

−4

−2 0

2 4

0.0 0.1 0.2 0.3

FD de la Gaussiana multivariante con varianzas 1 y correlación −.9

(15)

Curvas de nivel: Formadas por los valores de x que tienen exactamente el mismo valor de la funci´ on de densidad

{x : f x (x ) = c}

donde c es una constante.

Distribuci´ on Gaussiana multivariante: Curvas de nivel dadas por x : (x − µ _x ) ⁰ Σ ⁻¹ _x (x − µ _x ) = k

para cierta constante k .

Ejercicio: ¿Cu´ al es el valor de k para un cierto valor c de la curva de nivel?

Para p=2: Las curvas de nivel son elipses.

(16)

Curvas de nivel para Gaussiana estándar

−4 −2 0 2 4

−4−2024

Curvas de nivel para Gaussiana con varianzas 1 y correlación .9

−4 −2 0 2 4

−4−2024

Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9

−4 −2 0 2 4

−4−2024

(17)

Curvas de nivel para Gaussiana estándar

−4 −2 0 2 4

−4−2024

Curvas de nivel para Gaussiana con varianzas 1 y correlación .9

−4 −2 0 2 4

−4−2024

Curvas de nivel para Gaussiana con varianzas 1 y correlación −.9

−4 −2 0 2 4

−4−2024

(18)

Transformaci´ on lineal de x: Una variable aleatoria y = (y ₁ , . . . , y _q ) ⁰ dada por

y = Ax + b

donde A es una matriz de dimensi´ on q × p y b es un vector de dimensi´ on q × p.

Notar: q puede ser p, es decir, A puede tener dimensi´ on p × p.

Esperanza de y: E [y] = AE [x] + b.

Matriz de covarianzas de y : Cov [y ] = ACov [x] A ⁰ .

Ejercicio: Demostrar estas dos ´ ultimas igualdades.

(19)

Dos variables multivariantes x = (x 1 , . . . , x p ) ⁰ e y = (y 1 , . . . , y q ) ⁰ :

1

Variable conjunta formada por x e y y sus caracter´ısticas: Funci´ on de densidad, funci´ on de distribuci´ on, esperanza, matriz de covarianzas, matriz de correlaciones,. . .

2

Variable x condicionada a y y sus caracter´ısticas: Funci´ on de densidad, funci´ on de distribuci´ on, esperanza, matriz de covarianzas, matriz de correla- ciones,. . .

3

Independencia entre x e y .

4

Relaci´ on entre x e y : Matriz de covarianzas y matriz de correlaciones entre

x e y .

(20)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(21)

Matriz de datos: Valores de una variable aleatoria multivariante x = (x 1 , . . . , x p ) ⁰ para una muestra de n elementos

X =







x ₁₁ x ₁₂ · · · x _1p x ₂₁ x ₂₂ · · · x _2p .. . .. . . . . .. . x n1 x n2 · · · x np







donde x ij representa el valor del individuo i-´ esimo para la variable univariante

j-´ esima.

(22)

Dimensi´ on de la matriz de datos: n × p.

Tama˜ no muestral: n.

Dimensi´ on: p.

Valores de la variable j-´ esima, x j : x 1j , . . . , x nj , para j = 1, . . . , p.

Valores del elemento i-´ esimo de la muestra: x i1 , . . . , x ip , para i = 1, . . . , n.

(23)

Planetas fuera del sistema solar: Informaci´ on sobre n = 101 planetas fuera del sistema solar resumida en p = 3 variables.

Variables:

1

Masa Jupiter del Planeta: Unidad de masa con respecto a la masa total del planeta Jupiter.

2

Periodo del planeta: Tiempo con respecto a un d´ıa en la Tierra en dar una vuelta sobre su eje principal.

3

Excentricidad radial del planeta: Medida no negativa que determina en que

cantidad su ´ orbita se desv´ıa de un circulo (0 implica ´ orbita circular).

(24)

Matriz de datos:

Planeta Masa Periodo Excentricidad

1 0.120 4.950 0.000

2 0.197 3.971 0.000

3 0.210 44.280 0.340

.. . .. . .. . .. .

101 17.500 256.030 0.429

(25)

Masa

0 1000 2000 3000 4000 5000

051015

010002000300040005000

Periodo

0 5 10 15 0.0 0.2 0.4 0.6 0.8

0.00.20.40.60.8

Excentricidad Datos

(26)

Matriz de datos en logaritmos (se ha sumado 1 antes de tomar loga- ritmos):

Planeta Log-Masa Log-Periodo Log-Excentricidad

1 0.113 1.783 0.000

2 0.179 1.603 0.000

3 0.190 3.812 0.292

.. . .. . .. . .. .

101 2.917 5.549 0.356

Matriz de datos X : Matriz de datos de dimensi´ on 101 × 3 tras la transfor-

maci´ on en logaritmos.

(27)

Log−Masa

2 4 6 8

0.00.51.01.52.02.53.0

2468

Log−Periodo

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6

0.00.10.20.30.40.50.6

Log−Excentricidad Datos

(28)

Diagrama de dispersión en 3d

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.00.10.20.30.40.50.60.7

0 2

4 6

8 10

Log−Masa

Log−Periodo

Log−Excentricidad

(29)

Vector de medias muestral de X :

x =





 x 1

x 2

.. . x _p







= ¹ _n X ⁰ 1 n

donde

1

n

= (1, 1, . . . , 1)

⁰

es el vector de unos de dimensi´ on n × 1; y

2

x

j

es la media muestral de la variable univariante j-´ esima.

Estimador: El vector x es un estimador del vector de medias de la variable

multivariante x, µ x .

(30)

Matriz de covarianzas muestral de X :

S _x =







s ₁ ² s 12 · · · s 1p

s 21 s ₂ ² . . . s 2p

.. . . . . . . . .. . s p1 s p2 · · · s _p ²







donde:

1

s

_j²

es la varianza muestral de la variable x

j

, para j = 1, . . . , p; y

2

s

jk

es la covarianza muestral entre las variables x

j

y x

k

, para j, k = 1, . . . , p con j 6= k.

Propiedad importante: S x es una matriz sim´ etrica semidefinida positiva.

Estimador: La matriz S x es un estimador de la matriz de covarianzas de x,

Σ x .

(31)

Matriz de correlaciones muestral de X :

R _x = D _x ^−1/2 S _x D _x ^−1/2 =







1 r ₁₂ · · · r _1p r 21 1 . . . .. .

.. . . . . . . . r p−1,p

r p1 · · · r p,p−1 1







donde:

1

S

x

es la matriz de covarianzas muestral de X ;

2

D

x

es la matriz diagonal que contiene las varianzas muestrales de X ;

3

r

jk

=

_s^s^jk

js_k

, para j, k = 1, . . . , p, son las correlaciones muestrales entre las variables x

j

y x

k

.

Propiedad importante: R x es una matriz sim´ etrica semidefinida positiva.

Estimador: La matriz R x es un estimador de la matriz de correlaciones de

x, % x .

(32)

Vector de medias muestral de X :

x = (1.190, 5.228, 0.235) ⁰

Medias muestrales individuales: El vector est´ a formado por las medias muestrales de las variables individuales.

Diferentes unidades de medida: Cada una de las variables individuales

tiene su propia unidad de medida. Lo mismo ocurre con el vector de medias

muestral.

(33)

Matriz de covarianzas muestral de X :

S x =





0.507 0.633 0.044 0.633 4.278 0.151 0.044 0.151 0.026





Autovalores de S x : λ 1 = 4.387, λ 2 = 0.404 y λ 3 = 0.019.

Traza de S x : Tr (S x ) = 4.811.

Determinante de S _x : |S _x | = 0.034.

(34)

Matriz de correlaciones muestral de X :

R x =





1 0.430 0.383

0.430 1 0.453

0.383 0.453 1





Autovalores de R x : λ 1 = 1.845, λ 2 = 0.618 y λ 3 = 0.535.

Traza de R x : Tr (R x ) = 3.

Determinante de R _x : |R x | = 0.611 que no es muy pr´ oximo a 0 debido a

que no existen variables altamente correladas.

(35)

Matriz de datos centrados: X e = X − 1 n x ⁰ . Estandarizaci´ on individual de X :

Y = X D e _x ^−1/2

donde D _x es la matriz diagonal que contiene las varianzas muestrales de X .

Caracter´ısticas muestrales de Y : y = 0 p , S y = R x y R y = R x . Es decir,

S y = R y .

(36)

Y1

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−1012

−1.5−1.0−0.50.00.51.01.5

Y2

−1 0 1 2 −1 0 1 2

−1012

Y3 Datos estandarizados

(37)

Inferencia con la matriz de datos:

1

Estimaci´ on m´ aximo-verosimil: Ajuste de los par´ ametros de una distribuci´ on.

2

Contrastes de hip´ otesis: Inferencia sobre los par´ ametros de una distribuci´ on,

independencia,. . .

(38)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(39)

Componentes principales: M´ etodo muy sencillo y efectivo de:

1

Identificar variables latentes incorreladas: Proporcionan interpretaciones interesantes de los datos;

2

Obtener una nueva matriz de datos con menos variables: Eliminaci´ on del

ruido.

(40)

Misma unidad de medida en X :

Z = X V e _p

donde V _p es la matriz ortogonal cuyas columnas son los p autovectores de S x .

Diferentes unidades de medida en X : Z = YV _p ^R

donde Y = X D e x ^−1/2 es la estandarizaci´ on individual de X y V _p ^R es la matriz

ortogonal cuyas columnas son los p autovectores de R _x .

(41)

Diferentes unidades de medida: Tres variables con diferentes unidades de medida.

Autovectores de R _x : Columnas de la siguiente matriz:

V ₃ ^R =





−0.56 0.76 0.30

−0.59 −0.12 −0.79

−0.57 −0.62 0.52





Puntuaciones de los CPs:

Z = YV ₃ ^R

(42)

Log−Masa

2 4 6 8

0.00.51.01.52.02.53.0

2468

Log−Periodo

0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6

0.00.10.20.30.40.50.6

Log−Excentricidad Datos

(43)

CP1

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−2−1012

−1.5−1.0−0.50.00.51.01.5

CP2

−2 −1 0 1 2 −2 −1 0 1

−2−101

CP3 CPs

(44)

Diagrama de dispersión en 3d de Datos

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.00.10.20.30.40.50.60.7

0 2

4 6

8 10

Log−Masa

Log−Periodo

Log−Excentricidad

Diagrama de dispersión en 3d de CPs

−3 −2 −1 0 1 2 3

−2−1 0 1 2

−2.0

−1.5

−1.0

−0.5 0.0

0.5 1.0

1.5 2.0

CP1

CP2

CP3

(45)

Varianzas de los CPs:

1

Misma unidad de medida en X : Autovalores de la matriz S

x

.

2

Diferentes unidades de medida en X : Autovalores de la matriz R

x

. Ejercicio: Demostrar lo anterior.

Notaci´ on para los autovalores: λ ₁ , . . . , λ _p .

(46)

Importancia de las CPs: Utilizar las proporciones de variabilidad explicada y variabilidad explicada acumulada.

Proporci´ on de variabilidad explicada por cada CP:

PV j = λ _j λ 1 + · · · + λ p

j = 1, . . . , p

Proporci´ on de variabilidad explicada acumulada por los primeros j CPs:

PVA j = λ 1 + · · · + λ j

λ 1 + · · · + λ p

j = 1, . . . , p

(47)

Autovalores de R x :

λ 1 = 1.8454, λ 2 = 0.6185, λ 3 = 0.5359.

Proporci´ on de variabilidad explicada por cada CP:

PV ₁ = 0.6151, PV ₂ = 0.2061, PV ₃ = 0.1786.

Proporci´ on de variabilidad explicada acumulada por los primeros j CPs:

PVA 1 = 0.6151, PVA 2 = 0.8213, PVA 3 = 1.000.

(48)

Gráfico de codo

Variances 0.60.81.01.21.41.61.8

Comp.1 Comp.2 Comp.3

(49)

N´ umero de CPs importantes: Dos primeras CPs explican el 82.13 % de la variabilidad total.

Primera CP:

z ₁ = −0.56y ₁ − 0.59y ₂ − 0.57y ₃ , donde y _j = (x _j − x _j ) /s _j , para j = 1, . . . , 3.

Interpretaci´ on de la primera CP: Separa planetas con valores altos de

masa, periodo y excentricidad, de planetas con valores bajos de dichas va-

riables.

(50)

Segunda CP:

z 1 = 0.76y 1 − 0.12y 2 − 0.62y 3 , donde y j = (x j − x j ) /s j , para j = 1, . . . , 3.

Interpretaci´ on de la segunda CP: Separa planetas con valores altos de

masa pero bajos de excentricidad, de planetas con valores bajos de masa

pero altos de excentricidad.

(51)

2 Variables aleatorias multivariantes

3 La matriz de datos

4 Componentes principales

5 ¿A donde vamos?

(52)

T´ ecnicas avanzadas para datos multivariantes:

1

An´ alisis de conglomerados.

2

Escalado multimensional.

3

An´ alisis factorial.

4

Regresi´ on multivariante.

5

Correlaciones can´ onicas.

(53)

An´ alisis de conglomerados:

1

An´ alisis de conglomerados: Conjunto de m´ etodos para dividir las observa- ciones de un conjunto de datos multivariantes en grupos.

2

Similaridad: Observaciones dentro del mismo grupo deben sean similares y a la vez diferentes de observaciones en otros grupos.

3

T´ ecnica exploratoria: ¿Qu´ e significa de dos observaciones sean similares?

(54)

Escalado multidimensional:

1

Escalado multidimensional: Procedimiento para obtener variables cuando los datos representan distancias entre observaciones.

2

T´ ecnica exploratoria: El objetivo final es obtener gr´ aficos de ciertas variables a obtener que nos ayudan a entender por qu´ e dos observaciones est´ an cerca o lejos.

3

Aplicaciones: Marketing y an´ alisis de encuestas.

(55)

An´ alisis factorial:

1

An´ alisis factorial: Procedimiento para obtener variables latentes, llamadas factores, a partir de una matriz de datos.

2

Extensi´ on: El an´ alisis factorial es una extensi´ on m´ as elaborada del an´ alisis de componentes principales.

3

Variables latentes: Permite definir variables que no se pueden medir direc-

tamente: inteligencia, clase social,. . .

(56)

Regresi´ on multivariante:

1

Regresi´ on multivariante: Procedimiento para predecir una variable respuesta multivariante mediante una variable regresora multivariante.

2

Regresi´ on univariante: Esencialmente la regresi´ on multivariante es una ex-

tensi´ on directa de la extensi´ on univariante, si bien hay aspectos algo m´ as

complejos.

(57)

Correlaciones can´ onicas:

1

Tema 1: Introducci´ on