Análisis Exploratorio
Multivariado
Dra Margarita Díaz
Análisis de Datos Multivariados
Grandes bases de
datos
Análisis conjunto de numerosas
variables con diversos objetivos
tales como reducción de la
dimensión, agrupamiento,
clasificación supervisada,etc.
Matriz de
datos
11 12 1
21 22 2
1 2
Var 1 Var 2
Var p
Obs. 1
Obs. 2
Obs. n
p
p
n n np
...
x
x
...
x
x
x
...
x
...
...
...
...
Métodos Estadísticos de Análisis
Métodos
Multivariados Exploratorios
Métodos explicativos
Métodos Factoriales:
• Componentes principales
• Análisis Factorial de
Correspondencias Múltiples
• Análisis Factorial Exploratorio
Métodos de agrupamiento (Cluster)
Regresión Múltiple, Regresión Logística y Extensiones
Bibliografía
Díaz, Margarita (2009). Métodos Multivariados. Cooperadora de la Facultad de Ciencias Económicas.
Peña, Daniel (2002). Análisis de datos multivariantes. Madrid, Mc Graw Hill
Pérez López César (2005) Métodos Estadísticos Avanzados con SPSS Thomson Editores Madrid.
Uriel Jiménez, E. y Aldás Manzano, E. (2005) Análisis Multivariante Aplicado. Madrid.
Escuela Francesa
Componentes principales, Análisis Factorial y
Análisis Factorial de Correspondencia s Múltiples
construir factores no observables
que expliquen las interrelaciones
entre variables
Componentes
Principales y
AFCM
Reducir la dimensión de un
conjunto
de
variables
cuantitativas (CP) o de un
conjunto
de
variables
cualitativas (AFCM)
Análisis
Factorial
O B J E T
•
Permitir analizar la interdependencia entre las variables
originales
•
Obtener
nuevas
variables
llamadas
componentes
principales
, que se calculan como combinación lineal de las
variables originales
.
•
Utilizar pocas componentes en la aplicación de otras
técnicas, tales como Cluster y regresión
Múltiple.
Se aplica
cuando tenemos un número elevado de variables
cuantitativas
correlacionadas entre sí
Objetivos
Geométricamente: Los ejes originales son transformados efectuando primero una
traslación del origen al centroide, y luego una rotación
que determina los nuevos ejes.
x1 x2
1 2
x , x
y1 y2
Componentes principales
Variables originales
Var. originales estandarizadas
Componentes principales
1, 2,..., p
X X X
1, 2,..., p
Z Z Z
1, 2,..., p
1 2
1
1 1 2 2
1 1
(
)
(
) Varianza total=
(
)
( )
( ) =
Varianza total=
( )
p
i i
p p
i j
i j
Var X
Var X
Var X
Var Y
Var Y
Var Y
1 11 1 12 2
2 21 1 22 2
Y
u X
u X
Y
u
X
u
X
Y
u X
Es posible calcular tantas combinaciones lineales como variables; la primera componente principal es aquella que explica la mayor parte de la varianza de la muestra, la segunda es la que sigue en magnitud de explicación y es independiente de la primera, y así sucesivamente.
Componentes principales
1
2
. . .
p
0
La proporción de varianza explicada por
un componente, para la componente h:
1
h p
j j
Ejemplo de Componentes Principales
Archivo de datos elaborado en el proyecto SECyT MODELO DE ADMINISTRACIÓN DEL RIESGO año 2000 dirigido por Dr Ferrero y Dra. Margarita Díaz Integrantes:
Patricia Caro, Cecilia Díaz y María Inés Stimolo
Muestra
50 empresas que cotizan en la Bolsa de Comercio de
Buenos Aires
1. Liquidez Acida ((Act.Cte. - Bienes de Cambio)/Pasivo Cte) 2. Solvencia (Activo Total/Pasivo Total)
3. Propiedad del Activo (Patrimonio Neto/Activo) 4. Pasivo No Cte./Activo,
5. Autofinanciación (Utilidades no distribuidas/Activo), 6. Inmovilización del Activo (Activo no corriente/Activo),
7. Inmovilización del Patrim. Neto (Activo no corriente/P.Neto),
8. Rentabilidad Económica (Utilidad antes de impuestos/Activo Total 9. Margen de la Explotación (Utilidad Bruta/Ventas
10. Costo Marginal de Financiamiento (Utilidad Neta/Intereses pagados). V
A
ANALIZAR REDUCCIÓN DE DATOS ANÁLISIS FACTORIAL
En la pantalla EXTRACCIÓN seleccionar el método de componentes principales e indicar el número de factores.
En la pantalla ROTACIÓN seleccionar ninguno.
Para guardar las nuevas variables en la pantalla PUNTUACIONES FACTORIALES tildar Guardar como variables.
Media Desviación típica LIQACID
118,2 170,9
SOLVENC
293,5 281,8
PROPACT
51,1 20,8
PNOCOR
11,8 12,4
AUTOFIN
-2,4 22,7
INMACT
61,6 18,3
INMPN
153,2 102,3
RENTECO
-4,3 12,4
MAREXP
-5,6 22,4
REXP_INT
141,2 2899,8
Matriz de correlaciones
LIQACID SOLVENC PROPACT PNOCOR AUTOFIN INMACT INMPN RENTECO MAREXP REXP_INT LIQACID
1 0,93 0,64 -0,16 0,17 -0,23 -0,37 0,11 0,17 -0,16 SOLVENC 0,93 1 0,75 -0,32 0,19 -0,25 -0,45 0,15 0,13 -0,04 PROPACT 0,64 0,75 1 -0,37 0,24 -0,12 -0,80 0,36 0,25 0,17 PNOCOR -0,16 -0,32 -0,37 1 -0,27 0,53 0,37 -0,03 0,05 -0,10 AUTOFIN
0,17 0,19 0,24 -0,27 1 -0,11 -0,24 0,57 0,31 0,33 INMACT -0,23 -0,25 -0,12 0,53 -0,11 1 0,30 -0,06 -0,23 -0,01 INMPN -0,37 -0,45 -0,80 0,37 -0,24 0,30 1 -0,39 -0,29 -0,10 RENTECO
0,11 0,15 0,36 -0,03 0,57 -0,06 -0,39 1 0,5 0,6 MAREXP
0,17 0,13 0,25 0,05 0,31 -0,23 -0,29 0,53 1 0,21 REXP_INT -0,16 -0,04 0,17 -0,10 0,33 -0,01 -0,10 0,65 0,21 1 LIQACID 0,00 0,00 0,13 0,11 0,06 0,00 0,22 0,11 0,14 SOLVENC
0,00 0,00 0,01 0,10 0,04 0,00 0,15 0,19 0,39 PROPACT 0,00 0,00 0,00 0,05 0,21 0,00 0,01 0,04 0,12 PNOCOR 0,13 0,01 0,00 0,03 0,00 0,01 0,42 0,37 0,25 AUTOFIN 0,11 0,10 0,05 0,03 0,23 0,05 0,00 0,01 0,01 INMACT
0,06 0,04 0,21 0,00 0,23 0,02 0,34 0,06 0,48 INMPN 0,00 0,00 0,00 0,01 0,05 0,02 0,00 0,02 0,25 RENTECO 0,22 0,15 0,01 0,42 0,00 0,34 0,00 0,00 0,00 MAREXP
0,11 0,19 0,04 0,37 0,01 0,06 0,02 0,00 0,07 REXP_INT 0,14 0,39 0,12 0,25 0,01 0,48 0,25 0,00 0,07
Selección de componentes
Número de componente
10 9 8 7 6 5 4 3 2 1 Au tov alo r 4 3 2 1 0
Gráfico de sedimentación
Total
% de la varianza
% acumulado
1 3,74 37,40 37,40
2 2,04 20,38 57,79
3 1,30 12,96 70,74
4 0,91 9,13 79,87
5 0,78 7,75 87,62
6 0,61 6,12 93,75
7 0,34 3,41 97,16
8 0,18 1,83 98,98
9 0,06 0,64 99,63
10 0,04 0,38 100
Componente
Autovalores iniciales
Las 5 primeras componentes
explican
el
87,62%
de
Matriz de componentes y biplot
PNOCOR INMACT
LIQACID SOLVENC
PROPACT
RENTECO MAREXP
INMPN
REXP_INT AUTOFIN
…
-1,0Co
mp
one
nte
2
1,0 0,5 0,0 -0,5 -1,0
Componente 1
1,0 0,5 0,0 -0,5 -1,0
Gráfico de componentes
1 2 3 4 5
LIQACID 0,70 -0,49 0,34 -0,12 0,30 SOLVENC 0,78 -0,47 0,24 0,05 0,22 PROPACT 0,87 -0,17 0,21 0,23 -0,27 PNOCOR -0,49 0,19 0,72 -0,27 -0,05 AUTOFIN 0,51 0,48 -0,10 0,09 0,53 INMACT -0,42 0,16 0,71 0,42 -0,02 INMPN -0,77 0,05 0,04 -0,07 0,52 RENTECO 0,57 0,73 0,14 0,00 0,00 MAREXP 0,46 0,44 0,13 -0,68 -0,11 REXP_INT 0,28 0,73 -0,07 0,35 -0,02
Análisis Factorial de
Correspondencias Múltiples
Objetivo
Reducir la dimensión de una tabla de datos formada por
variables
cualitativas
. Se estudia la asociación entre las
categorías de esas variables, sintetizando gráficamente la
información.
Dos variables
Tres o más variables
Las frecuencias conjuntas se presentan en una
tabla de contingencia.
EJEMPLO: archivo credit.sav (extraído del software SPAD N)
Muestra: 480 clientes de una entidad bancaria Variables categóricas:
• Tipo de cliente (bueno/malo)
• Edad del cliente (-23, 23-40, 40-50, +50, años) • Situación familiar (soltero, casado, divorciado, viudo) • Antigüedad (-1, 1-4, 4-6, 6-12, +12, años)
• Depositan salario?(si se deposita, no se deposita) • Ahorros (no ahorros, -10KF, 10-100 KF, +100KF) • Profesión (empresario, trabajador, otra)
• Saldo medio (-2KF, 2-5 KF, +5KF)
• Media movimientos (-10KF, 10-30 KF, 30-50 KF, +50 KF) • Acumulación de débito (-40, 40-100, +100)
EJEMPLO: archivo credit.sav
Procesado con software SPSS
ANALIZAR --- REDUCCION DE DATOS ---ESCALAMIENTO OPTIMO
Inercia
% de la
varianza
Total
(Autovalores)
1
0,736
3,073
0,256
25,611
2
0,555
2,034
0,170
16,951
Total
5,107
0,426
Media
,664(a)
2,554
0,213
21,281
Resumen del modelo
Dimensión
Alfa de
Cronbach
Dimensión 1
0,5 0,4
0,3 0,2
0,1 0,0
D
im
ens
ión
2
0,6
0,4
0,2
0,0 Autorización de cheq Autorización para gi
Cantidad de débitos
Media de los movimie Saldo medio
Profesión
Nivel de ahorro (en
Depositan su salario Antiguedad
Situación familiar
Edad del cliente Tipo de cliente
Autorización de cheq Autorización para gi
Cantidad de débitos
Media de los movimie Saldo medio
Profesión
Nivel de ahorro (en
Depositan su salario Antiguedad
Situación familiar
Edad del cliente Tipo de cliente
Medidas de discriminación
1 2
no_aho 370 0,25 -0,16
-10aho 58 -0,37 0,46
10a100aho 32 -1,64 0,88
+100aho 8 -2,30 0,62
-$2sal 98 0,68 1,32
$2a$5sal 308 0,08 -0,56
+$5sal 62 -1,49 0,71
-$10mov. 154 0,75 -0,14
$10a$30m. 71 0,36 -0,27
$30a$50m 129 -0,32 -0,09
+$50 mov. 114 -0,88 0,46
-40déb 171 -0,21 -0,74
40a100déb 161 -0,08 -0,22
+100déb 136 0,368 1,189
Categoría Frecuencia Coordenadas
Cantidad de débitos Media de los movimientos
Saldo medio Nivel de ahorro
1 2
Buen 237 -0,66 -0,31 Mal 231 0,68 0,32
-23años 88 0,80 -0,47 23a 40a 150 0,17 0,06
40a50a 122 -0,21 0,01 +50años 108 -0,65 0,28
solt 170 0,50 -0,27 cas 221 -0,40 0,09
div 61 0,01 0,15
viu 16 0,25 1,07
-1año 199 0,47 -0,23
1a4a 47 0,39 0,42
4a6a 69 0,09 -0,04
6a12a 66 -0,51 0,03 +12años 87 -0,98 0,30 Categoría Frecuencia Coordenadas
Antiguedad Situación familiar
Dimensión 1 1 0 -1 -2 Di mensi ón 2 1,5 1,0 0,5 0,0 -0,5 -1,0 Mal Buen viu div cas solt +$5sal $2a$5sal -$2sal otro emp direct +100aho 10a100aho -10aho no_aho +$50 mov. $30a$50m $10a$30m. -$10mov. +50años 40a50a 23a 40a -23años no_dep dep +100déb 40a100déb -40déb no descub
si descub no cheq
si cheq +12años
6a12a 4a6a 1a4a
-1año
Diagrama conjunto de puntos de categorías
Tipo de cliente Situación familiar Saldo medio Profesión
Nivel de ahorro (en miles de pesos)
Media de los movimientos (en miles de pesos)
Edad del cliente
Depositan su salario en esta cuenta?
Cantidad de débitos Autorización para giro en descubierto
Autorización de chequera Antiguedad
Dimensión 1 3 2 1 0 -1 -2 -3 D im ens ión 2 3 2 1 0 -1 -2 463 458 451 443 440 429 428 422 403 398 397 394 381 379 376 372 370 369 367 366 363 362 361 354 351 349 343 340 338 336 335 327 321 318 317 316 312 311 310 309 308 307 306 305 304 297 296 285 284 283 268 264 263 261 255 253 251 247 245 244242 241 233 220 218 214 213 210 209 208 206 204 203 200 199 195 194 193 190 189 188 187 184 182 178 175 174 169 168 166 164 162 157 155 149 147 146 144 142 141 139 138 133 131 129 125 121 120 119 118 116 110 109 107 105 104 102 101 100 97 94 93 92 91 90 89 87 86 85 84 82 81 79 77 76 75 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 42 41 40 39 38 37 36
35 3433 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
Puntos de objeto etiquetados mediante Números de caso
Normalización principal por variable.
El AFCM pone en evidencia tipos de individuos que tienen
perfiles semejantes en cuanto a los atributos que los describen:
Análisis Factorial (AF)
Las variables observadas se explican por factores comunes
que no son observables. La diferencia entre ACP y AF
radica en que el AF trata de encontrar variables latentes
no observables
Puede ser exploratorio o confirmatorio: en el
Exploratorio
no se conoce a priori
el número de factores y es en la
aplicación empírica donde se determina este número.
Análisis Factorial Exploratorio
El modelo factorial permite expresar las
p
variables del
modelo como una combinación lineal de
q
factores ( o
variables latentes) no observables (donde
q < p
).
Un modelo con dos factores y 4 variables observadas es:
Ψ21
22 32 42
y2 y3 y4
2 3 4
21 31 41
2 1
y1
1
11 12
1
11
1 12 2
+
1Y
2
21 1 22 2
+
2Y
3
31 1 32 2
+
3Y
4
41 1 42 2
+
4Para
una
variable
,su
varianza
tipificada
puede
descomponerse de la siguiente forma:
Y
j2 2
1
j j
h
e
Comunalidad
,
parte de
la varianza debido a los
factores comunes
Especificidad
parte de
la varianza debida a
los factores únicos.
Archivo de datos elaborado en el proyecto SECyT “
Uso de variables
latentes en el análisis del desarrollo de las Tecnologías de
Información y Comunicación en ámbito de la Provincia de
Córdoba”
año 2010. Dirigido por Mg. C. Díaz y Mg. María Inés
Stímolo. Integrantes: Olga Padró, María Inés Ahumada, Carola Jones
V
A
R I A B L E S
Secundario completo Terciario incompleto
Tiene PC con conexión a Internet Tiene PC
Escuelas públicas con conexión a Internet Escuelas privadas con conexión a Internet PC con destino pedagógico en esc. Públicas PC con destino pedagógico en esc. Privadas Sitio web en municipios
Sitio web municipios c/ información de trámites Tiene correo electrónico
Censo de Población
Relevamiento ad-hoc
Relevamiento del Ministerio de Educación
Resultados
Ejemplo de Análisis Factorial
Indicadores Tecnológicos Factor 1 Factor 2 Factor 3 Factor 4 Unicidad
Secundario completo 0.9091 0.1469 0.2897 0.1583 0.0428 Terciario incompleto 0.8701 0.1902 0.0709 0.0946 0.1927 Tiene PC con conexión a Internet 0.7966 0.0437 0.2629 0.1189 0.2803 Tiene PC 0.7561 -0.002 0.081 -0.0361 0.4204 Escuelas públicas con conexión a Internet -0.117 -0.0902 -0.0622 -0.8395 0.2694 Escuelas privadas con conexión a Internet 0.1508 -0.0121 0.1056 0.827 0.2821 PC con destino pedagógico en esc. Públicas 0.1745 0.077 0.9717 0.04 0.0178 PC con destino pedagógico en esc. Privadas 0.1814 0.0761 0.9773 0.0789 0 Sitio web en municipios 0.0937 0.8098 0.0734 0.1277 0.3138 Sitio web municipios c/ información de trámites 0.0991 0.9901 0.0949 0.0306 0 Tiene correo electrónico 0.2121 0.6597 0.0557 -0.1495 0.4944
Uso y acceso a las TICs
Avance en el gobierno electrónico
Equipamiento en las escuelas
Conectividad de las escuelas
Resultados
Ejemplo de Análisis Factorial
Para cada pedanía se calculó un
Indice Tecnológico
global
a partir de los factores seleccionados, ponderados
por la varianza de cada uno.
Resultados
Ejemplo de Análisis Factorial
Distribución del
Indice Uso y acceso a las TICS en la Provincia de Córdoba
Sin datos Pedania_def.shp
-6 - -4 -3 - -1 0 - 2 3 - 7
La correlación espacial (índice de Moran), resultó positiva
Análisis de Conglomerados
Clasificar a las observaciones en grupos donde cada
grupo o conglomerado sea homogéneo internamente y
que entre los grupos sean lo más distinto posibles
G1
Análisis de Conglomerados
Proceso de creación de los grupos:
•
Establecer un indicador que mida la similitud
entre dos observaciones.
•
Crear los grupos utilizando algún método de
agrupamiento
Formación de los grupos
Algoritmos de agrupación
Jerárquicos
Permite identificar la cantidad
óptima de grupos a partir del
dendrograma
No Jerárquicos
A B C D E_F
A 0
B 1 0
C 9,2 4,2 0
D 12,2 6,6 3,1 0
E_F 24,1 14,1 2,8 2,6 0
A_B C D E_F
A_B 0
C 8,6 0
D 12,1 3,1 0
E_F 28,2 2,,8 2,6 0
A_B C D_E_F
A_B 0
C 8,6 0
D_E_F 28,8 3,0 0
AGRUPACIÓN JERARQUICA Método de Ward
A B C D E F
A 0
B 1 0
C 9,2 4,2 0
D 12,2 6,6 3,1 0
E 20,5 12,5 3,2 2,1 0
F 16 9 1,2 2,1 0,5 0
1 2
2 1 2
, 1 2
1 2
g g
n n
I
x
x
n
n
Análisis no jerárquico de Conglomerados.
Método de K-means
Se deben realizar las siguientes tareas:
1. Determinar los centroides iniciales o semillas de los K
grupos
2. Asignar cada observación al centroide más cercano según
la distancia euclídea.
3. Con las observaciones clasificadas se recalculan los
centroides de los k grupos. Si las distancias entre los
nuevos y viejos centroides en mayor que un criterio de
convergencia establecido , se vuelve al paso 2.
K-Means. K=2
G1
G2 G2