Var p Obs. 1 Obs. 2 Obs. n

(1)

Análisis Exploratorio

Multivariado

Dra Margarita Díaz

(2)

Análisis de Datos Multivariados

Grandes bases de

datos

Análisis conjunto de numerosas

variables con diversos objetivos

tales como reducción de la

dimensión, agrupamiento,

clasificación supervisada,etc.

Matriz de

datos

11 12 1

21 22 2

1 2

Var 1 Var 2

Var p

Obs. 1

Obs. 2

Obs. n

p

n n np

...

x

...

x

...

x

...

(3)

Métodos Estadísticos de Análisis

Métodos

Multivariados Exploratorios

Métodos explicativos

Métodos Factoriales:

• Componentes principales

• Análisis Factorial de

Correspondencias Múltiples

• Análisis Factorial Exploratorio

Métodos de agrupamiento (Cluster)

Regresión Múltiple, Regresión Logística y Extensiones

(4)

(5)

Bibliografía

Díaz, Margarita (2009). Métodos Multivariados. Cooperadora de la Facultad de Ciencias Económicas.

Peña, Daniel (2002). Análisis de datos multivariantes. Madrid, Mc Graw Hill

Pérez López César (2005) Métodos Estadísticos Avanzados con SPSS Thomson Editores Madrid.

Uriel Jiménez, E. y Aldás Manzano, E. (2005) Análisis Multivariante Aplicado. Madrid.

Escuela Francesa

(6)

Componentes principales, Análisis Factorial y

Análisis Factorial de Correspondencia s Múltiples

construir factores no observables

que expliquen las interrelaciones

entre variables

Componentes

Principales y

AFCM

Reducir la dimensión de un

conjunto

de

variables

cuantitativas (CP) o de un

conjunto

de

variables

cualitativas (AFCM)

Análisis

Factorial

O B J E T

(7)

• Permitir analizar la interdependencia entre las variables

originales

• Obtener

nuevas

variables

llamadas

componentes

principales

, que se calculan como combinación lineal de las

variables originales

.

• Utilizar pocas componentes en la aplicación de otras

técnicas, tales como Cluster y regresión

Múltiple.

Se aplica

cuando tenemos un número elevado de variables

cuantitativas

correlacionadas entre sí

Objetivos

(8)

Geométricamente: Los ejes originales son transformados efectuando primero una

traslación del origen al centroide, y luego una rotación

que determina los nuevos ejes.

x₁ x₂

1 2

x , x

y₁ y₂

Componentes principales

Variables originales

Var. originales estandarizadas

Componentes principales

1, 2,..., p

X X X

1, 2,..., p

Z Z Z

1, 2,..., p

(9)

1 2

1

1 1 2 2

1 1

(

)

(

) Varianza total=

(

)

( )

( ) =

Varianza total=

( )

p

i i

p p

i j

Var X

Var Y

1 11 1 12 2

2 21 1 22 2

Y

u X

Y

u

X

u

X

Y

u X

Es posible calcular tantas combinaciones lineales como variables; la primera componente principal es aquella que explica la mayor parte de la varianza de la muestra, la segunda es la que sigue en magnitud de explicación y es independiente de la primera, y así sucesivamente.

Componentes principales

(10)

1

2 . . .

p

0 La proporción de varianza explicada por

un componente, para la componente h:

1

h p

j j

(11)

Ejemplo de Componentes Principales

Archivo de datos elaborado en el proyecto SECyT MODELO DE ADMINISTRACIÓN DEL RIESGO año 2000 dirigido por Dr Ferrero y Dra. Margarita Díaz Integrantes:

Patricia Caro, Cecilia Díaz y María Inés Stimolo

Muestra

50 empresas que cotizan en la Bolsa de Comercio de

Buenos Aires

1. Liquidez Acida ((Act.Cte. - Bienes de Cambio)/Pasivo Cte) 2. Solvencia (Activo Total/Pasivo Total)

3. Propiedad del Activo (Patrimonio Neto/Activo) 4. Pasivo No Cte./Activo,

5. Autofinanciación (Utilidades no distribuidas/Activo), 6. Inmovilización del Activo (Activo no corriente/Activo),

7. Inmovilización del Patrim. Neto (Activo no corriente/P.Neto),

8. Rentabilidad Económica (Utilidad antes de impuestos/Activo Total 9. Margen de la Explotación (Utilidad Bruta/Ventas

10. Costo Marginal de Financiamiento (Utilidad Neta/Intereses pagados). V

A

(12)

ANALIZAR REDUCCIÓN DE DATOS ANÁLISIS FACTORIAL

En la pantalla EXTRACCIÓN seleccionar el método de componentes principales e indicar el número de factores.

En la pantalla ROTACIÓN seleccionar ninguno.

Para guardar las nuevas variables en la pantalla PUNTUACIONES FACTORIALES tildar Guardar como variables.

Media Desviación típica LIQACID

118,2 170,9

SOLVENC

293,5 281,8

PROPACT

51,1 20,8

PNOCOR

11,8 12,4

AUTOFIN

-2,4 22,7

INMACT

61,6 18,3

INMPN

153,2 102,3

RENTECO

-4,3 12,4

MAREXP

-5,6 22,4

REXP_INT

141,2 2899,8

(13)

Matriz de correlaciones

LIQACID SOLVENC PROPACT PNOCOR AUTOFIN INMACT INMPN RENTECO MAREXP REXP_INT LIQACID

1 0,93 0,64 -0,16 0,17 -0,23 -0,37 0,11 0,17 -0,16 SOLVENC _0,93 ₁ _0,75 _-0,32 _0,19 _-0,25 _-0,45 _0,15 _0,13 _-0,04 PROPACT _0,64 _0,75 ₁ _-0,37 _0,24 _-0,12 _-0,80 _0,36 _0,25 _0,17 PNOCOR _-0,16 _-0,32 _-0,37 ₁ _-0,27 _0,53 _0,37 _-0,03 _0,05 _-0,10 AUTOFIN

0,17 0,19 0,24 -0,27 1 -0,11 -0,24 0,57 0,31 0,33 INMACT _-0,23 _-0,25 _-0,12 _0,53 _-0,11 ₁ _0,30 _-0,06 _-0,23 _-0,01 INMPN _-0,37 _-0,45 _-0,80 _0,37 _-0,24 _0,30 ₁ _-0,39 _-0,29 _-0,10 RENTECO

0,11 0,15 0,36 -0,03 0,57 -0,06 -0,39 1 0,5 0,6 MAREXP

0,17 0,13 0,25 0,05 0,31 -0,23 -0,29 0,53 1 0,21 REXP_INT _-0,16 _-0,04 _0,17 _-0,10 _0,33 _-0,01 _-0,10 _0,65 _0,21 ₁ LIQACID _0,00 _0,00 _0,13 _0,11 _0,06 _0,00 _0,22 _0,11 _0,14 SOLVENC

0,00 0,00 0,01 0,10 0,04 0,00 0,15 0,19 0,39 PROPACT _0,00 _0,00 _0,00 _0,05 _0,21 _0,00 _0,01 _0,04 _0,12 PNOCOR _0,13 _0,01 _0,00 _0,03 _0,00 _0,01 _0,42 _0,37 _0,25 AUTOFIN _0,11 _0,10 _0,05 _0,03 _0,23 _0,05 _0,00 _0,01 _0,01 INMACT

0,06 0,04 0,21 0,00 0,23 0,02 0,34 0,06 0,48 INMPN _0,00 _0,00 _0,00 _0,01 _0,05 _0,02 _0,00 _0,02 _0,25 RENTECO _0,22 _0,15 _0,01 _0,42 _0,00 _0,34 _0,00 _0,00 _0,00 MAREXP

0,11 0,19 0,04 0,37 0,01 0,06 0,02 0,00 0,07 REXP_INT _0,14 _0,39 _0,12 _0,25 _0,01 _0,48 _0,25 _0,00 _0,07

(14)

Selección de componentes

Número de componente

10 9 8 7 6 5 4 3 2 1 Au tov alo r 4 3 2 1 0

Gráfico de sedimentación

Total

% de la varianza

% acumulado

1 3,74 37,40 37,40

2 2,04 20,38 57,79

3 1,30 12,96 70,74

4 0,91 9,13 79,87

5 0,78 7,75 87,62

6 0,61 6,12 93,75

7 0,34 3,41 97,16

8 0,18 1,83 98,98

9 0,06 0,64 99,63

10 0,04 0,38 100

Componente

Autovalores iniciales

Las 5 primeras componentes

explican

el

87,62%

de

(15)

Matriz de componentes y biplot

PNOCOR INMACT

LIQACID SOLVENC

PROPACT

RENTECO MAREXP

INMPN

REXP_INT AUTOFIN

…

-1,0

Co

mp

one

nte

2

1,0 0,5 0,0 -0,5 -1,0

Componente 1

1,0 0,5 0,0 -0,5 -1,0

Gráfico de componentes

1 2 3 4 5

LIQACID 0,70 -0,49 0,34 -0,12 0,30 SOLVENC 0,78 -0,47 0,24 0,05 0,22 PROPACT 0,87 -0,17 0,21 0,23 -0,27 PNOCOR -0,49 0,19 0,72 -0,27 -0,05 AUTOFIN 0,51 0,48 -0,10 0,09 0,53 INMACT -0,42 0,16 0,71 0,42 -0,02 INMPN -0,77 0,05 0,04 -0,07 0,52 RENTECO 0,57 0,73 0,14 0,00 0,00 MAREXP 0,46 0,44 0,13 -0,68 -0,11 REXP_INT 0,28 0,73 -0,07 0,35 -0,02

(16)

Análisis Factorial de

Correspondencias Múltiples

Objetivo

Reducir la dimensión de una tabla de datos formada por

variables

cualitativas

. Se estudia la asociación entre las

categorías de esas variables, sintetizando gráficamente la

información.

Dos variables

Tres o más variables

Las frecuencias conjuntas se presentan en una

tabla de contingencia.

(17)

EJEMPLO: archivo credit.sav (extraído del software SPAD N)

Muestra: 480 clientes de una entidad bancaria Variables categóricas:

• Tipo de cliente (bueno/malo)

• Edad del cliente (-23, 23-40, 40-50, +50, años) • Situación familiar (soltero, casado, divorciado, viudo) • Antigüedad (-1, 1-4, 4-6, 6-12, +12, años)

• Depositan salario?(si se deposita, no se deposita) • Ahorros (no ahorros, -10KF, 10-100 KF, +100KF) • Profesión (empresario, trabajador, otra)

• Saldo medio (-2KF, 2-5 KF, +5KF)

• Media movimientos (-10KF, 10-30 KF, 30-50 KF, +50 KF) • Acumulación de débito (-40, 40-100, +100)

(18)

EJEMPLO: archivo credit.sav

Procesado con software SPSS

ANALIZAR --- REDUCCION DE DATOS ---ESCALAMIENTO OPTIMO

Inercia

% de la

varianza

Total

(Autovalores)

1 0,736

3,073

0,256

25,611

2 0,555

2,034

0,170

16,951

Total

5,107

0,426

Media

,664(a)

2,554

0,213

21,281

Resumen del modelo

Dimensión

Alfa de

Cronbach

(19)

Dimensión 1

0,5 0,4

0,3 0,2

0,1 0,0

D

im

ens

ión

2

0,6

0,4

0,2

0,0 Autorización de cheq Autorización para gi

Cantidad de débitos

Media de los movimie Saldo medio

Profesión

Nivel de ahorro (en

Depositan su salario Antiguedad

Situación familiar

Edad del cliente Tipo de cliente

Autorización de cheq Autorización para gi

Cantidad de débitos

Media de los movimie Saldo medio

Profesión

Nivel de ahorro (en

Depositan su salario Antiguedad

Situación familiar

Edad del cliente Tipo de cliente

Medidas de discriminación

(20)

1 2

no_aho 370 0,25 -0,16

-10aho 58 -0,37 0,46

10a100aho 32 -1,64 0,88

+100aho 8 -2,30 0,62

-$2sal 98 0,68 1,32

$2a$5sal 308 0,08 -0,56

+$5sal 62 -1,49 0,71

-$10mov. 154 0,75 -0,14

$10a$30m. 71 0,36 -0,27

$30a$50m 129 -0,32 -0,09

+$50 mov. 114 -0,88 0,46

-40déb 171 -0,21 -0,74

40a100déb 161 -0,08 -0,22

+100déb 136 0,368 1,189

Categoría Frecuencia Coordenadas

Cantidad de débitos Media de los movimientos

Saldo medio Nivel de ahorro

1 2

Buen 237 -0,66 -0,31 Mal 231 0,68 0,32

-23años 88 0,80 -0,47 23a 40a 150 0,17 0,06

40a50a 122 -0,21 0,01 +50años 108 -0,65 0,28

solt 170 0,50 -0,27 cas 221 -0,40 0,09

div 61 0,01 0,15

viu 16 0,25 1,07

-1año 199 0,47 -0,23

1a4a 47 0,39 0,42

4a6a 69 0,09 -0,04

6a12a 66 -0,51 0,03 +12años 87 -0,98 0,30 Categoría Frecuencia Coordenadas

Antiguedad Situación familiar

(21)

Dimensión 1 1 0 -1 -2 Di mensi ón 2 1,5 1,0 0,5 0,0 -0,5 -1,0 Mal Buen viu div cas solt +$5sal $2a$5sal -$2sal otro emp direct +100aho 10a100aho -10aho no_aho +$50 mov. $30a$50m $10a$30m. -$10mov. +50años 40a50a 23a 40a -23años no_dep dep +100déb 40a100déb -40déb no descub

si descub no cheq

si cheq +12años

6a12a _4a6a 1a4a

-1año

Diagrama conjunto de puntos de categorías

Tipo de cliente Situación familiar Saldo medio Profesión

Nivel de ahorro (en miles de pesos)

Media de los movimientos (en miles de pesos)

Edad del cliente

Depositan su salario en esta cuenta?

Cantidad de débitos Autorización para giro en descubierto

Autorización de chequera Antiguedad

(22)

Dimensión 1 3 2 1 0 -1 -2 -3 D im ens ión 2 3 2 1 0 -1 -2 463 458 451 443 440 429 428 422 403 398 397 394 381 379 376 372 370 369 367 366 363 362 361 354 351 349 343 340 338 336 335 327 321 318 317 316 312 311 310 309 308 307 306 305 304 297 296 285 284 283 268 264 263 261 255 253 251 247 245 244242 241 233 220 218 214 213 210 209 208 206 204 203 200 199 195 194 193 190 189 188 187 184 182 178 175 174 169 168 166 164 162 157 155 149 147 146 144 142 141 139 138 133 131 129 125 121 120 119 118 116 110 109 107 105 104 102 101 100 97 94 93 92 91 90 89 87 ₈₆ 85 84 82 81 79 77 76 75 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 42 41 40 39 38 37 36

35 3433 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Puntos de objeto etiquetados mediante Números de caso

Normalización principal por variable.

El AFCM pone en evidencia tipos de individuos que tienen

perfiles semejantes en cuanto a los atributos que los describen:

(23)

Análisis Factorial (AF)

Las variables observadas se explican por factores comunes

que no son observables. La diferencia entre ACP y AF

radica en que el AF trata de encontrar variables latentes

no observables

Puede ser exploratorio o confirmatorio: en el

Exploratorio

no se conoce a priori

el número de factores y es en la

aplicación empírica donde se determina este número.

(24)

Análisis Factorial Exploratorio

El modelo factorial permite expresar las

p

variables del

modelo como una combinación lineal de

q

factores ( o

variables latentes) no observables (donde

q < p

).

Un modelo con dos factores y 4 variables observadas es:

Ψ₂₁

22 32 42

y₂ y₃ y4

2 3 4

21 31 41

2 1

y₁

1

11 12

1

11

1 12 2

+

1

Y

2

21 1 22 2

+

2

Y

3

31 1 32 2

+

3

Y

4

41 1 42 2

+

4

(25)

Para

una

variable

,su

varianza

tipificada

puede

descomponerse de la siguiente forma:

Y

j

2 2

1

j j

h

e

Comunalidad

,

parte de

la varianza debido a los

factores comunes

Especificidad

parte de

la varianza debida a

los factores únicos.

(26)

Archivo de datos elaborado en el proyecto SECyT “

Uso de variables

latentes en el análisis del desarrollo de las Tecnologías de

Información y Comunicación en ámbito de la Provincia de

Córdoba”

año 2010. Dirigido por Mg. C. Díaz y Mg. María Inés

Stímolo. Integrantes: Olga Padró, María Inés Ahumada, Carola Jones

V

A

R I A B L E S

Secundario completo Terciario incompleto

Tiene PC con conexión a Internet Tiene PC

Escuelas públicas con conexión a Internet Escuelas privadas con conexión a Internet PC con destino pedagógico en esc. Públicas PC con destino pedagógico en esc. Privadas Sitio web en municipios

Sitio web municipios c/ información de trámites Tiene correo electrónico

Censo de Población

Relevamiento ad-hoc

Relevamiento del Ministerio de Educación

(27)

Resultados

Ejemplo de Análisis Factorial

Indicadores Tecnológicos Factor 1 Factor 2 Factor 3 Factor 4 Unicidad

Secundario completo 0.9091 0.1469 0.2897 0.1583 0.0428 Terciario incompleto 0.8701 0.1902 0.0709 0.0946 0.1927 Tiene PC con conexión a Internet 0.7966 0.0437 0.2629 0.1189 0.2803 Tiene PC 0.7561 -0.002 0.081 -0.0361 0.4204 Escuelas públicas con conexión a Internet -0.117 -0.0902 -0.0622 -0.8395 0.2694 Escuelas privadas con conexión a Internet 0.1508 -0.0121 0.1056 0.827 0.2821 PC con destino pedagógico en esc. Públicas 0.1745 0.077 0.9717 0.04 0.0178 PC con destino pedagógico en esc. Privadas 0.1814 0.0761 0.9773 0.0789 0 Sitio web en municipios 0.0937 0.8098 0.0734 0.1277 0.3138 Sitio web municipios c/ información de trámites 0.0991 0.9901 0.0949 0.0306 0 Tiene correo electrónico 0.2121 0.6597 0.0557 -0.1495 0.4944

Uso y acceso a las TICs

Avance en el gobierno electrónico

Equipamiento en las escuelas

Conectividad de las escuelas

(28)

Resultados

Ejemplo de Análisis Factorial

Para cada pedanía se calculó un

Indice Tecnológico

global

a partir de los factores seleccionados, ponderados

por la varianza de cada uno.

(29)

Resultados

Ejemplo de Análisis Factorial

Distribución del

Indice Uso y acceso a las TICS en la Provincia de Córdoba

Sin datos Pedania_def.shp

-6 - -4 -3 - -1 0 - 2 3 - 7

La correlación espacial (índice de Moran), resultó positiva

(30)

Análisis de Conglomerados

Clasificar a las observaciones en grupos donde cada

grupo o conglomerado sea homogéneo internamente y

que entre los grupos sean lo más distinto posibles

G1

(31)

Análisis de Conglomerados

Proceso de creación de los grupos:

• Establecer un indicador que mida la similitud

entre dos observaciones.

• Crear los grupos utilizando algún método de

agrupamiento

(32)

Formación de los grupos

Algoritmos de agrupación

Jerárquicos

Permite identificar la cantidad

óptima de grupos a partir del

dendrograma

No Jerárquicos

(33)

A B C D E_F

A 0

B 1 0

C 9,2 4,2 0

D 12,2 6,6 3,1 0

E_F 24,1 14,1 2,8 2,6 0

A_B C D E_F

A_B 0

C 8,6 0

D 12,1 3,1 0

E_F 28,2 2,,8 2,6 0

A_B C D_E_F

A_B 0

C 8,6 0

D_E_F 28,8 3,0 0

AGRUPACIÓN JERARQUICA Método de Ward

A B C D E F

A 0

B 1 0

C 9,2 4,2 0

D 12,2 6,6 3,1 0

E 20,5 12,5 3,2 2,1 0

F 16 9 1,2 2,1 0,5 0

1 2

2 1 2

, 1 2

1 2

g g

n n

I

x

n

(34)

Análisis no jerárquico de Conglomerados.

Método de K-means

Se deben realizar las siguientes tareas:

1. Determinar los centroides iniciales o semillas de los K

grupos

2. Asignar cada observación al centroide más cercano según

la distancia euclídea.

3. Con las observaciones clasificadas se recalculan los

centroides de los k grupos. Si las distancias entre los

nuevos y viejos centroides en mayor que un criterio de

convergencia establecido , se vuelve al paso 2.

(35)

K-Means. K=2

G1

G2 G2