El modelo del Análisis Factorial

(1)

Capítulo

V

Validación de

instrumentos

……… ………..

Objetivo

del

Capítulo

En este capítulo explicaremos

la lógica de reducción de la

dimensionalidad de los datos.

Su propósito último consiste en

buscar el número mínimo de

dimensiones

capaces

de

explicar

el

máximo

de

(2)

5.1 Introducción

El análisis factorial es una técnica estadística multivariante de reducción de datos que sirve para encontrar grupos homogéneos de variables a partir de un conjunto numeroso de variables. Esos grupos homogéneos se forman con las variables que correlacionan mucho entre sí y procurando, inicialmente, que unos grupos sean independientes de otros (Guisande, 2006).

Cuando recogemos un gran número de variables de forma simultánea, como por ejemplo en un cuestionario de satisfacción laboral, podemos estar interesados en averiguar si las preguntas del cuestionario se agrupan de alguna forma característica. Aplicando un análisis factorial a las respuestas de los sujetos podemos encontrar grupos de variables con significado común y conseguir de esta manera reducir el número de dimensiones necesarias para explicar las respuestas de los sujetos.

A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en el análisis factorial todas las variables del análisis cumplen el mismo papel; todas ellas son independientes en el sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras.

Ejemplos donde usar el análisis factorial

¿Cómo medir el grado de inteligencia de una persona? ¿Existe un único tipo de inteligencia o hay varios? ¿Si existen varios cómo medirlos?

¿Qué factores conforman la personalidad de una persona? ¿Cómo medirlos?

¿Cómo medir el nivel de desarrollo de un país? ¿Qué ratios financieros deben tenerse en cuenta a la hora de evaluar la labor desarrollada por una empresa?

¿Qué tipos de aptitudes hay que tener en cuenta para evaluar la labor de un vendedor? ¿Cómo se pueden medir?

5.2 Fases en el análisis factorial

Calcular la matriz que expresa la variabilidad de las variables, la extracción del número óptimo de factores a partir de esa matriz, hacer la rotación de los factores para que sean fácilmente interpretables y establecer la posición (puntuaciones) de los casos originales en las nuevas dimensiones de los factores. Es importante que en cada una de estas fases se tomen decisiones correctas.

Un Análisis Factorial tiene sentido si se cumplen dos condiciones: PARSIMONIA e INTERPRETABILIDAD.

El Análisis factorial puede ser exploratorio o confirmatorio.

El análisis exploratorio se caracteriza porque no se conocen a priori el número de factores y es en la aplicación empírica

donde se determina este número. Por el contrario, en el análisis de tipo confirmatorio los factores están fijados a priori, utilizándose contrastes de hipótesis para su corroboración.

5.3 ¿CÓMO REALIZAR UN ANÁLISIS FACTORIAL?

(3)

Formulación del problema.

En la formulación del problema debe abordarse la selección de las variables a analizar así como la de los elementos de la población en la que dichas variables van a ser observadas.

Aunque pueden realizarse análisis factoriales con variables discretas y/o ordinales lo habitual será que las variables sean cuantitativas continuas.

Es importante, en todo caso, que dichas variables recojan los aspectos más esenciales de la temática que se desea investigar y su selección deberá estar marcada por la teoría subyacente al problema.

No tiene sentido incluir variables que no vengan fundamentadas por los aspectos teóricos del problema porque se corre el riesgo de que los resultados obtenidos ofrezcan una estructura factorial difícil de entender y con escaso contenido teórico relevante. Es muy aconsejable en este paso que el analista tenga una idea más o menos clara de cuáles son los factores comunes que quiere medir y que elija las variables de acuerdo con ellos y no al revés porque se corre el riesgo de encontrar factores espurios o que los factores queden mal estimados por una mala selección de las variables. Así mismo, la muestra debe ser representativa de la población objeto de estudio y del mayor tamaño posible. Como regla general deberán existir por lo menos cuatro o cinco veces más observaciones (tamaño de la muestra) que variables. Si el tamaño de la muestra es pequeño y esta relación es menor, los resultados deben interpretarse con precaución.

El modelo del Análisis Factorial

Sean X1, X2,…, Xp las p variables objeto de análisis que supondremos en todo lo que sigue, que están tipificadas. Si no lo estuvieran el análisis se realizaría de forma similar pero la matriz utilizada para calcular los factores no sería la matriz de correlación sino la de varianzas y covarianzas.

El investigador mide estas variables sobre n individuos, obteniéndose la siguiente matriz de datos:

El modelo del Análisis Factorial viene dado habitualmente por las ecuaciones:

Donde

F

₁

,...,

F

_k

(

k

p

)

son los factores comunes y U1,…, Up los factores únicos o específicos y los coeficientes

k

j

p

i

a

ij

;

1 ,...,

;

1 ,...,

las cargas factoriales

Se supone, además, que los factores comunes están a su vez estandarizados (E(F1) = 0; Var(F1) = 1), los factores específicos tienen media 0 y están incorrelados (E(ui) = 0; Cov(ui, uj) = 0 si i j, j, i = 1, …,p) y que ambos tipos de factores están incorrelados (Cov(Fi, uj) = 0 i = 1,…,k; j= 1,…,p.

5.4 Pasos para realizar un análisis factorial en el SPSS (Usar la base de datos del SPSS _ Datos de empleados.sav)

Paso previo: cálculo de la variable (edad) a partir de la fecha de nacimiento

Transformar<calcular variable<escribir una nueva variable “edad”<en grupo de funciones-extracción de fechas<Xdate.Year<colocar el año que estamos-la función Xdate.Year(pasar la variable fecha de nacimiento)<aceptar.

(4)

 Seleccionar el conjunto de variables que se desea analizar y trasladarlas a la lista variables

Variable selección. Este cuadro permite seleccionar una de las variables del archivo de datos como variable filtro;

para definir una sub-muestra de sujetos que cumplan una determinada condición. Esta opción es especialmente útil cuando se ha reservado un porcentaje de los sujetos de la muestra para llevar acabo una validación cruzada del modelo final. Para utilizar una variable de selección:

 Trasladar la variable sexo al cuadro variable selección y pulsar en el botón Valor…

Resultados

Una vez pedido el análisis factorial<en descriptivos marcar:

1. Estadísticos descriptivos

Es de utilidad estudiar esta información para entender la naturaleza de las variables incluidas en el análisis.

Estadísticos descriptivos

13,49 2,886 473

1,41 ,774 473

$34,418.45 $17,093.723 473

$17,009.25 $7,877.562 473

81,14 10,048 473

95,95 104,680 473

33,3677 11,77914 473

Nivel educativo Categoría laboral Salario actual Salario inicial

Meses desde el contrato Experiencia previa (meses)

Edad (años)

Media

Desviación

típica N del análisis

2. Matriz de correlaciones

(5)

Matriz de correlaciones

1,000 ,515 ,661 ,633 ,050 -,252 -,281 ,515 1,000 ,780 ,755 ,004 ,062 ,010 ,661 ,780 1,000 ,880 ,084 -,097 -,144 ,633 ,755 ,880 1,000 -,018 ,045 -,009 ,050 ,004 ,084 -,018 1,000 ,002 ,053 -,252 ,062 -,097 ,045 ,002 1,000 ,802 -,281 ,010 -,144 -,009 ,053 ,802 1,000 ,000 ,000 ,000 ,137 ,000 ,000 ,000 ,000 ,000 ,468 ,088 ,414 ,000 ,000 ,000 ,033 ,017 ,001 ,000 ,000 ,000 ,344 ,162 ,423 ,137 ,468 ,033 ,344 ,485 ,127 ,000 ,088 ,017 ,162 ,485 ,000 ,000 ,414 ,001 ,423 ,127 ,000

Nivel educativo

Categoría laboral

Salario actual

Salario inicial

Meses desde el contrato

Experiencia previa (meses)

Edad (años)

Nivel educativo

Categoría laboral

Salario actual

Salario inicial

Meses desde el contrato

Experiencia previa (meses)

Edad (años) Correlació n Sig. (Unilatera l) N iv e l e d u c a ti v o C a te g or ía la b o ra l S a la ri o a c tu a l S a la ri o in ic ia l M e s e s d e s d e e l c o n tr a to E x p e rie n c ia p re v ia ( m e s e s ) E d a d ( a ñ o s )

3. KMO y prueba de Bartlett

La prueba de Bartlett tiene como hipótesis nula que la matriz de correlaciones es la matriz identidad, dicho de otra manera que las variables no están correlacionadas. Por tanto, sólo cabe proceder a realizar el análisis factorial si esta prueba es estadísticamete significativa, es decir, si rechazamos la hipótesis nula.

La prueba de adecuación muestral de Kaiser-Meyer-Olkin compara los coeficientes de correlación con los de correlación parcial. El coeficiente de correlación parcial entre dos variables es la correlación entre ambas una vez que se ha eliminado el influjo de las restantes variables. Si el coeficiente de correlación parcial entre dos variables es pequeño y en cambio su correlación de Pearson es media o alta, ello significa que la relación entre ambas puede ser explicada por las variables restantes. Si ello sucede para cada par de variables estamos con un cierto grado de colinealidad deseable para hacer el análisis factorial. En general, para realizar el análisis factorial, se considera para los valores de KMO, que:

1 KMO > 0,90 excelente

0,90 KMO > 0,80 bueno 0,80 KMO > 0,70 aceptable 0,70 KMO >0,60 regular 0,60 KMO > 0,50 malo

KMO 0,5 0 inaceptable

KMO y prueba de Bartlett

,724

2075,310

21

,000 Medida de adecuación muestral de

Kaiser-Meyer-Olkin.

Chi-cuadrado aproximado gl

Sig. Prueba de esfericidad de Bartlett

4. Matriz anti-imagen

(6)

Matrices anti-imagen

,493 -,010 -,042 -,070 -,039 ,049 ,044 ,921a _-,024 _-,149 _-,235 _-,058 _,119 _,106

-,010 ,357 -,095 -,038 ,043 -,030 -,012 -,024 ,881a _-,398 _-,151 _,074 _-,085 _-,035

-,042 -,095 ,158 -,115 -,088 ,023 ,023 -,149 -,398 ,723a _-,678 _-,230 _,098 _,101

-,070 -,038 -,115 ,182 ,085 -,033 -,022 -,235 -,151 -,678 ,743a _,206 _-,131 _-,086

-,039 ,043 -,088 ,085 ,931 ,017 -,065 -,058 ,074 -,230 ,206 ,098a _,029 _-,116

,049 -,030 ,023 -,033 ,017 ,342 -,259 ,119 -,085 ,098 -,131 ,029 ,538a _-,757

,044 -,012 ,023 -,022 -,065 -,259 ,343 ,106 -,035 ,101 -,086 -,116 -,757 ,548a

Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Covarianza anti-imagen Correlación anti-imagen Nivel educativo Categoría laboral Salario actual Salario inicial

Meses desde el contrato Experiencia previa (meses) Edad (años) N iv e l ed u c a ti v o C a te g or ía la b o ra l S a la ri o a c tu a l S a la rio i n ic ia l M e s es d e s d e e l c o nt ra to E x p e ri e n c ia p re v ia ( m e s e s ) E d a d ( a ñ o s )

Medida de adecuación muestral a.

Después de pedir los descriptivos, pasamos a Extracción:

5. Comunalidades

La comunalidad es la proporción de varianza que puede ser explicada por el modelo factorial obtenido. Si observamos las comunalidades de la extracción podemos observar cuáles de las variables son mejor o peor explicadas por el modelo. Valores bajos de comunalidades para una o más variables indican que estás no están siendo bien consideradas o tratadas en el modelo. En nuestro ejemplo, todas las variables están bien explicadas, sin embargo la variable nivel educativo es la menos explicada; el modelo sólo es capaz de reproducir el 68.2% de su variabilidad original.

En una nota a pie de tabla se indica que, para llegar a esta solución factorial se ha utilizado un método de extracción denominado componentes principales. Dicho método de extracción que es el que actúa por defecto, asume que es posible explicar el 100% de la varianza observada y, por ello, todas la comunalidades iniciales son iguales a la unidad (que es justamente la varianza de una variable en puntuaciones típicas).

A partir de esta tabla podemos empezar a plantearnos si el número de factores obtenidos (luego veremos cuáles son los factores) es suficiente para explicar todas y cada una de las variables incluidas en el análisis. También podemos empezar a plantearnos en este momento si, dando por bueno el número de factores extraído, alguna de las variables incluidas podría quedar fuera del análisis.

(7)

Comunalidades

1,000 ,682

1,000 ,782

1,000 ,901

1,000 ,887

1,000 ,997

1,000 ,894

1,000 ,889

Nivel educativo Categoría laboral Salario actual Salario inicial

Meses desde el contrato Experiencia previa (meses)

EDAD

Inicial Extracción

Método de extracción: Análisis de Componentes principales.

6. Autovalores y varianza explicada

Se ofrece un listado de autovalores de la matriz de varianzas-covarianzas y del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la varianza total que está explicada por cada factor, y los porcentajes de varianza explicada asociados a cada factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide con el número de variables). Por defecto, se extraen tantos factores como autovalores mayores que 1 tiene la matriz analizada. En nuestro ejemplo existen tres autovalores mayores que 1, por lo que el procedimiento extrae 3 factores que consiguen explicar un 86.17% de la varianza de los datos originales. La tabla muestra también, para cada factor un autovalor mayor que 1, la suma de las saturaciones al cuadrado. Las sumas de cuadrados de la columna Total (que coinciden con los autovalores cuando se utiliza el método de componentes principales, pero no cuando se utilizan otros métodos de extracción), pueden ayudarnos, según veremos, a determinar el número idóneo de factores.

La información de esta tabla puede utilizarse para tomar una decisión sobre el número idóneo de factores que deben extraerse. Si quisiéramos explicar, por ejemplo, un mínimo del 90% de la variabilidad contenida en los datos, sería necesario extraer cuatro factores.

La matriz de varianzas-covarianzas analizada por defecto es la matriz de correlaciones entre las 7 variables incluidas en el análisis. Puesto que esta matriz es de dimensiones 7x7, es posible extraer hasta 7 factores independientes. Tales como muestra la columna de porcentajes acumulados, con los 7 factores que es posible extraer se consigue explicar el 100% de la varianza total, pero con ello no se consigue el objetivo de reducir el número de dimensiones necesarias para explicar los datos.

Varianza total explicada

3,167 45,242 45,242 3,167 45,242 45,242 1,857 26,528 71,769 1,857 26,528 71,769 1,008 14,405 86,174 1,008 14,405 86,174

,429 6,125 92,299 ,247 3,523 95,822 ,194 2,776 98,598 ,098 1,402 100,000 Componente

1 2 3 4 5 6 7

Total

% de la

varianza % acumulado Total

% de la

varianza % acumulado Autovalores iniciales

Sumas de las saturaciones al cuadrado de la extracción

Método de extracción: Análisis de Componentes principales.

7. Gráfico de sedimentación

(8)

7 6 5 4 3 2 1

Número de componente

3

2

1

0

A

ut

ov

alo

r

Gráfico de sedimentación

8. Matriz de componentes (matriz estructura factorial)

En la tabla se encuentra la solución factorial propiamente dicha. Contiene las correlaciones entre las variables originales (o saturaciones) y cada una de los factores. Conviene señalar que esta matriz cambia de denominación dependiendo del método de extracción elegido. En este caso se denomina matriz de componentes por que en nuestro ejemplo hemos utilizado el método de componentes principales como método de extracción (es el método que actúa por defecto), también es conocida con el nombre de “matriz de estructura factorial”.

Comparando las saturaciones relativas de cada variable en cada uno de los tres factores podemos apreciar que el primer factor está constituido por las variables nivel educativo, categoría laboral, salario actual y salario inicial. Todas estas variables saturan en un único factor por que constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este factor parece reflejar la dimensión de “promoción” dentro de la empresa. El segundo factor recoge el grupo de las variables experiencia previa y edad, por lo que podría representar la “veteranía laboral”. Por último, el tercer factor está formado por una única variable, los meses desde el contrato, o lo que es lo mismo, la “antigüedad en el

puesto”, que es independiente de la “promoción” y la “veteranía laboral” (puesto que los factores son independientes entre sí y la variable no satura en los otros factores).

Matriz de componentesa

,806 -,172 ,047

,843 ,260 -,061

,944 ,089 ,041

,910 ,232 -,077

,043 ,053 ,996

-,179 ,927 -,041

-,232 ,914 ,026

Nivel educativo Categoría laboral

Salario actual Salario inicial

Meses desde el contrato Experiencia previa (meses) EDAD

1 2 3

Componente

Método de extracción: Análisis de componentes principales.

3 componentes extraídos a.

9. Matriz de componentes rotadas por el método de Varimax

Minimiza la variabilidad de los coeficientes para cada factor, reduciendo así el número de variables que tienen alta saturación en un factor. La rotación nos permite obtener resultados más sencillos y sobre todo, interpretables para ver claramente en que factor satura cada variable por columna.

La rotación Varimax es el método más empleado cuando el número de factores es pequeño.

Matriz de componentes rotados(a)

Componente

Promoción

Veteranía

laboral Antigüedad

Salario actual .943 -.085 .070

Salario inicial .939 .064 -.045

Categoría laboral .878 .104 -.030

(9)

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. a La rotación ha convergido en 3 iteraciones.

10. Gráfico de saturaciones

Observamos en el gráfico que las variables están bastante agrupadas; Se observa claramente tres factores: El primer factor se agrupan las variables: Educ (años de educación), salario actual, salini (salario inicial) y catlab (categoría laboral). El factor 2 conformado por: edad y experiencia previa. El tercer factor conformado por experiencia previa en meses.

PROBLEMAS DE REPASO DEL CAPÍTULO