Lic. Y. Cerna
Lic. Y. Cerna
Lic. Y. Cerna
Lic. Y. Cerna
Lima
Lima
Lima
Lima
-
---
Per
Per
Per
Per
ú
ú
úú
2013
2013
2013
2013
V
V C
Cur
urso
so de Ac
de Actu
tuaalilizzaaci
ci
V
V
C
C
ur
ur
so
so
de Ac
de Ac
t
t
ua
ua
l
l
iz
iz
a
a
c
c
i
i
ó
ó
óó
n
n
nn
P
Prrooffeessiioonnaal e
l en E
n Essttaadd
P
P
r
r
o
o
f
f
e
e
s
s
i
i
o
o
n
n
a
a
l e
l e
n E
n E
s
s
t
t
a
a
d
d
í
ííí
stica
stica
stica
stica
UNFV
UNFV
NFV
NFV
Facultad de Ciencias
Facultad de Ciencias
acultad de Ciencias
acultad de Ciencias
Naturales y Matem
Naturales y Matem
aturales y Matem
aturales y Matem
ática
ática
ica
ica
Escuela Profesional de Estad
E
El l A
Ann
E
E
l
l
A
A
n
n
á
á
áá
lisis
lisis
lisis
lisis
Multivariante
Multivariante
Multivariante
Multivariante
Generalidades
Generalidades
Generalidades
1
1
.
.
¿
¿
Q
Q
ué
ué
e
e
s e
s e
l a
l a
ná
ná
lisis multiva
lisis multiva
ria
ria
nte
nte
?
?
“El
“El AnáAnálisilisis Mus Multivltivariarianteante (Cu(Cuadraadras, s, 1981981) 1) es es la la ramrama da de le laa Estadística y del análisis de datos, que estudia, interpreta y Estadística y del análisis de datos, que estudia, interpreta y elabora el material estadístico sobre un conjunto de n>1 de elabora el material estadístico sobre un conjunto de n>1 de variables, que pueden ser cuantitativas, cualitativas o una variables, que pueden ser cuantitativas, cualitativas o una mezcla.”
(Hair, Anderson, Tatham y Black, 1999)
En general, se refiere a aquellos métodos estadísticos que analizan simultáneamente diversas variables en cada individuo u objeto sobre el cual se investiga.
Cualquier análisis simultáneo de más de dos variables, puede considerarse análisis multivariante. De hecho, muchas técnicas multivariantes son la simple extensión de análisis univariados o bivariados.
Por ejemplo, la regresión simple (con una sola variable independiente), es una técnica multivariante cuando se extiende a varios regresores. Otras técnicas, sin embargo, como el análisis factorial o el análisis discriminante, están específicamente diseñadas para trabajar únicamente con estructuras multivariables.
2. Objetivos
(Peña, 2002)
1. Resumir el conjunto de variables en una pocas nuevas
variables, construidas como transformaciones de las
originales, con la mínima pérdida de información.
2. Encontrar grupos en los datos si existen.
3. Clasificar nuevas observaciones en grupos definidos.
4. Relacionar dos conjuntos de variables.
3. Conceptos básicos
Escalas de medida (Manzano, 1995; Uriel, 1995)
El análisis de datos, implica la identificación y medida de la variación en un conjunto de variables, bien entre ellas mismas o entre una variable dependiente y una o más independientes. La palabra clave es medida, puesto que el investigador no puede identificar la variación hasta que ésta sea medida.
En cualquier técnica de análisis multivariante, juega un papel muy importante el tipo de escala en que las variables estén medidas de hecho, como veremos, un criterio determinante para decidir qué técnica multivariante es la adecuada para resolver un problema determinado, será el tipo de escala en que estén medidas las variables dependientes e independientes.
Tipos de escalas
Nominales:
- En este caso, los números se comportan como etiquetas, con tanta validez como una letra del alfabeto.
- Su misión es distinguir entre diferentes valores; por ejemplo: sexo (hombre, mujer).
- En el proceso de codificación se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2), ni que existan personas de sexo intermedio (1,5).
Escalas ordinales:
- No sólo consigue distinguir entre valores, como la anterior, sino que además establece un orden entre ellos.
- El dato representado por un 3 es superior al representado por un 2; por ejemplo tamaño relativo (enorme, grande, normal, pequeño, diminuto). Si codificamos estos valores de la siguiente forma:
1 diminuto; 2 pequeño; 3 normal; 4 grande; 5 enorme
- Entonces es cierta la relación de orden, puesto que 1<2<3<4<5, pero no es cierto que entre grande y enorme exista la misma diferencia que entre pequeño y normal (5-4 = 1 = 3-2), como tampoco que pequeño sea el doble que diminuto (2=1x2).
Escalas de intervalo:
- Además de distinción y orden, la distancia o diferencia entre dos valores consecutivos cualesquiera es siempre la misma.
- En este caso, entre el valor representado por un 3 y el representado por un 2, existe la misma diferencia que entre 5 y 4.
- Por ejemplo, la temperatura medida en grados centígrados. En este caso, no sólo 100º es diferente a 80º, sino que es mayor (100º>80º); inclusive la diferencia de temperatura entre ambos es la misma que entre 80º y 60º (100-80 = 80-60).
- Pero no existe un cero absoluto, ya que la temperatura de 0º no significa ausencia de temperatura. De esta forma 100º no es el doble de 50º.
Ejemplo.
Elaboremos una nueva escala de temperatura que llamaremos en “arcias”, donde 1 arcia= 1 grado centígrado. Pero esta escala no tiene el cero cuando el agua se congela (0ºC) sino cuando entre en ebullición (100ºC). Como se observa en la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como afirmar que 140º es el doble de 120º.
Escalas de razón:
- Además de la distinción, orden e intervalo, se añade un origen absoluto, de forma que no sólo cabe hallar diferencias (ya se podía hacer en la escala de intervalo), sino también múltiplos exactos.
- En este caso el valor representado por 4 tiene doble cantidad medida que el representado por 2.
- Por ejemplo, de la edad expresada en años. Así, 40 y 20 años son edades distintas, 40 años es una edad superior a 20 años, entre 20 y 40 años hay la misma diferencia de edad que entre 30 y 50.
- Además, el 0 tiene sentido. Una persona con 0 años realmente no tiene edad, De esta forma, 40 es exactamente el doble de 20.
Observación
En diferentes ocasiones, utilizaremos las expresiones escalas métricas, escalas no métricas. No es una clasificación alternativa, sino que la literatura agrupa a las escalas nominales y ordinales bajo el nombre de no métricas y a las de intervalo y razón bajo el de escalas métricas.
La inferencia estadística
(Manzano, 1995)
Todas las técnicas multivariantes, excepto el análisis cluster y el escalamiento multidimensional, están basados en inferir los valores reales que toma una variable en una población, a partir de los valores que toma esa variable en una muestra aleatoria de la misma. Por ello es importante que nos acostumbremos a manejar con propiedad algunos términos que aparecerán con frecuencia a lo largo de nuestra relación con las técnicas multivariantes. Cuando se juzga a una persona, puede declarársele inocente o culpable. Independientemente del resultado del juicio, la persona será inocente o culpable de verdad.
De esta forma, tenemos las cuatro posibilidades que recoge el cuadro
Nos planteamos entonces qué es más grave, si declarar culpable a un inocente (error tipo I) o declarar inocente a un culpable (error tipo II). En las sociedades democráticas, se toma como menos grave la última situación, por lo que se parte del supuesto de inocencia. En la inferencia estadística el razonamiento es análogo. Si el interés es la posible relación entre dos variables, la labor del científico consiste en encontrar las evidencias de que apoye la existencia de esa relación.
4. Tipos de técnicas multivariables
(Hair, Anderson, Tatham y Black, 1999)
Una de las decisiones más importantes, sino la más relevante, a la hora de llevar a cabo un análisis multivariado de los datos, pasa por determinar cuál es la técnica más adecuada entre las muchas posibles. Para llevar a cabo esta selección, cabe responder a tres preguntas básicas:
1. ¿Estamos tratando de establecer una relación de dependencia -independencia entre unas variables y otras.
2. Si lo estamos haciendo, ¿cuántas variables independientes se están considerando en el análisis?
Se pueden clasificar en dos grandes grupos: 1) Métodos de dependencia
Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de los métodos de dependencia consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma.
2) Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué.
CLASIFICACI
CLASIFICACI
Los métodos multivariantes de dependencia Fuente: Hair, Anderson, Tatham y Black (1999)
5. Aplicaciones específicas
Investigación de Mercados:
– Se quiere determinar los beneficios subyacentes que
buscan los consumidores en la compra de una pasta
dental. (Análisis Factorial).
– Para el análisis de percepciones y preferencias del
consumidor (Escalamiento Multidimensional).
– Se desea hallar grupos o perfiles de consumidores en
un segmento de potenciales consumidores (Análisis de
Conglomerados)
Biología:
• Se miden diferentes variables biométricas en los
individuos de una misma especie. Se desea detectar
componentes de tamaño y forma (Análisis de
Componentes Principales).
• Las observaciones de “p” variables biométricas
representativas de los individuos de una especie, se
obtienen para estudiar la variabilidad entre diferentes
especies o razas geográficas (Análisis Canónico).
Medicina
• Evaluar la presencia o ausencia de determinados síntomas
clínicos para diagnosticar la enfermedad de un paciente
(Análisis discriminante).
• Para estimar la probabilidad de recurrencia de una
determinada
enfermedad
antes
de
un
período
determinado, conocidos el tiempo de respuesta al
tratamiento y los distintos hábitos del paciente (Regresión
logística).
• Se tabula las frecuencias de ciertos estímulos y sus
respuestas.
Interesa
obtener
una
representación
bidimensional de las correspondencias entre estímulos y
respuestas (Análisis Factorial de Correspondencias).
Sociología:
Con referencia a determinadas características sociales, políticas
y geográficas se mide la similaridad de un grupo de naciones.
(Escalamiento Multidimensional).
Psicología:
Los resultados de un test de inteligencia de “n” ítems basados
en una muestra de individuos. Para detectar los factores de la
inteligencia (Análisis Factorial).
Educación:
Observamos en distintas clases de una universidad, variables
cualitativas como titulación, curso etc., varias variables que
miden los resultados de las encuestas de evaluación docente y
se desea investigar como los resultados varían en las distintos
clases (Manova).
Más aplicaciones diversas
1. Administración de empresas: para construir tipología de clientes.
2. Agricultura: para clasificar terrenos de cultivo por fotografía aérea.
3. Arqueología: clasificar restos arqueológicos.
4. Biometría: identificar los factores que determinan la forma de un organismo vivo.
5. Computación: diseñar algoritmos de clasificación automática. 6. Educación: para investigar la efectividad del aprendizaje a Distancia.
7. Medio Ambiente: dimensiones de la contaminación
ambiental.
8. Documentación: para clasificar revistas por su contenido.
9. Economía: dimensiones del desarrollo económico.
10. Geología: clasificar sedimentos.
11. Lingüística: encontrar patrones de asociación de
palabras.
12. Medicina: para identificar tumores.
13. Psicología: para identificar factores que componen la
inteligencia humana.
6. La construcción de un modelo multivariable
(Hair, Anderson, Tatham y Black, 1999)
Las técnicas multivariantes son, en general, herramientas muy poderosas que permiten al investigador extraer muchísima información de los datos disponibles. Estas técnicas son, en sí mismas, relativamente complejas y requieren para su utilización un conocimiento profundo de sus fundamentos y condiciones de aplicabilidad. El desarrollo de programas informáticos de manejo sencillo, como SPSS, STATGRAPHICS, STATA, MINITAB, STATISTICA entre otros, ha permitido facilitar el acceso al análisis de datos multivariantes.
Paso 1. Defina el problema que está investigado, sus
objetivos y decida la técnica multivariante que
piensa utilizar.
- No se puede pretender utilizar una técnica multivariante sin una adecuada aproximación teórica al problema que se está abordando. - Se debe analizar conceptualmente, su objeto de investigación, definir los conceptos e identificar las relaciones fundamentales que se pretenden investigar.
- Hay que centrarse en el tema que se investiga, y no en las técnicas que se van a emplear, lo que evitará que dejemos fuera del análisis conceptos importantes.
- Una vez realizado los pasos anteriores se estará en condiciones de seleccionar la técnica más adecuada.
Paso 2. Desarrollo del plan de análisis.
- Una vez establecido el modelo conceptual, el énfasis se centra en aplicar adecuadamente la técnica elegida, lo que hace referencia fundamentalmente a los tamaños muestrales mínimos que permiten su aplicación.
- Asegurarse de que el procedimiento de recogida de datos (por ejemplo, los cuestionarios) midan las variables con las escalas oportunas (métricas vs. no métricas).
Paso 3. Tenga cuidado con las condiciones de
aplicabilidad de la técnica elegida.
- Una vez recogidos los datos, es necesario conocer cuáles son las hipótesis en que se basan las técnicas multivariantes y, que si no se cumplen, hace que carezca de sentido aplicarlas.
- En las técnicas de dependencia, por ejemplo, suele ser necesario que los datos cumplan las hipótesis de normalidad, linealidad, independencia del término de error y homoscedasticidad.
Paso 4. Estime el modelo multivariante y establezca el
ajuste global del mismo.
- Aplique la técnica multivariante elegida. Pero fíjese si el nivel de bondad del ajuste es adecuado.
- Si no es así, deberá reespecificarse el modelo, incorporando o eliminando variables.
Paso 5. Interprete los resultados.
- Una vez logre un nivel de ajuste aceptable, interprete el modelo.
- Fíjese en los efectos de las variables individuales examinando sus coeficientes, por ejemplo, cargas factoriales, utilidades...etc.
- La interpretación puede conducirle a nuevas reespecificaciones del modelo.
Paso 6. Validez el modelo.
- Antes de aceptar los resultados a los que haya llegado, debe aplicar una serie de técnicas de diagnóstico que asegure que estos resultados son generalizables al conjunto de la población.
RESUMEN: FASES PRINCIPALES DE UNA INVESTIGACIÓN MULTIVARIANTE
• Definir el problema de Investigación • Objetivos; diseño e hipótesis
• Elección de la técnica multivariante. • Desarrollo del Proyecto de Análisis
Evaluación de los supuestos de la Técnica Multivariante
• Estimación del modelo Multivariante. • Valoración del Ajuste del Modelo. Interpretación de los valores Teóricos
Ejemplo
Descripción de la base de datos.
HATCO es una empresa fabricante de maquinaria
industrial que ha pasado una encuesta a los jefes de
compras de las empresas que adquieren sus productos,
los cuales han valorado su satisfacción con HATCO
respecto a siete atributos determinantes de su servicio y,
además, han ofrecido información acerca de sus
empresas, como su tamaño, tipo de empresa, porcentaje
de sus compras de maquinaria que efectúan a HATCO y
una valoración global de sus satisfacción con esta
empresa.
De forma más detallada, las siete variables que miden la
percepción que tienen de HATCO sus clientes, son las
siguientes:
Variables que miden la percepción que tienen de
HATCO sus clientes
1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una vez que éste ha sido confirmado.
2. X2: Nivel de precios. Valoración sobre el precio que se carga respecto a otros suministradores.
3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO de negociar el precio en todo tipo de compras.
4. X4: Imagen del fabricante. Imagen global de HATCO.
5. X5: Servicio. Valoración respecto a si la calidad actual del servicio es suficiente para mantener la relación entre el comprador y HATCO.
6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas de HATCO.
7. X7: Calidad del producto. Nivel de calidad percibida de los productos de HATCO.
Todas las variables se han medido mediante una escala gráfica constituida por una línea de diez centímetros donde en los extremos aparecen las palabras“muy mala” y “excelente”:
Los entrevistados indican su percepción marcando con una raya en cualquier lugar de la línea, que luego es medida y codificada entre cero y diez.
Características de las empresas que compran a
HATCO, se han medido mediante escalas métricas y no
métricas y son las siguientes:
1. X8: Tamaño de la empresa. Tamaño relativo de la empresa respecto a otras del mercado. Se han creado dos categorías que son 1 = grande y 0 = pequeña.
2. X9: Nivel de utilización de los servicios de HATCO. Es el porcentaje del total de las compras de la empresa que se realizan a HATCO. Se mide en una escala de cien puntos, según sea el porcentaje.
3. X10: Nivel de satisfacción con HATCO. Mide cuán satisfecha está la empresa con HATCO en la misma escala que las variables X1 a X7.
4. X11: Procedimiento de compra. Establece si la empresa evalúa cada compra por separado (codificado como 1) o, por el contrario, tiene establecidas unas especificaciones de producto que se aplican a todas las compras (codificado como 0).
5. X12: Estructura de decisión. Determina si dentro de la empresa el proceso de toma de decisiones de compra está centralizado (codificado como 1) o descentralizado (codificado como 0).
6. X13: Tipo de industria. Responde a una tipología interna de HATCO que las clasifica como industria tipo A (codificado como 1) u“otros tipos” (codificado como 0).
7. X14: Tipo de situación de compra. Hace referencia a si es la primera compra a HATCO (codificado como 1), si es una recompra pero de otros productos (código 2) o es una recompra de los mismos productos que en la última ocasión (código 3).
Comprobación de las hipótesis que garantizan la
aplicabilidad del análisis multivariante.
Normalidad
- Es una de las hipótesis más importantes. Hace referencia al perfil que debe mostrar la distribución de frecuencias de cada variable métrica individualmente.
- Si este perfil se desvía de la distribución normal, cualquier prueba estadística que llevemos a cabo no sería válida. La mayoría de las técnicas multivariantes les exigen, además, que las variables sean multivariantes normales, esto es, no sólo que individualmente tengan una distribución normal, sino que las combinaciones de las mismas también posean esta forma.
- Si las variables son multivariablemente normales, lo serán individualmente, pero lo contrario no es cierto.
- Comprobar la normalidad individual es relativamente sencillo. Las pruebas de normalidad multivariantes son más complejas y suelen ser específicas de las técnicas donde esta hipótesis es más necesaria.
Procedimientos para detectar la violación de las hipótesis de normalidad pueden agruparse en dos tipos:
gráficos y estadísticos
- Entre los primeros el más útil es el llamado gráfico q-q o gráfico de probabilidad normal, donde se representan los valores observados de los residuos y los esperados en el caso de que siguieran una distribución normal.
- La distribución normal aparece representada por una línea recta. Si las variables no están normalmente distribuidas, se alejarán de la recta como se ejemplifica en el gráfico siguiente:
- El segundo tipo de pruebas para determinar si las variables siguen o no distribuciones normales, son las llamadas pruebas estadísticas. - Cada paquete informático proporciona las suyas, en el caso de
SPSS, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL).
- Veamos la aplicación de ambas pruebas a nuestra base de datos. Como hemos indicado, sólo procede evaluar la normalidad de las variables métricas, por ello, lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la siguiente:
Como gráficos q-q mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servicio) y X6 (imagen de la fuerza de ventas)
Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente:
¿Qué hacer con variables que no muestran un
comportamiento normal?
Lo habitual es recurrir a transformaciones del tipo:
es decir, a tomar logaritmos neperianos de la variable o tomar diversas raíces (p = ½ serían cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para determinar la más adecuada, basta con transformar y volver a aplicar el test de KSL descrito.
Homoscedasticidad
- La segunda asunción que se hace sobre los datos, para poder aplicar las técnicas multivariantes, hace referencia a la igualdad de varianza entre las variables independientes, ya sean éstas métricas o no métricas, respecto a la variable o variables dependientes.
- Por ejemplo, SPSS proporciona un test específico para analizar esta hipótesis, el test de Levene, cuya hipótesis nula es la homoscedasticidad, es decir, que las varianzas son iguales.
- En nuestro ejemplo, habría que realizar esta prueba de homoscedasticidad para el conjunto de variables independientes (X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables dependientes que, como se señaló anteriormente pueden ser las variables (X8,X11, X12, X13 y X14).
Linealidad
- La última hipótesis que es necesario analizar es la linealidad, sobre todo en aquellas técnicas multivariantes basadas en medidas de asociación como las correlaciones, incluyendo la regresión múltiple, la logística, el análisis factorial, el análisis conjunto y los sistemas de ecuaciones estructurales.
- Dado que la correlación representa asociaciones lineales entre variables, la ausencia de linealidad provoca que el coeficiente de correlación no mida adecuadamente la relación entre los pares de variables.
Disponemos, de nuevo, de dos procedimientos para analizar este supuesto.
- El primero consiste en recurrir a representaciones gráficas bivariables para visualizar si la relación que podemos aventurar es o no lineal.
- Por otro lado, los coeficientes de correlación suelen ofrecer un indicador del grado de significación del mismo. La hipótesis nula es que el coeficiente de correlación no es significativo y el valor de p nos permitirá aceptarla o rechazarla.
La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos: