• No se han encontrado resultados

EL ANÁLSIS multivariante de la varianza (MANOVA)

Estructura de la clase: 1. Introducción.

2. Definición y objetivo.

3. Términos y conceptos básicos del MANOVA. 4. Supuestos básicos del MANOVA.

5. Diseño del estudio con el MANOVA. 6. Casos prácticos con SPSS.

Introducción.

- El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferencias entre las medias de varios grupos con múltiples variables.

- El MANOVA y el AD son “imágenes de espejo”. Las variables DEPENDIENTES en el MANOVA (una serie de variables métricas) son las variables INDEPENDIENTES en el AD y una simple variable DEPENDIENTE (no métrica) del AD se convierte en la variable INDEPENDIENTE en el MANOVA.

- Las diferencias entre el MANOVA y el AD, sin embargo, se centran alrededor de los objetivos de los análisis y el papel de las variables no métricas. El AD emplea una variable no métrica como variable dependiente. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. En el MANOVA por el contrario, la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente; en su lugar, el investigador utiliza una o más variables independientes (no métricas) para formar grupos (Hair et al., 1999, pp.351).

¿Por qué se usa el MANOVA?

Para contrastar las medias de dos grupos se utiliza el test t de Student. Grupos Valor de t de

Student p*

A B

Variable métrica Media A Media B xx xx

Si p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B), y por ello, concluir que existe diferencia significativa entre las dos medias (Media A Media B).

Cuando queremos contrastar medias de tres o más grupos, podemos llevar a cabo múltiples tests t separados para contrastar la diferencia entre cada par de medias de una variable. Sin embargo, los tests t múltiples hinchan el porcentaje del error Tipo I. El ANOVA evita este aumento del error de Tipo I al comparar un conjunto de grupos. Por ello, para contrastar conjuntamente las medias de tres o más grupos de una variable se utiliza el ANOVA.

Grupos Valor de F p*

A B C

Variable métrica Media A Media B Media C xx xx

Si p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B = Media C), y por ello, concluir que existen diferencias significativas entre las tres medias (Media A Media B Media C).

Si queremos examinar las medias de tres o más grupos respecto a múltiples variables, podríamos aplicar el ANOVA varias veces a cada una de las variables por separado. Sin embargo, con la misma lógica aplicada con los tests t múltiples, la repetición del ANOVA aumenta el error de Tipo I. El MANOVA evita este problema, y es más adecuado para examinar las medias de múltiples grupos respecto a múltiples variables.

Grupos F p* Lambda de

Wilks*

A B C

Variable métrica 1 Media A1 Media B1 Media C1 xx xx

Valor único Variable métrica 2 Media A2 Media B2 Media C2 xx xx

Variable métrica 3 Media A3 Media B3 Media C3 xx xx

Si p es menor que el nivel de significación previamente establecido, se puede decir que existen diferencias univariantes (Media A Media B Media C). Sin embargo, el poder del MANOVA es permitir detectar diferencias multivariantes examinando el “Lambda de Wilks”.

Sin embargo, los contrastes individuales ignoran las correlaciones entre las variables

dependientes (métricas) y por ello no se emplea toda la información disponible para

valorar diferencias globales en los grupos. Por ello, el MANOVA computa un valor único “Lambda de Wilks” para detectar diferencias multivariantes.

Tanto el ANOVA como el MANOVA son particularmente útiles cuando se usan conjuntamente con diseños experimentales en los que el investigador controla o manipula directamente una o más variables independientes para determinar su efecto sobre una (ANOVA) o más (MANOVA) variables dependientes (Hair et al., 1999, pp.346).

Definición y objetivo.

El MANOVA es una técnica de dependencia que mide las diferencias entre dos o más variables métricas dependientes basadas en un conjunto de variables categóricas independientes.

El MANOVA nos permite:

5. detectar diferencias globales debido a la combinación de las variables dependientes (métricas) que no se encuentran con los contrastes univariantes (Caso 1).

6. realizar el examen de múltiples variables independientes (no métricas o categóricas) (Caso 2).

7. controlar el porcentaje global del error de Tipo I.

Casos en los que es adecuado utilizar el MANOVA :

a. Caso 1: Preguntas sobre múltiples variables dependientes (métricas) y una variable independiente (no métrica).

En este caso el investigador pretende realizar preguntas sobre múltiples variables dependientes (por ejemplo, renta, consumo, etc.) que quiere analizar por separado, controlando el porcentaje de error de Tipo I. En esta situación, el MANOVA en primer lugar valora si se encuentra alguna diferencia global entre grupos.

El análisis se

continua llevando a cabo contrastes univariantes separados para dar respuestas individuales a cada variable dependiente (métrica).

Variable independiente (no métrica) F p

Clase social

Alta Media Baja

Variables dependientes (métricas) Variable 1 Variable 2 Variable 3 Variable independiente

(no métrica) Clase social

Lambda de Wilks* (valor único)

b. Caso 2: Preguntas sobre múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas). En este caso el investigador pretende realizar preguntas sobre dos o más variables independientes (por ejemplo, sexo, clase social, etc.) y examinar si existen unas determinadas relaciones entre ellas. El MANOVA proporciona un método estructurado para especificar las comparaciones de las diferencias de los grupos sobre un conjunto de medidas dependientes mientras se mantiene la eficiencia estadística.

Variables independientes (no métrica) F p

Clase social

Alta Media Baja

Hombre Mujer Hombre Mujer Hombre Mujer

Variables dependientes (métricas) Variable 1 Variable 2 Variable 3 Variable independiente

(no métrica) Clase social

Lambda de Wilks* (valor único) p Variable independiente (no métrica)

Sexo Lambda de Wilks* (valor único) p Variables independientes (no métrica) Clase Social X Sexo Lambda de Wilks* (valor único) p

Términos y conceptos básicos del MANOVA.

Caso 1: múltiples variables dependientes (métricas) y una variable independiente (no métrica).

Supongamos, por ejemplo, que identificamos una variable categórica (independiente), “clase social”, con tres categorías: alta, media y baja. Pretendemos estudiar si existen diferencias importantes entre estas tres clases sociales, teniendo en cuenta tres variables dependientes (métricas), que son: renta, consumo de refrescos mensual y gasto en agua mensual.

Para ello, seleccionaríamos tres grupos de personas de clase alta, media y baja, y les pediríamos que valorasen en una escala métrica su renta, su consumo de refrescos y su gasto de agua. A continuación, calcularíamos las medias para cada grupo y para cada valor de la variable dependiente, que se indicarían en las celdas sombreadas de la tabla siguiente.

Clase social Alta Media Baja

Variables dependientes

(métricas)

Renta

Consumo de refrescos mensual Gasto en agua mensual

El MANOVA sigue los siguientes pasos: Paso 1:

El MANOVA detecta diferencias combinadas que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio de Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes.

El contraste más comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. Este examen estadístico considera todas las raíces características, es decir, compara si los grupos son de algún modo diferentes sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes.

Aunque la computación del lambda de Wilks es compleja, se tienen buenas aproximaciones para contrastar la significación, transformándolo en un estadístico F.

Paso 2:

A continuación, el MANOVA detecta las diferencias univariantes mediante el contraste F o el ANOVA univariante.

Variable independiente (no

métrica) F p

Clase social Alta Media Baja

Variables dependientes (métricas) Renta Consumo de refrescos mensual

Gasto en agua mensual Variable independiente

(no métrica) Clase social

Lambda de Wilks* (valor único)

Caso 2: múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas).

Supongamos, por ejemplo, que identificamos dos variables independientes (categóricas), “línea de producto” y “tipo de cliente”. Cada una de ellas tiene dos categorías, producto 1 y producto 2 para la variable “línea de producto” y cliente anterior y cliente actual para “tipo de cliente”. Combinando estas dos variables independientes formamos los cuatro grupos siguientes (Tabla 1):

Tabla 1

Variable “línea de producto” Producto 1 Producto 2 Variable “tipo de cliente” Cliente anterior Grupo 1 Grupo 3

Cliente actual Grupo 2 Grupo 4

Pretendemos estudiar cómo éstas variables categóricas causan diferencias en la manera en que la gente evalúa la publicidad de una determinada marca, concretamente en “recuerdo” y “compra” (variables dependientes). Para ello, preguntaríamos a individuos de cada uno de los grupos anteriores que valorasen en una escala métrica “recuerdo” y “compra”. A continuación calcularíamos las medias para cada grupo y para cada valor de la variable dependiente (métrica) que se indicarían en las celdas sombreadas de la tabla 2.

Tabla 2

Variables independientes (no métrica) Línea de producto Producto 1 Producto 2 Cliente anterior (grupo 1) Cliente actual (grupo 2) Cliente anterior (grupo 3) Cliente actual (grupo 4) Variables dependientes (métricas) Recuerdo Compra

Podemos usar el MANOVA para combinar estas dos variables dependientes (recuerdo y compra) en un único valor teórico, de forma idéntica al AD.

Medias Producto 1 Producto 2 Cliente actual Cliente anterior Medias Cliente actual Cliente anterior Producto 2 Producto 1

MEDIA GRUPO 1 +GRUOP 3

MEDIA GRUPO 2 +GRUOP 4

MEDIA GRUPO 1 +GRUOP 2

MEDIA GRUPO 4

MEDIA GRUPO 2

MEDIA GRUPO 3

MEDIA GRUPO 1

MEDIA GRUPO 3 +GRUOP 4

d1 d2

El gráfico de arriba representa en el eje X el tipo de cliente y en el eje Y la media, y en él se indica con el símbolo  las cuatro medias de dicho valor teórico para cada uno de los grupos (estos símbolos representarían la media de cada columna de la Tabla 2). Las dos líneas continuas conectan los dos tipos de cliente (cliente anterior y cliente actual) para un mismo tipo de producto (producto 1 y producto 2).

Las dos líneas discontinuas verticales conectan los dos tipos de productos para un mismo tipo de cliente. Los símbolos  de la figura indican la media para cada categoría de una de las dos variables independientes calculada sin distinguir las categorías que adopta la otra variable independiente, es decir, lo que podemos denominar la “media de la categoría” de las variables independientes (categóricas). El cálculo de dicha “media de la categoría” nos permite evaluar cómo el tipo de producto y/o el tipo de cliente influye en las variables dependientes (métricas). Siguiendo con el ejemplo, un examen visual del gráfico anterior pone de manifiesto que la diferencia entre medias para el tipo de cliente (distancia “d1” en el gráfico) es mayor que la diferencia entre las medias para el tipo de producto (distancia “d2” en el gráfico). Todo ello nos permite concluir que ambas características (tipo de producto y tipo de cliente) causan diferencias significativas, un resultado que no es posible obtener con el análisis discriminante.

Y

El MANOVA difiere del AD en la manera en que se forman y se analizan los grupos. Sólo podría llevarse a cabo el AD sobre los cuatro grupos, sin distinción de las características del grupo. Con el MANOVA, el investigador analiza las diferencias entre los grupos a la vez que valora si las diferencias se deben al tipo de producto, al tipo de cliente o a ambos. Por tanto, el MANOVA se centra en el análisis sobre la composición de los grupos basada en sus características (es decir, en las variables independientes).

Supuestos básicos del MANOVA. Tamaño muestral:

1) El tamaño de cada grupo mínimo debe ser de 20 observaciones.

2) El tamaño de cada “celda” debe ser más grande que el número de variables dependientes incluidas.

Supuestos generales: 1) Linealidad.

2) El conjunto de las p-variables dependientes debe seguir una distribución normal multivariante (en la práctica, este supuesto NO se puede comprobar con SPSS; por ello se debe asegurar que cualquier combinación de las variables dependientes sigue una distribución normal).

Supuestos específicos:

1) Las observaciones deben ser independientes.

2) Las matrices de varianzas–covarianzas deben ser iguales para todos los grupos de tratamiento (M de Box; en SPSS, seleccione “Opciones” →

“Pruebas de homogeneidad”).

3) La ausencia de la multicolinealidad.

Potencia estadística de los contrastes multivariantes:

En términos sencillos, la potencia es la probabilidad de que el contraste estadístico identifique un efecto del “tratamiento” si este realmente existe. La potencia puede ser definida como uno menos la probabilidad del error de Tipo II (beta).

El investigador debe considerar, no sólo el nivel de significación alfa, sino también la potencia resultante, y debe intentar mantener un nivel de significación alfa aceptable con una potencia cerca de 0,80. El SPSS ofrece una opción para comprobar el nivel de la potencia (“Opciones” →

“Potencia observada”).

Tras realizar el MANOVA, el investigador debe determinar primero si la potencia obtenida fue suficiente, es decir, 0,80 o más. Si no fuese así, y especialmente si no se han encontrado diferencias significativas, el investigador podría reformular el diseño de análisis.

Diseño del estudio con el MANOVA.  Objetivos del estudio con el MANOVA.  Examen de los supuestos.

 Estimación del modelo MANOVA y valoración del ajuste global.  Análisis sobre efectos de interacciones.

Casos prácticos con SPSS. Utilizaremos el archivo AD_SPSS.

Al igual que hicimos en el AD, escogemos las siguientes variables dependientes:EPU_OBSOLIBERALEMPR_CREBEN_OBJ1MARK_NEC

Como variable independiente o Factor Fijo

En Opciones elegimos Pruebas de Homogeneidad,

El nivel de significación obtenido es 0,016 < 0,05, por lo que las matrices de varianzas-covarianzas no son iguales. Podemos decir que no se cumple el test de M de Box.

Las pruebas de los efectos inter-sujetos sirven para ver si existen diferencias univariantes. Mediante el MANOVA se pueden ver si existen diferencias univariantes y multivariantes.

Prueba de Box sobre la igualdad

de las matrices de covarianzaa

72,140 1,501 45 36983,674 ,016 M de Box F gl1 gl2 Significación

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.

Diseño: Intercept+PROMOC_A a. Contrastes multivariadosc ,970 1000,978a 5,000 154,000 ,000 ,030 1000,978a 5,000 154,000 ,000 32,499 1000,978a 5,000 154,000 ,000 32,499 1000,978a 5,000 154,000 ,000 ,325 3,794 15,000 468,000 ,000 ,699 3,933 15,000 425,528 ,000 ,397 4,043 15,000 458,000 ,000 ,290 9,053b 5,000 156,000 ,000 Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Efecto

Intercept

PROMOC_A

Valor F

Gl de la

hipótesis Gl del error Significación

Estadístico exacto a.

El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación.

b.

Diseño: Intercept+PROMOC_A c.

Sólo nos vamos a fijar en el lambda de Wilks. En este caso sale significativo, por lo que podemos decir que existen diferencias multivariantes o globales significativas con las variables seleccionadas.

Pruebas de los efectos inter-sujetos 8,412a 3 2,804 3,181 ,026 13,468b 3 4,489 4,371 ,005 24,093c 3 8,031 5,771 ,001 16,408d 3 5,469 3,857 ,011 11,836e 3 3,945 3,934 ,010 2201,840 1 2201,840 2498,006 ,000 1138,098 1 1138,098 1108,170 ,000 1204,498 1 1204,498 865,585 ,000 1211,868 1 1211,868 854,661 ,000 761,240 1 761,240 759,119 ,000 8,412 3 2,804 3,181 ,026 13,468 3 4,489 4,371 ,005 24,093 3 8,031 5,771 ,001 16,408 3 5,469 3,857 ,011 11,836 3 3,945 3,934 ,010 139,267 158 ,881 162,267 158 1,027 219,864 158 1,392 224,036 158 1,418 158,441 158 1,003 2490,000 162 1499,000 162 1625,000 162 1558,000 162 957,000 162 147,679 161 175,735 161 243,957 161 240,444 161 170,278 161 Variable dependiente EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Fuente Modelo corregido Intercept PROMOC_A Error Total Total corregida Suma de cuadrados tipo III gl Media cuadrática F Significación

R cuadrado = ,057 (R cuadrado corregida = ,039) a.

R cuadrado = ,077 (R cuadrado corregida = ,059) b.

R cuadrado = ,099 (R cuadrado corregida = ,082) c.

R cuadrado = ,068 (R cuadrado corregida = ,051) d.

R cuadrado = ,070 (R cuadrado corregida = ,052) e.

MANOVA_1

Mod lineal general  multivariante

Opciones:

Resultados:

Prueba de Box sobre la igualdad de las matrices de covarianza(a)

M de Box 276,347

F 5,958

gl1 40

gl2 1141,882

Significación ,000

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.

a Diseño: Intercept+EDUCAC

Tenemos que mencionar y justificar teóricamente porqué nos ha salido significativo.

Ahora vamos a realizar un Análisis Discriminante, por lo que tenemos que invertir las VI y las VD.

Primero tenemos que cambiar esta variable a numérica: nivel de educación. En rango ponemos mínimo 1 y máximo 4.

Y en estadísticos seleccionamos ANOVA y M de Box.  Aceptar

Tenemos 3 funciones discriminantes pero solo la primera ha salido significativa. Y antes de Box tenemos una tabla que ofrece ex univariante. Hemos obtenido la misma información que el MANOVA.

Pruebas de igualdad de las medias de los grupos

Lambda de

Wilks F gl1 gl2 Sig.

Edad (años) ,995 1,454 3 841 ,226

Renta anual (en mil) ,959 12,115 3 841 ,000

Deuda de tarjeta de

credito ,986 4,105 3 841 ,007

MANOVA_2

Fc fijo: Fumador o no.

Variables dependientes: las de actitudes (4 variables). M de box no significativo cumple supuesto

La VI es fumador o no, lambda de wilks ha salido 0,142, no significativo, por lo que no hay diferencias multivariantes. No son interesa el análisis posterior.

Ahora cambiamos los factores fijos y ponemos sexo porque nos interesa saber si hay diferencias entre hombres y mujeres. Nos sale 0,885 por lo que ya nonos interesa.

Cambiamos otra vez fc fijos para saber si hay diferencias globales en los distintos grupos de clase social. M de box cumple el supuesto específico. Wilks sale 0,082  si tenemos suficiente material bibliográfico para sostener la hipótesis pues la aceptamos. Pero si es un estudio exploratorio, rechazamos de fijo. No se puede generalizar.

Prueba de Box sobre la igualdad de las matrices de covarianza(a)

M de Box 20,067

F 1,369

gl1 10

gl2 937,052

Significación ,190

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.

a Diseño: Intercept+CLASESOC

Contrastes multivariados(d)

Efecto Valor F

Gl de la

hipótesis Gl del error Significación

Parámetro de no centralidad

Potencia observada(a

)

Intercept Traza de Pillai ,927 44,621(b) 4,000 14,000 ,000 178,486 1,000

Lambda de Wilks ,073 44,621(b) 4,000 14,000 ,000 178,486 1,000 Traza de Hotelling 12,749 44,621(b) 4,000 14,000 ,000 178,486 1,000 Raíz mayor de Roy 12,749 44,621(b) 4,000 14,000 ,000 178,486 1,000

CLASESOC Traza de Pillai ,606 1,630 8,000 30,000 ,158 13,040 ,600

Lambda de Wilks ,408 1,978(b) 8,000 28,000 ,087 15,820 ,694 Traza de Hotelling 1,414 2,298 8,000 26,000 ,052 18,387 ,762 Raíz mayor de Roy 1,389 5,210(c) 4,000 15,000 ,008 20,840 ,895

a Calculado con alfa = ,05 b Estadístico exacto

c El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación. d Diseño: Intercept+CLASESOC

MANOVA_3

Como variables dependientes. Luego elegimos 2 VI (categóricas): Tenemos que reconstruir el análisis de las fotocopias del profesor shintaro.

Prueba de Box sobre la igualdad de las matrices de covarianza(a)

M de Box 66,430

F ,944

gl1 60

gl2 5107,970

Significación ,598

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.

a Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Cumple el supuesto.

Contrastes multivariados(d) a Calculado con alfa = ,05 b Estadístico exacto

c El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación. d Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Si utilizamos el MANOVA con dos fc fijos la interpretación es muy complicada a no ser que busquemos alguna interacción muy específica. Por lo que no es conveniente usar con dos Fc fijos.

*** Interacciones entre análisis cluster y MANOVA: MANOVA_4

Ejercicio 7

1. ¿Por qué se usa el MANOVA en vez del ANOVA?

2. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante?

3. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido?

4. Mencione los supuestos específicos del MANOVA.

5. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio.

Variables dependientes (métricas; sólo cinco):

 EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada.

 LIBERAL: El liberalismo es la mejor doctrina económica.

 EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza.  BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa.

Documento similar