El análisis de la varianza

Texto completo

(1)

Joaquín Aldás Manzano

Universitat de València

Dpto. de Dirección de Empresas “Juan José Renau Piqueras”

(2)

El análisis de la varianza

1. ¿Qué es el análisis de la varianza?

(Uriel, 1995)

El análisis de la varianza es un método estadístico para determinar si una variable determinada toma valores medios iguales o distintos en los grupos que forma otra variable, por ejemplo, si la opinión que tiene una muestra de indivi-duos sobre si deben o no subirse los impuestos sobre el tabaco, es la misma o distinta entre los fumadores y los no fumadores.

Se denomina factor a la variable que supuestamente ejerce una influencia sobre la variable dependiente. En nuestro ejemplo la variable dependiente es la opinión manifestada sobre la subida de impuestos sobre el tabaco, mientras que el factor es pertenecer al grupo de fumadores o al de no fumadores.

El diseño que hemos visto se conoce como análisis de la varianza de un factor, puesto que se considera la influencia de una sola variable (fumar o no fumar). En este tema se verá también el análisis de la varianza de dos factores, donde se considera la influencia conjunta de dos variables independientes (podría ser fumar o no fumar y el sexo, por ejemplo).

2. Un ejemplo de aplicación del análisis de la varianza de un

factor

(Elaboración propia y Uriel, 1995)

Paso 1. Establecimiento de los objetivos

Como se ha indicado, un análisis de la varianza es adecuado cuando queremos saber si una variable toma valores medios significativamente distintos en los grupos que forma otra variable que llamamos factor. La primera cuestión importante es saber cómo deben ser las escalas de medida de cada una de las variables.

Ÿ El factor, o variable independiente, debe ser una variable nominal.

(3)

en 1 = fumadores; 2 = Fumaban pero lo han dejado y 3 = No fumadores.

Ÿ La variable dependiente, debe ser métrica, dado que el cálculo del

valor medio debe tener sentido y, precisamente, es el valor medio lo que deseamos saber si toma valores significativamente diferentes entre los fumadores, no fumadores o los que lo han dejado. En nuestro ejemplo, la variable dependiente está medida del siguiente modo. Exprese su acuerdo o desacuerdo sobre la siguiente afirmación: “Deben subirse los impuestos que gravan el tabaco”. La respuesta se recoge en una escala de 5 puntos donde 1 = Estoy totalmente en desacuerdo y 5 = Estoy totalmente de acuerdo.

Este objetivo se plantea estadísticamente formulando una hipótesis nula que deberá ser aceptada o rechazada a la luz de la evidencia empírica. En nuestro caso la hipótesis nula es que la opinión que expresan los entrevistados acerca de que se suban los impuestos sobre el tabaco, es la misma entre los fumadores y los no fumadores o, dicho de otro modo, que el ser fumador no ejerce ningún tipo de influencia sobre la opinión manifestada acerca de subir los impuestos sobre el tabaco. De una manera más formal, la hipótesis nula se plantea de este modo:

0 : F NF D

H x = x =x

Es decir que la media de las respuestas a la pregunta formulada es la misma entre los fumadores, los no fumadores o los que lo han dejado. Es muy impor-tante dejar claro cuál es la hipótesis alternativa, es decir, la que asumiríamos si no pudiésemos aceptar la hipótesis nula planteada. Esta no es que todas las medias sean distintas entre sí, sino que, al menos una es significativamente distinta de todas las demás. Esto es, si rechazáramos la hipótesis nula no podríamos decir que los no fumadores piensan distinto que los fumadores y que los que lo han dejado y que los no fuamdores también piensan diferente de los que lo han dejado. Podría ocurrir que los fumadores pensaran de manera distinta a los no fumadores y los que lo han dejado, pero estos dos últimos piensan igual. Para determinar en qué caso nos encontramos habrá que recurrir a otro tipo de pruebas, que denominamos comparaciones pareadas a posteriori o pruebas post hoc, como veremos posteriormente.

(4)

mantendrá siempre la hipótesis nula (inocencia del acusado) a no ser que se logren acumular suficientes pruebas en contra del acusado como para que la probabilidad de que se equivoque al rechazar la hipótesis nula (declararle culpable) sea lo suficientemente pequeña. La “acumulación de pruebas” en inferencia estadística es la construcción de un estadístico que, en nuestro caso, es una F. Según cual sea el valor que tome ese estadístico F, podremos aceptar o rechazar la hipótesis nula. Sin embargo es imposible tener en la cabeza las tablas del estadístico, por eso los programas de ordenador “traducen” ese estadístico mediante un valor que llaman p o significatividad que no es, ni más ni menos, que la probabilidad de equivocarnos cuando rechazamos la hipótesis nula. Si esa probabilidad es “lo suficientemente baja” lo rechazaremos.

Pero “suficientemente baja” es un término subjetivo. Para objetivarlo, la práctica en Ciencias Sociales es considerar los valores máximos del 1% o del 5%. Si la probabilidad mencionada es inferior al 1% (5%) consideramos que es improbable que nos equivoquemos y rechazaremos la hipótesis nula, teniendo que aceptarla en caso contrario.

Pero vayamos paso a paso y veamos, en primer lugar, cómo se calcula el estadístico F.

Llamemos Yi a la variable que recoge la respuesta del individuo i a la pregunta “Deben subirse los impuestos que gravan el tabaco”. Cada individuo pertenece a uno de los G grupos existentes del factor (en nuestro caso 3: fumadores, no fumadores o los que lo han dejado), con lo que llamaremos Ygi a la respuesta dada a esa pregunta por el individuo i dado que pertenece a grupo g. La media de la variable Y para todos los individuos, sin distinguir grupos la llamamos Y

con lo que la desviación de cada observación respecto a la media global será:

gi

Y -Y

desviación que puede descomponerse de la siguiente forma:

(

g

)

(

)

gi gi

Y - =Y Y -Y + Y -Y

(5)

El segundo componente, (YgiYg), es la desviación que no explica el factor, y que denominamos desviación residual. Elevando al cuadrado ambos términos de la ecuación [1] tenemos que:

(

)

2

(

)

2

(

)

2

(

)

(

)

2

g g g

gi gi gi

Y -Y = Y -Y + Y -Y + Y -Y Y -Y

Si la expresión anterior la sumamos para todos los grupos (G en total) y para todos los individuos de cada grupo (ng) se obtiene que:

(

)

2

(

)

2

(

)

2

1 1 1 1 1

g g

n n

G G G

g g g

gi gi

g= =i Y -Y =g= n Y Y- +g= =i Y -Y

åå

å

åå

En el primer miembro de la ecuación anterior aparece la suma de cuadrados de las desviaciones de cada observación respecto a la media global, suma que denominaremos Suma de Cuadrados Total (SCT) y que refleja la variabilidad total. Si se divide por el tamaño total de muestra se obtiene la varianza total. Pues bien, de acuerdo con [2] esta SCT se divide en dos partes:

Ÿ La suma de cuadrados de las desviaciones entre la media de cada

grupo y la media general. Esta es la suma de cuadrados explicada por el factor considerado, a la que denominaremos Suma de cuadra-dos del factor (SCF) o variabilidad explicada.

Ÿ La suma de cuadrados de las desviaciones entre cada dato y la

media de su grupo. Esta es la suma de cuadrados no explicada, a la que denominaremos Suma de cuadrados residual (SCR) o variabili-dad residual.

(6)

1

1

SCF

MCF G

SCR MCR n G

SCT

MCT n

= = =

-pues bien, el estadístico F que nos ha de decir si tenemos “pruebas suficientes” para rechazar o aceptar la hipótesis nula, se calcula del siguiente modo:

1

SCF

MCF G

F MCR SCR

n G

-= =

-y se distribu-ye según una F de Snedecor con G-1 grados de libertad en el numerador y n-G en el denominador. Pero como hemos dicho, es difícil saberse de memoria la tabla de esta distribución, por eso el programa traduce directa-mente ese valor en una probabilidad de equivocarnos al rechazar la hipótesis nula o significatividad llamada p.

El cuadro 2 nos ofrece la salida de SPSS del análisis de la varianza de un factor que nos está sirviendo de ejemplo. Sin adelantar cuál es el resultado obtenido, vemos que nos proporciona la mayor parte de la información que hemos descrito hasta el momento.

Cuadro 2. Salida de SPSS para el análisis de la varianza

ANOVA

Deben aumentarse los impuestos

171,378 2 85,689 59,161 ,000 344,721 238 1,448

516,100 240 Inter-grupos

Intra-grupos Total

Suma de cuadrados gl

Media

cuadrática F Sig.

(7)

suma de las dos anteriores y el número de grados de libertad es el total de datos menos uno, es decir 240. El estadístico F se obtiene:

171,37

1 3 1 59,16

344,72 241 3

SCF

MCF G

F MCR SCR

n G

-

-= = = =

-Paso 2. Condiciones de aplicabilidad

La hipótesis más relevante que deben cumplir los datos para poder aplicar un análisis de la varianza, es la hipótesis de homoscedasticidad, es decir, que la varianza de la variable dependiente (opinión acerca de que deben subirse los impuestos sobre el tabaco) es constante en los grupos que hace el factor (fumadores, no fumadores y los que lo han dejado).

Algunos autores (Uriel, 1995; Stevens, 1986) afirman, sin embargo, que el estadístico F no se ve muy afectado por el hecho de que no exista homoscedas-ticidad siempre que las muestras de los diferentes grupos sean del mismo o similar tamaño. Se afirma que el estadístico se verá afectado cuando la razón entre el tamaño muestral del grupo de mayor tamaño y el más pequeño sea superior a 2. El cuadro 2.2 nos muestra unos estadísticos descriptivos de nuestra muestra de ejemplo, se observa que el grupo más numeroso es el de los no fumadores con 120 individuos, mientras que el más pequeño es el de los que han dejado de fumar con 14. Es evidente que la razón es superior a 2 (120/14 > 2), por lo que la vulneración de la hipótesis de homoscedasticidad sí que afectará a la aplicabilidad del análisis de varianza.

(8)

Cuadro 2. Estadísticos descriptivos de la variable dependiente

Descriptivos

Deben aumentarse los impuestos

107 1,73 1,15 ,11 1,51 1,95 1 5 14 2,86 1,56 ,42 1,96 3,76 1 5 120 3,47 1,20 ,11 3,25 3,68 1 5 241 2,66 1,47 9,45E-02 2,47 2,85 1 5 SI

DEJADO NO Total

N Media

Desviación

típica Error típico

Límite inferior

Límite superior Intervalo de confianza para

la media al 95%

Mínimo Máximo

Para detectar la vulneración de la hipótesis de homoscedasticidad, SPSS proporciona un test conocido como de Levene. Este test plantea la hipótesis nula de homoscedasticidad, es decir, que las varianzas son iguales en todos los grupos (fumadores, no fumadores y los que lo han dejado), que es la propiedad deseable. Si el valor de la significatividad de este test es inferior a los límites clásicos (1% o 5%), podremos rechazar la hipótesis nula, es decir, habrá heteroscedasticidad y el ANOVA no será aplicable.

El cuadro 3 ofrece la salida de SPSS para el test de Levene, se observa que el valor de la significatividad es superior tanto al 1% como al 5% (concretamente p=0.089). Luego la probabilidad de equivocarnos al rechazar la hipótesis nula es demasiado elevada, habrá que aceptarla, es decir, las varianzas son constan-tes, se cumple la hipótesis de homoscedasticidad y los resultados que se hayan obtenido del análisis de la varianza serán consistentes.

Cuadro 3. Test de Levene

Prueba de homogeneidad de varianzas

Deben aumentarse los impuestos

2,439 2 238 ,089 Estadístico

de Levene gl1 gl2 Sig.

(9)

Aunque algunos autores consideran que la no normalidad de la variable depen-diente no afecta de forma importante al estadístico F, la hipótesis de normali-dad es, teóricamente, un supuesto que debe verificarse antes de realizar un análisis de la varianza. En el tema 1 se indicó uno de los procedimientos habituales, que son los gráficos q-q. La figura 1 muestra que los residuos se hallan homogéneamente repartidos por encima y por debajo de la diagonal, lo que nos permite asumir con razonable precisión que estamos ante una distribu-ción normal.

Figura 1. Gráfico q-q para el contraste de la normalidad

Gráfico Q-Q normal de Deben aumentarse los impuestos

Valor observado

6 5 4 3 2 1 0

Normal esperado

1,5

1,0

,5

0,0

-,5

-1,0

Paso 3. Estimación del modelo y medida del ajuste global

Hasta este momento, hemos planteado los objetivos del ANOVA (saber si la opinión que se tiene acerca de que se suban los impuestos sobre el tabaco, varía o no entre fumadores y no fumadores), hemos comprobado las hipótesis que deben cumplir los datos y, además, hemos construído el estadístico que nos ha de permitir aceptar o rechazar la hipótesis nula de igualdad de medias, pero ¿cuál es el resultado del análisis?

(10)

estadístico F=59,16 no nos dice mucho dado que no conocemos de memoria las tablas, pero sí el valor de la significatividad p=0.000. Dijimos que la significati-vidad era la probabilidad de equivocarnos al rechazar la hipótesis nula de que las medias son iguales. Esta probabilidad es nula (en todo caso menor que cualquiera de los dos valores críticos: 0.01 y 0.05), por lo que, dado que no tenemos ninguna probabilidad de equivocarnos la rechazaremos, es decir, alguna de las medias es significativamente distinta de las demás. Sin embargo no sabemos si todas son distintas entre sí (xF≠xNFxD) o, por ejemplo, la de los

fumadores es distinta del grupo de no fumadores y lo han dejado, pero estas dos últimas no son diferentes (xF≠xNF=xD). Para ello habrá que realizar alguna prueba post hoc, como veremos inmediatamente.

El cuadro 2.4 nos permite responder a la duda que hemos planteado. Si el anova demuestra que alguna media es distinta de las demás, como es el caso, SPSS nos ofrece diversos tests post hoc de comparaciones múltiples para detec-tar qué media es distinta de cuál. En este caso hemos recurrido a una de las múltiples posibilidades, el test de la diferencia honestamente significativa de Tukey (Tukey’s HSD). El cuadro debe leerse de la siguiente manera. Veamos primero la primera fila. La diferencia de las medias de respuesta a la variable “deben subirse los impuestos sobre el tabaco” entre los que sí que fuman y los que lo han dejado es de 1,13 y entre los que sí que fuman y los que no fuman es de 1,74. Ambas diferencias son significativas al 5%, como lo demuestra el asterisco (*) que llevan ambas. Es más, ambas son significativamente distintas también al 1%, dado que la significatividad es también inferior a esta cantidad (0.003 y 0.000 respectivamente). Luego ya sabemos que la opinión de los que sí que fuman es distinta de los otros dos grupos, pero ¿qué ocurre entre ellos?.

Leamos ahora la segunda fila. Ahora la diferencia entre los que lo han dejado y los que sí que fuman es de 1,13 y significativa (ya lo sabíamos de la fila anterior), pero la diferencia ente los que lo han dejado y los que no fuman es de 0,61 y NO ES SIGNFICATIVA, dado que ni lleva asterisco ni 0,172<0,05. Luego la opinión de los que fuman es distinta de los que lo han dejado, pero la de estos últimos no es distinta de los que no fuman.

(11)

Cuadro 4. Test de comparaciones múltiples Comparaciones múltiples

Variable dependiente: Deben aumentarse los impuestos HSD de Tukey

-1,13 * ,342 ,003 -1,93 -,33 -1,74 * ,160 ,000 -2,11 -1,36 1,13* ,342 ,003 ,33 1,93

-,61 ,340 ,172 -1,41 ,19 1,74* ,160 ,000 1,36 2,11 ,61 ,340 ,172 -,19 1,41 (J) ¿FUMA USTED?

SI DEJADO NO SI DEJADO NO SI DEJADO NO (I) ¿FUMA USTED? SI

DEJADO

NO

Diferencia de medias

(I-J) Error típico Sig.

Límite inferior

Límite superior Intervalo de confianza al

95%

La diferencia entre las medias es significativa al nivel .05. *.

En síntesis, como muestra el cuadro 5 que ofrece los grupos con la misma media, por un lado tenemos el grupo de los no fumadores, con media 1,73 que mantiene una opinión distinta (son menos favorables a que se suban los impuestos) que el otro grupo, formado por no fumadores y quienes lo han dejado, cuyas medias no son significativamente diferentes.

Cuadro 5. Grupos con la misma media Deben aumentarse los impuestos

HSD de Tukey1,2

107 1,73 14 2,86 120 3,47 1,000 ,094 ¿FUMA USTED? SI DEJADO NO Sig.

N 1 2

Subconjunto para alfa = .05

Se muestran las medias para los grupos en los subconjuntos homogéneos.

Usa tamaño de la muestra de la media armónica = 33,667. 1.

Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error del tipo I no están garantizados.

(12)

Finalmente, para medir si es importante la parte de la variabilidad total expli-cada por el factor (medida de bondad del ajuste) se utiliza el coeficiente de determinación que viene dado por la siguiente expresión:

2 171,37 0,33

516,10

SCF

R = SCT = =

Aunque SPSS no da este estadístico, este puede obtenerse de manera bastante sencilla de la información proporcionada por el cuadro 1. Vemos que gran parte (33%) de la diferencia de opinión respecto al aumento de impuestos sobre el tabaco, se explica por el hecho de que el que conteste sea o no fumador.

Paso 4. Interpretación de los resultados

Por claridad expositiva, los resultados del análisis de la varianza efectuado se han interpretado simultáneamente a la estimación del modelo en el paso anterior. Sin embargo, a modo de conclusión, repetiremos que el fumar o no fumar, independientemente de que no se haya hecho nunca o se haya dejado el hábito, ejerce una influencia importante sobre el apoyo de los individuos a que se suban los impuestos sobre el tabaco. Los fumadores son mucho más reacios (1,73 en una escala de 1 a 5) a esta subida que los no fumadores, que no se distinguen de los que lo han dejado en esta opinión.

Paso 5. Validación de los resultados

(13)

3. Un ejemplo de aplicación del análisis de varianza de dos

facto-res

(Elaboración propia; Uriel, 1995 y Hatcher y Stepanski, 1994)

En el ejemplo anterior intentábamos determinar la influencia sobre el acuerdo con que se subieran los impuestos sobre el tabaco, de un factor a priori relevan-te, como era el hecho de que se fumara o no. Pero supongamos que hay dos variables independientes cuya posible influencia queremos controlar: el hecho de fumar o no y el sexo del individuo. Podríamos pensar que es necesario llevar a cabo un análisis de la varianza de un factor para cada uno de ellos, sin embargo es posible trabajar con las dos variables independientes de manera simultánea en un único estudio.

El diseño experimental que se sigue en estos casos, es conocido como diseño factorial, donde dos o más variables independientes son manipuladas en un único estudio de tal forma que en el análisis se representan todas las posibles combinaciones de los diversos niveles de las variables independientes.

Teóricamente, un diseño factorial puede incluir cualquier número de variables independientes, en la práctica resulta poco adecuado utilizar más de tres o cuatro. Nosotros ilustraremos el tema con un diseño factorial que incluye dos factores: el ser o no fumador, y el sexo del entrevistado. En síntesis, queremos constatar si:

Ÿ Ser o no fumador hace que se tengan opiniones distintas sobre que

se suban los impuestos sobre el tabaco.

Ÿ Ser hombre o mujer ejerce algún tipo de influencia sobre esa

opinión.

De una manera similar al caso de un factor, la varianza total puede descompo-nerse del siguiente modo (donde G es el número total de grupos de un factor, en nuestro caso, por ejemplo los tres niveles de fumar, no fumar o haberlo dejado; J es el número total de grupos del segundo factor, en nuestro caso 2, hombres y mujeres):

(

)

2

(

)

2

(

)

2

1 1 1 1 1 1 1 1

gj gj

n n

G J G J G J

gji gj gj gji gj

g= = =j i Y -Y =g= =j n Y -Y +g= = =j i Y -Y

(14)

El primer término de la expresión anterior refleja, como hemos dicho, la suma de los cuadrados con respecto a la media muestral global. El triple sumatorio se refiere: el primero a los niveles del primer factor (e.g. fumar o no fumar), el segundo a los del segundo factor (e.g. hombre o mujer) y el tercero a los datos individuales del cruce de los dos anteriores. El segundo término de la expresión se descompone en dos sumandos. El primero refleja las diferencias al cuadrado entre la media de cada celda y la media global, mientras que el segundo sumando es la suma de cuadrados residual SCR.

Lo interesantes está en analizar qué ocasiona las diferencias del primer suman-do, es decir, las diferencias al cuadrado entre la media de cada celda. Puede demostrarse que:

(

)

(

)

(

)

(

)

2

1 1

2 2

2

1 1 1 1 1 1

G J

gj gj g j

G J G J G J

g g

gj gj j gj gj j

g j g j g j

n Y Y

n Y Y n Y Y n Y Y Y Y

= =

= = = = = =

- =

= - + - + - - +

åå

åå

åå

åå

se ve claramente en esta expresión que los dos primeros sumandos correspond-en a las sumas de cuadrados de los dos factores, llamémosles A y B. A estas sumas las denominaremos SCFA y SCFB. El último término refleja la interac-ción de los factores A y B, es decir el efecto de los dos factores que no ha es debido individualmente a ninguno de ellos. El efecto interacción, será denomi-nado SCFAxB. En síntesis, la suma total de cuadrados puede descomponerse, en el caso de dos factores del siguiente modo:

SCT=SCFA+SCFB+SCFA%B +SCR

(15)

Cuadro 7. Tabla de análisis de la varianza con dos factores

MCT= SCTn1 n-1

SCT Total

MCR= nSCRGJ n-GJ

SCR Residual

F= MCFA%B MCR

MCFA%B= (GSCF−1)(JA%−B1 (G-1)(J-1)

SCFAxB Interacción

F= MCFB MCR

MCFB= SCFJ1B J-1

SCFB Factor B

F= MCFA MCR

MCFA= SCFG−1A G-1

SCFA Factor A

Estadístico F Media cuadrática

Grados de libertad Suma de

cuadrados Fuente de

Variación

Antes de comentar los resultados concretos del ejemplo que venimos analizan-do, tratemos de analizar los posibles resultados que podrían obtenerse y comprender, así, qué significará que uno de los factores, o la interacción de ambos sea significativa. La figura 2 es una ilustración del resultado que se obtendría si el efecto del factor 1 (fumar o no fumar) fuera significativo sin que lo sea el factor 2 (sexo) ni la interacción entre ambos. En el eje y se ha sentado la opinión sobre que se suban los impuestos. En el eje x vienen repre-sentados los tres niveles del factor 1 (fumador, no fumador, han dejado de fumar) y se han representado las medias de la opinión en cada uno de estos tres grupos pero utilizando dos lineas, una para hombres y otra para mujeres. Decimos que el factor 1 influye y el factor 2 no porque:

Ÿ La opinión acerca de la subida de impuestos es más favorable en la

medida en que se pasa de ser fumador a haberlo dejado o no haber fumado nunca (línea recta creciente)

Ÿ Las medias en cada grupo de hábito coinciden, sin embargo, entre

hombres y mujeres, como demuestra el hecho de que las líneas sean coincidentes.

(16)

Figura 2. Sólo el efecto hábito es significativo.

Opinión

Desacuerdo Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n l

n l

n l Hombres

Mujeres

Figura 3. Sólo el efecto sexo es significativo.

Opinión

Desacuerdo Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n l

n l

n

l Hombres

Mujeres

Figura 4. Los dos factores son significativos. No hay interacción

Opinión

Desacuerdo Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n l

n l

n lHombres

Mujeres

(17)

La figura 5 muestra el resultado que conseguiremos cuando no influyan ninguno de los dos factores (líneas juntas y paralelas al eje x) y, finalmente, la figura 6 ilustra el caso de que ambos factores sean significativos (líneas separa-das, no paralelas al eje x) pero, además, existe una interacción significativa entre los factores, es decir, el hábito afecta más al cambio de opinión entre los hombres que entre las mujeres, puesto que la pendiente de la recta de ellos es superior a la de ellas.

Figura 5. Efectos principales no significativos

Opinión

Desacuerdo Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

l l l Hombres

n n n Mujeres

Figura 6. Efectos principales e interacción significativos

Opinión

Desacuerdo Acuerdo

Fumador Dejado No fumador

Factor 1: Fumar

n

n

n

l

l

lHombres

Mujeres

(18)

desacuerdo entre los fumadores es prácticamente el mismo sean estos hombres (1,71) o mujeres (1,74). Tampoco se aprecian grandes diferencias en el acuerdo entre no fumadores (3,59) y no fumadoras (3,39). La única diferencia aprecia-ble está en que los hombres que lo han dejado, son menos comprensivos con los fumadores (3,50) que las mujeres que lo han dejado (2,60).

Cuadro 7. Estadísticos descriptivos

Estadísticos descriptivos

Variable dependiente: Deben aumentarse los impuestos

1,71 1,25 41

3,50 1,73 4

3,59 1,26 46

2,74 1,57 91

1,74 1,10 66

2,60 1,51 10

3,39 1,17 74

2,61 1,40 150

1,73 1,15 107

2,86 1,56 14

3,47 1,20 120

2,66 1,47 241 ¿FUMA USTED?

SI

DEJADO

NO

Total

SI

DEJADO

NO

Total

SI

DEJADO

NO

Total sexo

Hombre

Mujer

Total

Media Desv. típ. N

Estas diferencias basadas en estadísticos descriptivos son, sin embargo, aparen-tes. Debemos constatar si son estadísticamente significativas atendiendo al contraste de hipótesis que se ha descrito. El análisis del cuadro 8 nos permite obtener las siguientes conclusiones:

Ÿ El sexo no ejerce una influencia significativa sobre la opinión

manifestada por los entrevistados acerca de que se suban o no los impuestos. Se observa que la significatividad del estadístico F=1.82 de esta variable es superior a 0.05, concretamente p=0.178.

Ÿ El fumar o no fumar, sí que ejerce una influencia significativa sobre

dicha opinión, como ya cabía esperar de los resultados que obtuvi-mos al realizar un análisis de la varianza de un factor. La significati-vidad del estadístico F=57.9 sí que es inferior a 0.05, en este caso p=0.

Ÿ La interacción de los dos factores anteriores tampoco es significativa

(19)

hábito no son más o menos marcadas según cuál sea el sexo del entrevistado.

Cuadro 8. Análisis de los efectos principales e interacción

Pruebas de los efectos inter-sujetos

Variable dependiente: Deben aumentarse los impuestos

174,8031 5 34,961 24,072 ,000 643,121 1 643,121 442,822 ,000 2,645 1 2,645 1,821 ,178 168,187 2 84,094 57,903 ,000 2,503 2 1,252 ,862 ,424 341,296 235 1,452

2221,000 241 516,100 240 Fuente

Modelo corregido Intercept

SEXO FUMA SEXO * FUMA Error

Total

Total corregido

Suma de cuadrados

tipo III gl

Media

cuadrática F Sig.

R cuadrado = ,339 (R cuadrado corregido = ,325) 1.

Se deja como ejercicio para el lector el que se comprueben los cálculos que permiten obtener los estadísticos F de acuerdo con lo descrito en el cuadro 6. Por ejemplo, para el factor sexo:

2,645

1 2 1 1,821

341,29 241 3 2

sexo sexo

SCF

MCF J

F MCR SCR

n GJ

-

-= = = =

- ×

(20)

Cuadro 9. Test de Levene

Contraste de Levene sobre la igualdad de las varianzas error 1

Variable dependiente: Deben aumentarse los impuestos 1,400 5 235 ,225

F gl1 gl2 Sig.

Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos.

Diseño: Intercept+FUMA+SEXO+FUMA * SEXO 1.

(21)

Figura 7. Resultado gráfico del ANOVA

Medias marginales estimadas de Deben aumentarse los impuestos

¿FUMA USTED?

NO DEJADO

SI

Medias marginales estimadas

4,0

3,5

3,0

2,5

2,0

1,5

sexo

Hombre

Mujer

Referencias bibliográficas

URIEL, E. (1995): Análisis de datos. Series temporales y análisis multivariable.

Madrid: Editorial AC.

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.

HATCHER, L. Y STEPANSKI, E.J. (1994): A Step-by-Step approach to using the SAS System for univariate and multivariate statistics. Cary: SAS Insti-tute Inc.

STEVENS, J. (1996): Applied Multivariate Statistics for the Social Sciences. 3ª

Figure

Cuadro 3. Test de Levene

Cuadro 3.

Test de Levene p.8
Cuadro 2. Estadísticos descriptivos de la variable dependiente

Cuadro 2.

Estadísticos descriptivos de la variable dependiente p.8
Figura 1. Gráfico q-q para el contraste de la normalidad

Figura 1.

Gráfico q-q para el contraste de la normalidad p.9
Cuadro 4. Test de comparaciones múltiples

Cuadro 4.

Test de comparaciones múltiples p.11
Cuadro 5. Grupos con la misma media

Cuadro 5.

Grupos con la misma media p.11
cuadro ilustramos también como se construye cada uno de los estadísticos F

cuadro ilustramos

también como se construye cada uno de los estadísticos F p.14
Cuadro 7. Tabla de análisis de la varianza con dos factoresFuente deSuma deGrados de

Cuadro 7.

Tabla de análisis de la varianza con dos factoresFuente deSuma deGrados de p.15
Figura 3. Sólo el efecto sexo es significativo.

Figura 3.

Sólo el efecto sexo es significativo. p.16
Figura 4. Los dos factores son significativos. No hay interacción

Figura 4.

Los dos factores son significativos. No hay interacción p.16
Figura 2. Sólo el efecto hábito es significativo.

Figura 2.

Sólo el efecto hábito es significativo. p.16
Figura 6. Efectos principales e interacción significativos

Figura 6.

Efectos principales e interacción significativos p.17
Figura 5. Efectos principales no significativos

Figura 5.

Efectos principales no significativos p.17
Cuadro 7. Estadísticos descriptivos

Cuadro 7.

Estadísticos descriptivos p.18
Cuadro 8. Análisis de los efectos principales e interacción

Cuadro 8.

Análisis de los efectos principales e interacción p.19
cuadro 9, no puede rechazarse la hipótesis nula de homoscedasticidad

cuadro 9,

no puede rechazarse la hipótesis nula de homoscedasticidad p.19
Figura 7. Resultado gráfico del ANOVA

Figura 7.

Resultado gráfico del ANOVA p.21

Referencias

Actualización...