DIFErENCIA ENTrE Dos o Más GrUPos: ANáLIsIs DE LA vArIANzA

CAPÍTULO 5. ANÁLISIS BIvARIANTE

5.4. DIFErENCIA ENTrE Dos o Más GrUPos: ANáLIsIs DE LA vArIANzA

En el caso de que necesitemos analizar la influencia de una variable categórica nominal, conocida como factor, sobre una variable métrica (por ejemplo determinar si cuatro tratamientos contra una plaga producen resultados estadísticamente diferentes) podemos recurrir al análisis de la varianza, también conocido como ANovA. si existe un solo factor se denomina ANovA I, con dos factores ANovA II, y en general, con n factores, ANovA n. En este capítulo de análisis bivariante corresponde estudiar ANovA I.

si el factor (por ejemplo tipo de abonado) toma sólo dos valores (abono A y abono B) podemos realizar una prueba de comparación de medias, como hemos visto en la sección anterior. En general, el factor tomará más de dos valores (abono A, B, C y D) por lo que descartamos la prueba de comparación de medias y utilizamos el análisis de la varianza.

Para llevar a cabo ANovA es necesario que la variable métrica cumpla con los requisitos paramétricos ya descritos. sin embargo, mientras el incumplimiento de la normalidad de la variable tiene un efecto reducido en la validez de la prueba, la diferente varianza de los grupos (heterocedasticidad) sí puede afectar a dicha validez12_{. Por tanto, en}

el caso de rechazar esta igualdad de la varianza (prueba de hartley y Barlett Chi- cuadrado) procederemos como sigue:

• Grupos de tamaño similar → Pruebas paramétricas de análisis. • Grupos de tamaño muy diferente → Pruebas no paramétricas de análisis. En la práctica, las conclusiones del análisis de la varianza siguiendo una prueba paramétrica o una prueba no paramétrica son, en la mayoría de los casos, las mismas.

Para el análisis de la varianza utilizaremos un los datos reales recogidos en cinco encuestas realizadas a visitantes de parques naturales situados en las provincias Córdoba y Jaén en 200113_{. En esta base de datos (a efectos prácticos, el lector puede}

trabajar con la submuestra de 50 casos que aparece en el Anejo 3) podemos encontrar las siguientes variables:

Tabla 5.2. Variables de la encuesta sobre la disposición a pagar por la visita a un parque

Nombre Descripción de la variable

DAP Disposición a pagar por la visita al parque (euros) PArqUE Código identificativo del parque natural (de 1 a 5) DIsTANCIA Distancia recorrida hasta llegar al parque (km) PrIMErA Primera vez que visita el parque (sí=1; No=0) N_vECEs Número de veces que visita el parque al año EsTUDIos Nivel de estudios (Min=1; Max=4)

EDAD Edad del encuestado (Min=1; Max=6) INGrEsos Nivel de ingresos familiares (Min=1; Max=4) sEXo sexo del encuestado (hombre=1; Mujer=2)

Imaginemos que queremos estudiar si existe o no relación entre la cantidad que el encuestado está dispuesto a pagar por entrar al parque (DAP) y el parque visitado (PArqUE). En este caso, DAP es la variable dependiente, la que queremos explicar, mientras PArqUE es la variable de grupo o factor. No confundir el número de factores con el número de categorías del factor. En este ejemplo tenemos un único factor (variable PArqUE) con cinco categorías (hay cinco parques).

Analyses → Analyses of Variance → One, Two or Three Way ANOVA → Dependent

Variable: Dap; Factor 1 Variable: Parque.

Capítulo 5. Análisis bivariante

ONE WAY ANALYSIS OF VARIANCE RESULTS

Dependent variable is: DAP, Independent variable is: PARQUE

--- SOURCE D.F. SS MS F PROB.>F OMEGA SQR. --- BETWEEN 4 117.13 29.28 21.71 0.00 0.29

WITHIN 195 262.99 1.35 TOTAL 199 380.12

--- MEANS AND VARIABILITY OF THE DEPENDENT VARIABLE FOR LEVELS OF THE INDEPENDENT VARIABLE

--- GROUP MEAN VARIANCE STD.

DEV. N --- 1 1.09 2.15 1.47 38 2 3.11 2.75 1.66 24 3 1.40 1.44 1.20 40 4 0.86 1.02 1.01 48 5 0.53 0.33 0.57 50 --- TOTAL 1.20 1.91 1.38 200 --- TESTS FOR HOMOGENEITY OF VARIANCE

--- Hartley Fmax test statistic = 8.40 with deg.s freem: 5 and 49.

Cochran C statistic = 0.36 with deg.s freem: 5 and 49.

Bartlett Chi-square = 45.83 with 4 D.F. Prob. > Chi-Square = 0.000

--- La columna ss indica la suma de las desviaciones al cuadrado de la media de cada grupo respecto a la media total (SSBETWEEN) y las desviaciones al cuadrado de cada dato

respecto a la media de su grupo (SSWITHIN). El estadístico F se calcula como sigue:

F=(ss_BETWEEN/ df) / (ss_WITHIN / df) =(117,13 / 4) / (262,99 / 195) =21,71 o lo que es lo mismo, F=MsBETWEEN / MsWITHIN =29,28 / 1,35 =21,71

La probabilidad de obtener un valor mayor que 21,71 en una distribución F con estos grados de libertad es de 0,00, por lo que rechazamos la hipótesis nula de no efecto de la variable de grupo sobre la variable dependiente, o lo que es equivalente, aceptamos que el PARQUE sí influye en la DAP.

El estadístico OMEGA SQR. Indica el grado de relación entre ambas variables (de interpretación similar a un coeficiente de correlación). varía entre 0 (totalmente independientes) y 1 (totalmente dependientes). En este caso el valor 0,29, sugiere una clara relación entre DAP y PARQUE.

A continuación tenemos la media de la variable DAP para cada parque. Como puede observarse, con medias tan dispares (desde 3,11 euros hasta 0,53 euros) era probable que el análisis de la varianza revelara diferencias significativas.

Finalmente se presenta una prueba de homogeneidad de la varianza en cada grupo. Puede ocurrir que las medias sean diferentes pero con el mismo grado de dispersión de los datos. En este caso, el estadístico de Hartley F tiene un valor de 8,40. Este

estadístico, bajo la hipótesis nula de homogeneidad de la varianza, se distribuye como una F5,49, para saber el valor crítico de esta distribución computamos:

Simulation _→ F-Distribution Plot _→ Enter the Type I Error Rate: 0.0514_{; Enter the} numerator degrees of Freedom: 5; Enter the denominator degrees of Freedom: 49. si comparamos el resultado tabulado de F5, 49 0,05 =2,40 con el obtenido

Hartley F =8,40, rechazamos la hipótesis nula de homogeneidad de la varianza, por lo que estamos incumpliendo uno de los requisitos de la prueba.

De igual manera, sin necesidad de obtener el valor crítico de la distribución F, podemos utilizar el estadístico de Bartlett Chi-square que nos proporciona os4 junto con la probabilidad asociada al valor. En este caso el estadístico alcanza un valor igual a 45,83 lo cual implica una probabilidad asociada igual a 0,000, inferior a 0,05 por lo que rechazamos la hipótesis nula de homogeneidad de la varianza.

¿Es grave esta violación? Fijándonos en el número de casos de cada categoría vemos que la diferencia entre el grupo menor (parque número 2 con 24 casos) y el mayor (parque número 5 con 50 casos) sí es lo suficientemente amplia para no pasar por alto este incumplimiento. Ante este problema debemos abandonar el análisis de la varianza mediante ANovA y utilizar la prueba no paramétrica de Kruskal-Wallis.

Prueba no paramétrica Kruskal-Wallis

Esta prueba no paramétrica de análisis de la varianza se puede utilizar cuando incumplimos el requisito de igualdad de la varianza entre grupos (homocedasticidad) y el número de casos de cada grupo está muy desequilibrado. siguiendo con el ejemplo anterior tenemos:

Analyses → Nonparametric → Kruskal Wallace One-Way ANOVA → Treatment group

codes: Parque; The dependent variable: Dap.

Kruskal - Wallis One-Way Analysis of Variance Score Rank Group

0.00 40.00 3 ...

6.01 200.00 1 Sum of Ranks in each Group

Group Sum No. in Group

1 3526 38

2 3923 24

3 4601 40

4 4238 48

5 3811 50

No. of tied rank groups = 9

Statistic H uncorrected for ties =42.5480 Correction for Ties =0.9299

Statistic H corrected for ties =45.7558

Capítulo 5. Análisis bivariante

La hipótesis nula de igualdad de las cinco distribuciones (una por cada parque), y por tanto no influencia del factor sobre la variable dependiente, es rechazada ya que tiene una probabilidad igual a 0,0000 (inferior a 0,05). Así, habiendo determinado un efecto estadísticamente significativo de la variable PArqUE sobre la variable dependiente DAP procedemos a identificar qué parques son los responsables del mismo. Para ello obtenemos el valor medio de la variable DAP en cada parque:

Analyses _→ Descriptive _→ Breakdown _→ Categorical Variables Selected: Parque;

Continuous Variable to Break Down: Dap.

BREAKDOWN ANALYSIS PROGRAM PARQUE level = 1

Freq. Mean Std. Dev. 38 1.087 1.467 PARQUE level = 2

Freq. Mean Std. Dev.

24 3.108 1.660

PARQUE level = 3

Freq. Mean Std. Dev. 40 1.405 1.200 PARQUE level = 4

Freq. Mean Std. Dev. 48 0.864 1.008 PARQUE level = 5

Freq. Mean Std. Dev. 50 0.534 0.573

Number of observations accross levels =200 Mean accross levels = 1.201

Std. Dev. accross levels = 1.382

De acuerdo con las medias de los cinco parques vemos que existe uno, el parque 2, con una media muy superior al resto (3,1 euros frente a una media global de 1,2). sería interesante aislar el efecto de este parque, el Parque Nacional de segura, Cazorla y las villas para ser más precisos, del resto. Para ello crearemos una nueva variable, CAzorLA, que tomará el valor 1 para el visitante de este parque y el valor 0 para el visitante del resto de parques. situándonos en la columna de la variable PArqUE:

Variables → Recode; Into a new column, (para crear otra variable en otra columna);

New Name: CAZORLA,; New value: Value: 1,; Old value: Value: 2, (el valor 2 en la variable PArqUE se convierte en 1 en la nueva variable CAzorLA)→ Apply.

Figura 5.6. Creación de la variable Cazorla. Paso 1

La nueva columna, CAzorLA, sólo tiene el valor 1 en el parque de Cazorla. Para asignar el 0 al resto de parques nos situamos en cualquier celda de la nueva columna:

Variables → Recode; Into the same column; New value:Value:0, Old value:Blanks

→ Apply.

Capítulo 5. Análisis bivariante

y obtenemos el fichero con la nueva variable CAzorLA. Para comprobar el efecto neto de este nueva variable podemos repetir el análisis de la varianza:

Analyses _→ Nonparametric _→ Kruskal Wallace One-Way ANOVA _→ Treatment group

codes: Cazorla; The dependent variable: Dap.

Kruskal - Wallis One-Way Analysis of Variance Score Rank Group

0.00 40.00 1 0.00 40.00 1

...

6.01 197.50 2 6.01 200.00 1 Sum of Ranks in each Group

Group Sum No. in Group 0 16176.50 176 1 3923.50 24 Statistic H corrected for ties =34.7252

Corrected H is approx. chi-square with 1 D.F. and probability =0.0000 En este caso, como era de esperar, la probabilidad de que la variable CAzorLA no tenga ninguna influencia en la variable DAP es cero (0,0000).

In document guia_practica_de_analisis_de_datos.pdf (página 71-77)