CAPÍTULO 5. ANÁLISIS BIvARIANTE
5.5. ANáLIsIs DE CorrELACIóN
El objetivo de este análisis es cuantificar la relación entre dos variables métricas u ordinales. si bien un alto grado de correlación, medido por el coeficiente de correlación, puede sugerir una relación causa-efecto (por ejemplo dosis de fertilizantes y rendimiento de una parcela) lo contrario no es siempre cierto. Esto es debido a que el análisis de correlación mide el grado de relación lineal entre dos variables. Conviene además aclarar que un coeficiente de correlación alto no implica necesariamente una relación de causalidad, ya que dos variables independientes pueden moverse en la misma dirección por efecto de otra tercera sin ser una el resultado de la otra.
Para el análisis de correlación calculamos el coeficiente de Pearson (prueba paramétrica) y los coeficientes de spearman y Kendall tau15 (pruebas no paramétricas).
Estos coeficientes de correlación varían entre –1 (relación lineal negativa perfecta) y +1 (relación lineal positiva perfecta).
En la Figura 5.8. las dos variables son independientes por lo que el coeficiente de correlación es prácticamente 0. En la Figura 5.9 la relación es positiva y casi lineal por lo que el coeficiente de correlación alcanza un valor cercano al 1. Igualmente en la Figura 5.10 la relación es casi lineal pero negativa por lo que el valor se aproxima a –1. Finalmente en la Figura 5.11 el coeficiente de correlación es 0 pero, a diferencia de la Figura 5.8, las dos variables tienen una relación de dependencia perfecta (y=- x2
la independencia de dos variables por tener un coeficiente de correlación cercano a cero.
Figura 5.8 a 5.11. Ejemplos de correlación entre dos variables
0 2 4 6 8 10 12 0 10 20 30
Figura 5.8. Coeficiente de correlación=
0,018 0 50 100 150 200 0 10 20 30
Figura 5.9. Coeficiente de correlación=
0,996 0 10 20 30 40 50 60 70 0 5 10 15
Figura 5.10. Coeficiente de correlación=
-0,971 0 20 40 60 80 100 0 5 10 15 20
Figura 5.11. Coeficiente de correlación=
0,000
Para determinar el tipo de coeficiente de correlación que se debe utilizar en el análisis es necesario considerar el tipo de variable y el tamaño muestral. Esquemáticamente podemos indicar:
ordinal-ordinal
• Número de categorías de ambas ordinales 5 → Coeficiente de spearman. • Número de categorías de una o ambas < 5 → Coeficiente de Kendall tau16.
Métrica-métrica
• n (tamaño de la muestra) 100 → Coeficiente de Pearson. • n < 100 y distribución normal de ambas → Coeficiente de Pearson. • n < 100 y distribución no normal de al menos una → Coeficiente de spearman. Métrica-ordinal
• Número de categorías < 5 → Coeficiente de Kendall tau.
• Número de categorías 5 y n 100 → Coeficiente de Pearson. • Número de categorías 5 y n < 100 → Coeficiente de spearman.
Capítulo 5. Análisis bivariante
Coeficiente de correlación de Pearson
Consideremos las variables DAP (cantidad de dinero que el visitante está dispuesto a pagar por la entrada al parque) y DIsTANCIA (distancia recorrida para llegar al parque). El análisis de correlación se lleva a cabo mediante las instrucciones:
Analyses → Correlation → Product-Moment Correlations: Dap; Distancia.
Correlations Matrix Variables
DAP DISTANCIA DAP 1.000 0.765
DISTANCIA 0.765 1.000
Como indica el coeficiente de correlación de Pearson, existe una fuerte correlación positiva entre las variables. Parece lógico pensar que a medida que el visitante recorre más kilómetros para visitar el parque mayor será su disposición a pagar una entrada por su menor importancia relativa dentro de los costes totales en que incurre.
Coeficiente de correlación de Spearman
Utilizando de nuevo los datos sobre incidencia de infartos, procedemos a analizar la relación entre el peso del individuo y su edad. Teniendo en cuenta el tamaño de la muestra, 50 casos, el primer paso consiste en determinar si las variables siguen aproximadamente una distribución normal. Para ello basta con utilizar el comando de análisis de normalidad:
Analyses → Descriptive → Normality Tests → Test normality of: Peso→Apply.
repitiendo el mismo análisis con la variable EDAD, resumimos los resultados de las pruebas en la tabla siguiente:
Tabla 5.3. Pruebas de normalidad de las variables PESO y EDAD
variable Shapiro-Wilkes Lilliefors
W Probabilidad L Conclusión
PEso 0,97 0,244 0,084 No evidence against normality
EDAD 0,92 0,032 0,143 Strong evidence against normalit.
En el caso de la variable PEso tanto la prueba de shapiro-Wilkes (probabilidad inferior a 0,05) como la prueba de Lilliefors (No evidence against normality) sugieren que dicha variable sigue aproximadamente una distribución normal. sin embargo, con respecto a la variable EDAD llegamos a la conclusión contraria. Por tanto, siendo una de las variables métricas no normal procedemos a calcular el coeficiente de correlación de spearman:
…
Spearman Rank Correlation =0.034
t-test value for hypothesis r =0 is 0.237 Probability > t =0.8138
Como indica el coeficiente de correlación de spearman (r=0,034), prácticamente cero, no existe relación entre ambas variables. Esta afirmación se ve corroborada por la probabilidad de la hipótesis nula de la prueba, esto es, el coeficiente de correlación es cero, cuyo valor se sitúa en 0,8138. Como es habitual, una probabilidad del estadístico t superior a 0,05 implica la aceptación de la hipótesis nula, es decir, que ambas variables son independientes. resumiendo:
• Spearman Rank Correlation =indica el grado de correlación entre ambas variables, siendo mayor cuanto mayor es su valor absoluto (entre –1 y +1). • Probability > t =si es menor que 0,05 rechazamos h0, esto es, rechazamos
que el coeficiente de correlación sea cero y por tanto aceptamos que existe una relación estadísticamente significativa entre las variables.
Coeficiente de correlación de Kendall Tau
siguiendo con los mismos datos ¿existe alguna relación entre el grado de sedentarismo del individuo y su edad? En este caso, la variable ordinal EJErCICIo tiene cuatro categorías por lo que es apropiado utilizar el coeficiente de correlación Kendall Tau Analyses → Nonparametric → Kendall’s Rank Correlation Tau and Partial Tau → X
Variable: Ejercicio; Y Variable: Edad.
Kendall Tau for File: Cardio.OS4
Kendall Tau for variables Ejercicio and Edad Tau =-0.3334 z =3.416 probability > |z| =0.000
NOTE: Probabilities are for large N (>10)
El valor del estadístico de Tau indica una relación negativa entre la práctica de ejercicio y la edad, es decir, los individuos de mayor edad dedican menos horas a la semana al ejercicio físico. La hipótesis nula de esta prueba es que el coeficiente de correlación es igual a cero (es decir, que ambas variables son independientes). En nuestro ejemplo la probabilidad de esta hipótesis es 0,000, por tanto, al ser inferior a 0,05, nos hace rechazar la hipótesis nula.