Kruskal Wallis para la comparación de más de dos medianas independientes

Emplea rangos para contrastar la hipótesis de que k muestras han sido obtenidas de una misma población.

A diferencia del ANOVA, en el que se comparan medias, el test de Kruskal- Wallis contrasta si las diferentes muestras están equidistribuidas y que, por lo tanto, pertenecen a una misma distribución (población). Bajo ciertas simplificaciones puede considerarse que el test de Kruskal-Wallis compara las medianas.

La hipótesis nula es que todas las muestras provienen de la misma población (distribución). La hipótesis alternativa es que al menos una muestra proviene de una población con una distribución distinta.

#Prueba de Kruskal-Wallis

kruskal.test(t_enf ~ nihus, data = granda)

## Kruskal-Wallis rank sum test

## data: t_enf by nihus

## Kruskal-Wallis chi-squared = 20.61, df = 3, p-value = 0.0001269

#diagrama de caja para verificar la distribucion

#de los datos

ggplot(granda, aes(x = nihus, y = t_enf, col = nihus)) + geom_boxplot(outlier.shape = NA) + geom_jitter(width = 0.2) + theme(legend.position=”top”) + labs (y= “Tiempo de la enfermedad”, x=”Nyhus”)

Como el valor de p obtenido de la prueba de Kruskal-Wallis es significativo (20.61, p < 0.05), concluimos que existen diferencias significativas en el tiempo de la enfermedad entre los tipos de Nyhus debido a que se rechaza la hipótesis nula que establece que no hay diferencias significativas entre los tipos de Nyhus en términos de la variable de interés.

Sin embargo, esta conclusión no comprueba directamente la hipótesis alternativa que establece que al menos un tipo de Nyhus es significativamente dife- rente de los demás en términos del tiempo de la enfermedad, ya que la prueba de Kruskal-Wallis solo nos dice que hay diferencias significativas en el tiempo de la enfermedad entre los grupos, pero no nos dice específicamente qué grupos son diferentes entre sí.

Resumen del capítulo

Para analizar la asociación entre dos variables podemos optar por diferentes pruebas estadísticas. Como una primera alternativa, podemos analizar la asociación entre dos variables calculando su nivel de correlación. Entre las diferentes alternati- vas que existen, es importante conocer las fortalezas y limitaciones de las tres más utilizadas: Pearson, Spearman y Kendall. Si bien la correlación de Pearson es una de las más utilizadas, es importante conocer los otros dos métodos de correlación para seleccionar el que mejor se ajusta a nuestros datos. En segunda instancia, para analizar la magnitud de asociación entre dos variables podemos utilizar una prueba de hipótesis estadística. Entre las muchas descritas en la literatura, es altamente reco- mendable conocer las fortalezas y limitaciones de las pruebas de hipótesis más utilizadas. Estas pruebas incluyen las de chi cuadrado, exacta de Fisher, t de Student, ANOVA, Man Whitney, Wilcoxon, Mac Nemar y Kruskal Wallis. Y para seleccionar la prueba de hipótesis idónea para cada comparación, debemos conocer a priori la distribución de nuestras variables, si las muestras son independientes o no, así como el número de muestras de nuestra investigación. Finalmente, es importante reconocer que todo análisis bivariado, independientemente de si resulta significativo o no, debe ser complementado con un análisis multivariado a fin de controlar potenciales sesgos de confusión.

A N Á L I S I S D E R E G R E S I Ó N

Este capítulo es exclusivamente teórico y será de gran utilidad para avanzar y comprender mejor los siguientes capítulos. En primer lugar, se explica qué es un aná- lisis de regresión y la importancia de la regresión multivariable para controlar los sesgos de confusión. Luego, se presentan los modelos lineales generalizados y sus funciones de enlace y de soporte en R. Posteriormente, se presentan los análisis de regresión simple y múltiple y los métodos forward y stepwise. Por último, y como paso final de un análisis de regresión multivariado, se presentan supuestos post regresión.

Objetivos de aprendizaje

Después de finalizar este capítulo deberías ser capaz de:

• Comprender la importancia del análisis de regresión en el control de sesgo de confusión.

• Conocer los modelos lineales generalizados y las funciones para su aplicación en R.

• Comprender los métodos de regresión multivariable y las diferentes formas de comparar los modelos.

• Conocer los principales supuestos para un análisis post regresión.

Análisis de regresión

El análisis de regresión es una herramienta estadística que busca predecir el compor- tamiento de la variable dependiente (denominada también de resultado o desenlace) en función de una o más variables independientes (denominadas también predicto- ras o de exposición) de un conjunto de datos. La forma en que se realiza un análisis de regresión dependerá del tipo de datos de la variable dependiente; por ejemplo, si la variable es continua (como la edad) se realiza una regresión lineal, pero si es una

secundaria”) o de tiempo hasta el evento (como el tiempo hasta la muerte) se apli- carían una regresión logística y una regresión de Cox, respectivamente.

Es importante tener en cuenta que la regresión de Cox y la regresión lineal comparten algunas similitudes, ya que ambas se usan para variables continuas. Sin embargo, la principal diferencia es que la regresión de Cox se enfoca en modelar la tasa de riesgo o fracaso, es decir, un análisis de supervivencia, mientras que la regresión lineal se utiliza para variables continuas más generales. En la regresión de Cox, se estima la función de riesgo instantáneo, que indica cómo cambia la tasa de fracaso a lo largo del tiempo. En cambio, la regresión lineal se enfoca en estimar la relación entre la variable dependiente y las variables explicativas.

Sin embargo, realizar este tipo de análisis complejo podría desembocar en conclusiones falsas si no se lo lleva a cabo de manera correcta. Por ello, se deben tener en cuenta ciertos parámetros, como la elección adecuada de las variables explicativas, la inclusión de interacciones relevantes, la validación del modelo y la compro- bación de supuestos clave. Realizar un análisis de regresión de manera incorrecta puede conducir a conclusiones falsas y a errores de interpretación. Por ejemplo, el

In document Análisis estadístico con R (página 171-176)