Análisis estadístico con R

Este es el segundo libro de una trilogía de libros de texto del Club de Redacción de Artículos Científicos, que tiene como objetivo diseñar una intervención estructural para eliminar el acceso desigual a los recursos académicos que afecta a los jóvenes investigadores en el Perú. En este segundo aprenderás los conceptos básicos del análisis estadístico con R. Y en el tercero, los conceptos básicos de epidemiología clínica y de campo.

Qué es R?

Como proyecto de código abierto, R se centra en R Core, un grupo de unos veinte desarrolladores que mantienen el lenguaje y guían su evolución y cuentan con el apoyo de la Fundación R, una organización sin fines de lucro de sostenibilidad. Estas novedades, junto con las nuevas versiones de R y la documentación y manuales que las acompañan, se recogen en Comprehensive R Archive Network (CRAN), la red que aloja el archivo integral o integral de R (puedes encontrarlo en https:http ://cran.r-project.org/).

Por qué instalar RStudio?

Instalación de R y RStudio

En la parte superior de la página verás opciones para descargar R, ya sea para Linux, macOS o Windows. Seleccione el sistema operativo apropiado y descargue el archivo que aparece en la parte superior de la página.

Conociendo nuestro entorno de trabajo en RStudio

Este panel en la esquina superior derecha muestra los nombres de los objetos de datos que está creando (vectores, matrices y marcos de datos). También puedes encontrar la pestaña "Historial", que almacena el historial de todos los comandos ejecutados en la consola.

Ejecución de códigos

Qué es una variable?

Tipos de datos

En el siguiente ejemplo, agregamos una fecha y la almacenamos en el objeto de fecha (para objetos, funciones y argumentos, daremos detalles más adelante). Esta fecha no tiene el formato predeterminado, por lo que nos basaremos en la tabla que se muestra anteriormente.

Existe una diferencia entre las variables y los objetos?

El objeto es el concepto principal en el que se basa la programación orientada a objetos (POO) que caracteriza a un lenguaje como R. El objeto más común es el conjunto de datos representados como una matriz de filas y columnas.

Operador de asignación: <-

La flecha de tarea también se puede utilizar para señalar hacia la derecha, pero generalmente no se utiliza de esa manera.

Operador de encadenamiento: %>%

Otros operadores

Funciones útiles

Argumentos de la función

El carácter # también se puede utilizar para evitar que se ejecute una línea de código (al detectar el carácter #, R asume que lo que viene no es ejecutable). R solo admite código de una sola línea, por lo que si desea agregar varios comentarios, deberá usar # para cada uno.

Paquetes predeterminados

Instalar paquetes de descarga

Carga de paquetes

Configuración del directorio de trabajo

Podemos usar la función list.files() para inspeccionar los nombres de archivos dentro del directorio. Antes de la función ponemos la palabra length (longitud en inglés), R nos muestra el número total de archivos que tenemos.

Importar desde SPSS

Una vez establecida la biblioteca de trabajo, el siguiente paso para realizar cualquier tipo de análisis es importar los datos que necesitamos analizar. Para descargar todas las bases de datos que se utilizarán en este primer capítulo, ingrese a Database Cap1.

Importar desde Stata

Importar archivo CSV

Importar desde Excel

Importar desde un sitio web

Mantén un registro de su código

Cargar al inicio todos los paquetes a utilizar

Códigos cortos y segregados

Los componentes más importantes del programa R son los objetos y las funciones, que almacenan y manipulan datos, respectivamente. Las funciones contenidas en los paquetes permiten ejecutar los comandos y proporcionar los resultados esperados.

Instalación

Carga

Podemos construir una matriz de datos simple de dos maneras: creando variables y asignándoles datos para eventualmente fusionarlos en un marco de datos, o usando la función tribble del paquete dplyr.

Primera opción

Como puede ver, en nuestro segundo conjunto de datos, el segundo valor de la variable "Altura" es NA. Este valor se incluye en las bases de datos cuando nos falta un valor para un caso determinado (significa "no aplicable", "no disponible" o "no hay respuesta").

Segunda opción

Dimensión de nuestra base de datos (columnas y filas)

Estructura y tipo de datos

Lectura instantánea de datos

Diagnóstico

Si queremos observar en qué fila y columna se encuentran los datos faltantes, utilizamos corchetes y un signo de exclamación, lo que nos permite obtener la respuesta negativa inversa de la función complete.cases(), o en otras palabras solo valores incompletos. .

Limpieza de datos

Para evitar la eliminación arbitraria de datos faltantes, se recomienda realizar un análisis de sensibilidad previamente. Este es un método que permite analizar un conjunto de datos para evaluar si cambiar algunas de las suposiciones realizadas conduce a diferentes interpretaciones o conclusiones finales.

Ordenar datos

Renombrar variables

Unir datos

Observamos que las variables “peso” y “altura” se encuentran en una única base de datos unidas por la variable común “nombre”.

Crear nuevas variables

La columna recién creada aparece al final de la base de datos de forma predeterminada, pero si queremos agregarla antes de una columna en particular, agregamos el argumento .before. En este caso, queremos que "IMC" se coloque antes de "peso". columna. De manera similar, si queremos agregar la nueva columna después de una determinada variable, en lugar de .before, ponemos .after.

Convertir variables

Manejo de fechas

Lo siguiente que haremos será fusionar las dos bases de datos y almacenar el resultado en un nuevo objeto llamado new_data. Notamos que la variable "anio" tiene datos de caracteres, por lo que la convertimos a datos numéricos.

Selección de variables

Filtrar un subconjunto de datos

Exportar a CSV

Exportar a Excel

Carga de archivos

Diagnóstico de datos

Manejo de datos

Solo almacenamos instancias completas de la base de datos fallecido_sinadef en la misma base de datos. Estas variables se crearán con referencia a la variable "FECHA" de nuestra base de datos de fallecidos filtrada, es decir, la función convertirá los datos de la variable "FECHA" a días, semanas y año epidemiológico.

Categórico

Esto último lo hacemos con la función escala_y_continua y el argumento etiquetas=. título = “Distribución de diamantes según su claridad”) + escala_y_continua(etiquetas = coma). Usando la función de reordenamiento del paquete dplyr, podemos hacer que R cambie el orden de los elementos de un marco de datos.

Numéricos

Densidad

El gráfico de puntos es una alternativa al histograma, solo que en lugar de barras cada observación o fila está representada por un punto. El diagrama de caja también muestra la distribución de datos numéricos, pero lo hace resumiendo cinco números: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.

Categórico vs categórico

El gráfico de barras agrupadas coloca las variables categóricas una al lado de la otra. Este tipo de gráfico facilita la comparación entre todas las combinaciones de las variables "color" y "corte".

Cuantitativo vs cuantitativo

De manera similar, con ylim definimos la escala del eje y para que tenga la misma presentación que el gráfico anterior. A diferencia de los gráficos de dispersión que pueden ayudarnos a conocer el grado de correlación entre dos variables a través de la distribución de puntos, el gráfico de líneas nos muestra tendencias y patrones.

Categórico vs cuantitativo

Como mencionamos en la sección anterior, los diagramas de caja nos brindan resúmenes de la distribución de los datos. Agregamos otra variable usando el tamaño en puntos para representar la variable "tabla".

Frecuencia absoluta

Frecuencia relativa (porcentaje)

Media

Mediana

Las medidas de tendencia central nos muestran un valor representativo de un conjunto de datos.

Moda

Desviación estándar

Rango intercuartílico

Varianza

Rango

Error estándar

Cuantiles

Percentil

Resumen estadístico

Análisis gráfico de normalidad

Análisis estadístico de normalidad

El valor p es 0,0391, por lo tanto la distancia de frenado no tiene una distribución paramétrica. El valor p es 0,04179, por lo tanto la distancia de frenado no tiene una distribución normal.

Según diseño de estudio

Con esta base de datos calcularemos las medidas de asociación propias de los diseños de encuestas transversales. Primero, exploraremos y manipularemos la base de datos de tal manera que se pueda crear una tabla eventual, o una tabla de 2x2.

Cargar data

La base de datos consta de 30 variables que muestran información sobre pacientes sometidos a cirugía para tratar hernias inguinales. La función glimpse() de la biblioteca dplyr nos proporciona una descripción general concisa y detallada del marco de datos, lo cual es especialmente útil cuando se trabaja con conjuntos de datos grandes y complejos.

Configuración de la base de datos

Calcule el promedio de la columna 'edad', sin especificar el nombre del marco de datos. Calcule la desviación estándar de la columna "peso", sin especificar el nombre del marco de datos.

Índice de correlación de Pearson

Índice de correlación de Spearman

Índice de correlación de Kendall

Comparación de correlaciones

Entonces, cuando usamos View(granda.Rank.1), R nos muestra una nueva base de datos con 31 variables porque se incluye una nueva variable llamada "peso". Nuevamente, creamos una nueva variable "tamaño.Rango" en la que cada observación se clasifica según el orden en la distribución de la variable "tamaño" original.

T de Student para comparar medias independientes

Mann Whitney para comparación de medianas independientes

Chi cuadrado para comparación de proporciones independientes

Exacta de Fischer para comparación de proporciones independientes

Normalmente se utiliza en investigaciones donde la variable dependiente se mide antes y después de cambiar la variable independiente. Por ejemplo, si se examina el efecto de una intervención médica sobre la presión arterial de los pacientes, la variable dependiente es la presión arterial, que se mide antes y después de la intervención en una muestra de pacientes.

T de Student para comparar medias pareadas

La prueba estadística utilizada para comparar las dos muestras pareadas se centraría en evaluar si existe una diferencia significativa entre las mediciones de presión arterial antes y después de la intervención para evaluar la hipótesis de la investigación.

Wilcoxon para la comparación de medianas pareadas

El valor p es menor que alfa (nivel de significancia), por lo que podemos concluir que existe una diferencia significativa entre los dos conjuntos de datos emparejados.

McNemar para la comparación de proporciones pareadas

El valor p es menor que alfa, lo que significa que se rechaza la hipótesis nula y se concluye que el sexo sí influye en la obesidad, por lo que la proporción de hombres y mujeres es diferente de los sujetos que pasan de obesos a no obesos. Se puede interpretar que la proporción de hombres que pasan de obesos a no obesos es diferente de la proporción de mujeres que pasan de obesas a no obesas.

ANOVA para la comparación de más de dos medias independientes

Kruskal Wallis para la comparación de más de dos medianas independientes

Finalmente, y como paso final de un análisis de regresión multivariado, se presentan los supuestos post-regresión. Realizar un análisis de regresión incorrectamente puede llevar a conclusiones falsas y errores de interpretación.

Análisis de regresión como alternativa para controlar el sesgo de confusión

Es importante señalar que la regresión de Cox y la regresión lineal comparten algunas similitudes ya que ambas se utilizan para variables continuas. En cambio, la regresión lineal se centra en evaluar la relación entre la variable dependiente y las variables explicativas.

Modelos lineales generalizados (GLM)

Sin embargo, es importante señalar que la precisión se pierde cuando se ingresan más variables en un modelo multivariable. Supongamos que queremos ajustar un modelo de regresión logística para predecir si un estudiante

Regresión lineal simple

Regresión lineal multivariada con método forward

El valor de R2 ajustado se puede comparar antes y después de la inclusión de la variable. Si el valor F es mayor que el valor crítico, podemos concluir que el modelo es significativo.

Regresión lineal multivariada con método stepwise

Por ejemplo, en el caso de los datos de un automóvil, se pueden utilizar AIC y la estadística F para seleccionar el modelo óptimo. Supongamos que se instalan dos modelos, uno solo con la variable de desplazamiento y otro con la variable de desplazamiento y la variable de peso.

Análisis post regresión

Suponga que los residuos de la regresión lineal múltiple tienen una varianza constante en cada punto del modelo. Como se puede observar en la siguiente imagen, la recta de regresión nos permite predecir el valor de la variable dependiente Y a partir de la variable independiente X.