Este es el segundo libro de una trilogía de libros de texto del Club de Redacción de Artículos Científicos, que tiene como objetivo diseñar una intervención estructural para eliminar el acceso desigual a los recursos académicos que afecta a los jóvenes investigadores en el Perú. En este segundo aprenderás los conceptos básicos del análisis estadístico con R. Y en el tercero, los conceptos básicos de epidemiología clínica y de campo.
Qué es R?
Como proyecto de código abierto, R se centra en R Core, un grupo de unos veinte desarrolladores que mantienen el lenguaje y guían su evolución y cuentan con el apoyo de la Fundación R, una organización sin fines de lucro de sostenibilidad. Estas novedades, junto con las nuevas versiones de R y la documentación y manuales que las acompañan, se recogen en Comprehensive R Archive Network (CRAN), la red que aloja el archivo integral o integral de R (puedes encontrarlo en https:http ://cran.r-project.org/).
Por qué instalar RStudio?
Instalación de R y RStudio
En la parte superior de la página verás opciones para descargar R, ya sea para Linux, macOS o Windows. Seleccione el sistema operativo apropiado y descargue el archivo que aparece en la parte superior de la página.
Conociendo nuestro entorno de trabajo en RStudio
Este panel en la esquina superior derecha muestra los nombres de los objetos de datos que está creando (vectores, matrices y marcos de datos). También puedes encontrar la pestaña "Historial", que almacena el historial de todos los comandos ejecutados en la consola.
Ejecución de códigos
Qué es una variable?
Tipos de datos
En el siguiente ejemplo, agregamos una fecha y la almacenamos en el objeto de fecha (para objetos, funciones y argumentos, daremos detalles más adelante). Esta fecha no tiene el formato predeterminado, por lo que nos basaremos en la tabla que se muestra anteriormente.
Existe una diferencia entre las variables y los objetos?
El objeto es el concepto principal en el que se basa la programación orientada a objetos (POO) que caracteriza a un lenguaje como R. El objeto más común es el conjunto de datos representados como una matriz de filas y columnas.
Operador de asignación: <-
La flecha de tarea también se puede utilizar para señalar hacia la derecha, pero generalmente no se utiliza de esa manera.
Operador de encadenamiento: %>%
Otros operadores
Funciones útiles
Argumentos de la función
El carácter # también se puede utilizar para evitar que se ejecute una línea de código (al detectar el carácter #, R asume que lo que viene no es ejecutable). R solo admite código de una sola línea, por lo que si desea agregar varios comentarios, deberá usar # para cada uno.
Paquetes predeterminados
Instalar paquetes de descarga
Carga de paquetes
Configuración del directorio de trabajo
Podemos usar la función list.files() para inspeccionar los nombres de archivos dentro del directorio. Antes de la función ponemos la palabra length (longitud en inglés), R nos muestra el número total de archivos que tenemos.
Importar desde SPSS
Una vez establecida la biblioteca de trabajo, el siguiente paso para realizar cualquier tipo de análisis es importar los datos que necesitamos analizar. Para descargar todas las bases de datos que se utilizarán en este primer capítulo, ingrese a Database Cap1.
Importar desde Stata
Importar archivo CSV
Importar desde Excel
Importar desde un sitio web
Mantén un registro de su código
Cargar al inicio todos los paquetes a utilizar
Códigos cortos y segregados
Los componentes más importantes del programa R son los objetos y las funciones, que almacenan y manipulan datos, respectivamente. Las funciones contenidas en los paquetes permiten ejecutar los comandos y proporcionar los resultados esperados.
Instalación
Carga
Podemos construir una matriz de datos simple de dos maneras: creando variables y asignándoles datos para eventualmente fusionarlos en un marco de datos, o usando la función tribble del paquete dplyr.
Primera opción
Como puede ver, en nuestro segundo conjunto de datos, el segundo valor de la variable "Altura" es NA. Este valor se incluye en las bases de datos cuando nos falta un valor para un caso determinado (significa "no aplicable", "no disponible" o "no hay respuesta").
Segunda opción
Dimensión de nuestra base de datos (columnas y filas)
Estructura y tipo de datos
Lectura instantánea de datos
Diagnóstico
Si queremos observar en qué fila y columna se encuentran los datos faltantes, utilizamos corchetes y un signo de exclamación, lo que nos permite obtener la respuesta negativa inversa de la función complete.cases(), o en otras palabras solo valores incompletos. .
Limpieza de datos
Para evitar la eliminación arbitraria de datos faltantes, se recomienda realizar un análisis de sensibilidad previamente. Este es un método que permite analizar un conjunto de datos para evaluar si cambiar algunas de las suposiciones realizadas conduce a diferentes interpretaciones o conclusiones finales.
Ordenar datos
Renombrar variables
Unir datos
Observamos que las variables “peso” y “altura” se encuentran en una única base de datos unidas por la variable común “nombre”.
Crear nuevas variables
La columna recién creada aparece al final de la base de datos de forma predeterminada, pero si queremos agregarla antes de una columna en particular, agregamos el argumento .before. En este caso, queremos que "IMC" se coloque antes de "peso". columna. De manera similar, si queremos agregar la nueva columna después de una determinada variable, en lugar de .before, ponemos .after.
Convertir variables
Manejo de fechas
Lo siguiente que haremos será fusionar las dos bases de datos y almacenar el resultado en un nuevo objeto llamado new_data. Notamos que la variable "anio" tiene datos de caracteres, por lo que la convertimos a datos numéricos.
Selección de variables
Filtrar un subconjunto de datos
Exportar a CSV
Exportar a Excel
Carga de archivos
Diagnóstico de datos
Manejo de datos
Solo almacenamos instancias completas de la base de datos fallecido_sinadef en la misma base de datos. Estas variables se crearán con referencia a la variable "FECHA" de nuestra base de datos de fallecidos filtrada, es decir, la función convertirá los datos de la variable "FECHA" a días, semanas y año epidemiológico.
Categórico
Esto último lo hacemos con la función escala_y_continua y el argumento etiquetas=. título = “Distribución de diamantes según su claridad”) + escala_y_continua(etiquetas = coma). Usando la función de reordenamiento del paquete dplyr, podemos hacer que R cambie el orden de los elementos de un marco de datos.
Numéricos
Densidad
El gráfico de puntos es una alternativa al histograma, solo que en lugar de barras cada observación o fila está representada por un punto. El diagrama de caja también muestra la distribución de datos numéricos, pero lo hace resumiendo cinco números: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
Categórico vs categórico
El gráfico de barras agrupadas coloca las variables categóricas una al lado de la otra. Este tipo de gráfico facilita la comparación entre todas las combinaciones de las variables "color" y "corte".
Cuantitativo vs cuantitativo
De manera similar, con ylim definimos la escala del eje y para que tenga la misma presentación que el gráfico anterior. A diferencia de los gráficos de dispersión que pueden ayudarnos a conocer el grado de correlación entre dos variables a través de la distribución de puntos, el gráfico de líneas nos muestra tendencias y patrones.
Categórico vs cuantitativo
Como mencionamos en la sección anterior, los diagramas de caja nos brindan resúmenes de la distribución de los datos. Agregamos otra variable usando el tamaño en puntos para representar la variable "tabla".
Frecuencia absoluta
Frecuencia relativa (porcentaje)
Media
Mediana
Las medidas de tendencia central nos muestran un valor representativo de un conjunto de datos.
Moda
Desviación estándar
Rango intercuartílico
Varianza
Rango
Error estándar
Cuantiles
Percentil
Resumen estadístico
Análisis gráfico de normalidad
Análisis estadístico de normalidad
El valor p es 0,0391, por lo tanto la distancia de frenado no tiene una distribución paramétrica. El valor p es 0,04179, por lo tanto la distancia de frenado no tiene una distribución normal.
Según diseño de estudio
Con esta base de datos calcularemos las medidas de asociación propias de los diseños de encuestas transversales. Primero, exploraremos y manipularemos la base de datos de tal manera que se pueda crear una tabla eventual, o una tabla de 2x2.
Cargar data
La base de datos consta de 30 variables que muestran información sobre pacientes sometidos a cirugía para tratar hernias inguinales. La función glimpse() de la biblioteca dplyr nos proporciona una descripción general concisa y detallada del marco de datos, lo cual es especialmente útil cuando se trabaja con conjuntos de datos grandes y complejos.
Configuración de la base de datos
Calcule el promedio de la columna 'edad', sin especificar el nombre del marco de datos. Calcule la desviación estándar de la columna "peso", sin especificar el nombre del marco de datos.
Índice de correlación de Pearson
Índice de correlación de Spearman
Índice de correlación de Kendall
Comparación de correlaciones
Entonces, cuando usamos View(granda.Rank.1), R nos muestra una nueva base de datos con 31 variables porque se incluye una nueva variable llamada "peso". Nuevamente, creamos una nueva variable "tamaño.Rango" en la que cada observación se clasifica según el orden en la distribución de la variable "tamaño" original.
T de Student para comparar medias independientes
Mann Whitney para comparación de medianas independientes
Chi cuadrado para comparación de proporciones independientes
Exacta de Fischer para comparación de proporciones independientes
Normalmente se utiliza en investigaciones donde la variable dependiente se mide antes y después de cambiar la variable independiente. Por ejemplo, si se examina el efecto de una intervención médica sobre la presión arterial de los pacientes, la variable dependiente es la presión arterial, que se mide antes y después de la intervención en una muestra de pacientes.
T de Student para comparar medias pareadas
La prueba estadística utilizada para comparar las dos muestras pareadas se centraría en evaluar si existe una diferencia significativa entre las mediciones de presión arterial antes y después de la intervención para evaluar la hipótesis de la investigación.
Wilcoxon para la comparación de medianas pareadas
El valor p es menor que alfa (nivel de significancia), por lo que podemos concluir que existe una diferencia significativa entre los dos conjuntos de datos emparejados.
McNemar para la comparación de proporciones pareadas
El valor p es menor que alfa, lo que significa que se rechaza la hipótesis nula y se concluye que el sexo sí influye en la obesidad, por lo que la proporción de hombres y mujeres es diferente de los sujetos que pasan de obesos a no obesos. Se puede interpretar que la proporción de hombres que pasan de obesos a no obesos es diferente de la proporción de mujeres que pasan de obesas a no obesas.
ANOVA para la comparación de más de dos medias independientes
Kruskal Wallis para la comparación de más de dos medianas independientes
Finalmente, y como paso final de un análisis de regresión multivariado, se presentan los supuestos post-regresión. Realizar un análisis de regresión incorrectamente puede llevar a conclusiones falsas y errores de interpretación.
Análisis de regresión como alternativa para controlar el sesgo de confusión
Es importante señalar que la regresión de Cox y la regresión lineal comparten algunas similitudes ya que ambas se utilizan para variables continuas. En cambio, la regresión lineal se centra en evaluar la relación entre la variable dependiente y las variables explicativas.
Modelos lineales generalizados (GLM)
Sin embargo, es importante señalar que la precisión se pierde cuando se ingresan más variables en un modelo multivariable. Supongamos que queremos ajustar un modelo de regresión logística para predecir si un estudiante
Regresión lineal simple
Regresión lineal multivariada con método forward
El valor de R2 ajustado se puede comparar antes y después de la inclusión de la variable. Si el valor F es mayor que el valor crítico, podemos concluir que el modelo es significativo.
Regresión lineal multivariada con método stepwise
Por ejemplo, en el caso de los datos de un automóvil, se pueden utilizar AIC y la estadística F para seleccionar el modelo óptimo. Supongamos que se instalan dos modelos, uno solo con la variable de desplazamiento y otro con la variable de desplazamiento y la variable de peso.
Análisis post regresión
Suponga que los residuos de la regresión lineal múltiple tienen una varianza constante en cada punto del modelo. Como se puede observar en la siguiente imagen, la recta de regresión nos permite predecir el valor de la variable dependiente Y a partir de la variable independiente X.