Biblioteca/CRAI de la Universidad Pablo de Olavide
Tratamiento de datos de investigación
Enero 2022
Yusnelkis Milanés Guisado Ángel M. Delgado-Vázquez
Programa
• Módulo 1 Introducción a los datos Los datos en abierto
Variables. Tipología.
Errores a evitar en la gestión de los datos durante el proyecto.
• Módulo 2. Importación y limpieza de datos Plan de limpieza de datos
• Módulo 3. Análisis Exploratorio de Datos (AED).
Introducción al AED
Datos de encuestas
Estadística Descriptiva
Estadística inferencial
Biblioteca/CRAI de la Universidad Pablo de Olavide
Introducción a los datos.
Tipología y estructuras
Ciclo de vida de los datos científicos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Etapas generales de un proyecto de datos
El problema: aprendiendo a hacer preguntas a partir de los datos
Las preguntas guían las respuestas
Biblioteca/CRAI de la Universidad Pablo de Olavide
El problema: aprendiendo a hacer preguntas a partir de los datos
Básicamente se trabaja hacia atrás:
1: La lista de preguntas o afirmaciones basadas en datos que quieres presentar.
2: Decides qué variables y evidencias tendrás que obtener y analizar para hacer responder a esas preguntas o hacer esas afirmaciones.
3: Obtienes los datos de fuentes externas (ejemplos portales de datos, buscadores de datos en abierto, etc) o creas tu base de datos.
El problema: aprendiendo a hacer preguntas a partir de los datos
Ejemplo. Llega un investigador con una consulta sobre los patrones de crímenes en su país o ciudad.
En este caso podría interesar datos sobre:
• los horarios en que ocurren los crímenes,
• los tipos de crímenes,
• tipo de arma usado,
• las ciudades o zonas donde más ocurren, etc.
Necesita los datos (variables) que le permitan sacar cada una de esos patrones o preguntas de los datos:
• la fecha y el momento en que cada crimen fue informado,
• el tipo de crimen (asesinato, robo, asalto, etc.),
• tipo de arma usada (pistola, revolver, arma blanca, etc)
• la dirección de donde se dio el crimen.
Biblioteca/CRAI de la Universidad Pablo de Olavide
El problema: aprendiendo a hacer preguntas a partir de los datos
¿Tengo los datos completos para la pregunta que quiero responder ?
Tenerlo claro desde el comienzo.
Tipos de datos
“datos que son recolectados, observados o creados para ser analizados y producir
resultados de investigación originales”
• Numéricos, descriptivos o visuales.
• Encontrarse en estado bruto o analizado, pueden ser experimentales u observacionales.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de datos
Tipos de datos
• Textos: Cuestionarios, Transcripciones de entrevistas, Codebooks,
Metodologías, Flujos de trabajo, Procedimientos, Protocolos, Notebooks, Diarios de investigación, etc.
• Numéricos: Respuestas a encuestas, Registros médicos, Respuestas a tests, Hojas de Excel, instrumentos de medida, Info geoespacial, etc. (Stata, Spss, Excel, Gis)
• Multimedia: Imágenes, Audio recordings, Videos (jpeg, png, tiff, mp3, wav, mpeg, quicktime)
• Códigos: Fuentes de código, Algoritmos, Scripts (R, Python, Java, MATLAB)
• Sintáxis: Software-specific code files to carry out data processing steps (e.g. data preparation, linkage, statistical analysis, etc) (Stata, SPSS, R, MATLAB)
• Específico de una disciplina: Los tipos de datos pueden incluir: Flexible Image Transport System (FITS) [Astronomy]; Crystallographic Information File (CIF) [Chemistry];
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de datos
•Brutos
•Procesados
•Limpios
•Estadísticos
•Datos finales
Tipos de datos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de variables
https://towardsdatascience.com/statistical-testing-understanding-how-to-select-the-best-test-for-your-data-52141c305168
Estructura de los datos. Datos tabulares
Biblioteca/CRAI de la Universidad Pablo de Olavide
Estructura de los datos. Datos tabulares
Fuente: Desconocido.
Estructura de los datos. Datos tabulares
{
"marcadores": [ {
"latitude": 40.416875,
"longitude": -3.703308,
"city": "Madrid",
"description": "Puerta del Sol"
}, {
"latitude": 40.417438,
"longitude": -3.693363,
"city": "Madrid",
"description": "Paseo del Prado"
}, {
"latitude": 40.407015,
"longitude": -3.691163,
"city": "Madrid",
"description": "Estación de Atocha"
} ]
Biblioteca/CRAI de la Universidad Pablo de Olavide
Estructura de los datos. Ficheros CSV
Guía práctica para la publicación de datos tabulares en archivos CSV. https://datos.gob.es/sites/default/files/doc/file/guia_csv_vf.pdf
Estructura de los datos tabulares (CSV). Recomendaciones
Biblioteca/CRAI de la Universidad Pablo de Olavide
Fuentes de datos
Errores en Gestión de datos
If the data you need still exists;
If you found the data you need;
If you understand the data you found;
If you trust the data you understand;
If you can use the data you trust;
Someone did a good job of data management.
Rex Sanders ‐ USGS‐Santa Cruz
Biblioteca/CRAI de la Universidad Pablo de Olavide
Errores en Gestión de datos
Ya trabajamos con datos, ¿ para que tanta gestión ?
Error 1. Esperar hasta finalizar el proyecto para gestionar tus datos
🙁 Perder datos que no eras consciente que faltaban, incompletos o corruptos.
🙁 Pierdes la oportunidad de revisar y corregir los instrumentos para recoger datos con mejor calidad
🙁 Imposibilidad de acceder a los datos que necesitas
🙁 Pierdes tiempo y usas de manera
subóptima tus recursos.
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Comienza aquí
NO aquí 1. Un Plan de Gestión de Datos (PGD) debe ser tu aliado desde el
inicio de la propuesta.
Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk
ERROR 2
2. No usar guías de nomenclatura y organización de ficheros y variables.
Q1 q14_a q14_b Q15 Q16Ope
n
1 1 m 10 3
2 5 f 11 2
4 13 f 8 1
5 22 m 15 4
Misdatos.xls
Misdatosbuenos.xls 2001_data.xls
Version_buena.xls
Dataaltmetricsterminado.xls
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Guías de estilo:
✔ Estructura de directorios
✔ Nomenclatura de ficheros (incluyendo versionado)
✔ Nomenclatura de variables
✔ Codificación de los valores de tus variables
✔ Codificación de los valores ausentes (Missing values)
Te permitirá:
✔ Mejorar la búsqueda
✔ Una fácil interpretación
✔ Mejorar la reproducibilidad
✔ Estandarizar
Las guías de estilo, nomenclaturas y estructura de los directorios, inclúyelo en la documentación de los datos.
Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk
ERROR 3
No documentarlo todo
Biblioteca/CRAI de la Universidad Pablo de Olavide
ERROR 3
No documentarlo todo
🙁 NO REPRODUCIBILIDAD
🙁 REDUCE SEGURIDAD DE LOS DATOS
🙁 BAJA CALIDAD EN LOS DATOS
🙁 COSTES
🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN
Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk
! Solución !
Documéntalo TODO
A nivel de proyecto: PROTOCOLO
✔ Reclutamiento
✔ Criterios de inclusión/exclusión
✔ Recolección de los datos / Procedimientos
✔ Procedimientos tratamiento de los datos
✔ Seguridad de los datos
✔ Control de la calidad
✔ Anonimización de los datos
Te permitirá:
✔ Reproducir en menos tiempo
✔ Calidad y fiabilidad de los datos y procedimientos
✔ Mejorar la reproducibilidad
✔ Estandarizar
Biblioteca/CRAI de la Universidad Pablo de Olavide
Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk
! Solución !
Documéntalo TODO
¿Cómo documentarlo?
✔ Diccionario de datos
✔ Fichero Readme.txt
✔ Libro de código de variables
✔ Guías de usuario
✔ Software syntax
✔ Cuadernos de laboratorio
No dejes los datos huérfanos. Acompáñalos para que se
comprendan en su contexto.
! Solución !
Documéntalo TODO
También todos los pasos que vas dando
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Documéntalo TODO
Usa metadatos incrustados
• Metadatos incrustados
• Metadatos que acompañan al dataset
(Fichero Readme.txt, diccionario de variables, etc)
ERROR 4
No crear un diccionario de datos antes de recoger los datos
NO TIENES LAS VARIABLES ESTANDARIZADAS
REDUCE DRÁSTICAMENTE LA CALIDAD DE LOS DATOS
🙁 COSTES
🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN
🙁
🙁
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Antes de comenzar a recoger los datos, crea un DICCIONARIO DE DATOS Ayuda a entender las variables. Tanto las “raw” como las calculadas
después.
! Solución !
Antes de comenzar a recoger los datos, crea un DICCIONARIO DE DATOS
Campos a tener en cuenta en un diccionario de datos
✔ Elemento identificador de la tabla (por sí tienes datos en varias tablas)
✔ Nombres de las variables
✔ Definición de cada variable (cómo se entiende en tu estudio)
✔Tipo de datos
✔ Longitud del campo
✔ ¿Campo requerido? y/n
✔ ¿Valores nulos? Codificación
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Crear un diccionario de datos antes de recoger los datos
Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk
UNA GUÍA PARA RECOGER LOS DATOS
- nombre de variables, códigos, ej: 0 = Hombre; 1 = Mujer AYUDA A LA LIMPIEZA Y CALIDAD DE LOS DATOS
- guía para renombrar variables, valores ausentes, recodificar, etiquetado, cálculos, etc
CONSISTENCIA
SEGUIMIENTO DE ESTÁNDARES EN UN CAMPO CIENTÍFICO AYUDA EN LA VALIDACIÓN DE LOS DATOS
- Chequear números de columnas
- Chequear que el rango de variables y tipos sea correcto.
ERROR 5
Trabajar sobre el fichero original
! Solución !
Crea una carpeta con una copia del Data Raw
No modifiques tu dataset original
Biblioteca/CRAI de la Universidad Pablo de Olavide
ERROR 6
No trabajar con datos tidy o “long”
SI LOS DATOS CRECEN HORIZONTALMENTE,
REDUCE DRÁSTICAMENTE LA REPRODUCIBILIDAD DE LOS DATOS
🙁 COSTES
🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN
🙁
🙁
! Solución !
Trabajar con datos tidy o “long” o mantener ambas
versiones
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Trabajar con datos tidy (“long”) o mantener ambas
versiones
ERROR 7
No proyectar tu proyecto de datos de forma reproducible desde el inicio
🙁 PÉRDIDA DE TIEMPO
🙁 REDUCE LA CALIDAD. SESGO DE ERRORES
🙁 COSTES
🙁 REPUTACIÓN
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Publicación + Código + datos ejecutables
Fuente: Desconocido.
ERROR 8
Asumir una exactitud en los datos
🙁 VALORES AUSENTES
🙁 DUPLICADOS
🙁 DATOS CONTAMINADOS
🙁 NO EXTRAPOLABLES
🙁 VALORES NO ESPERADOS
Los datos vienen sucios
Créditos: Desconocido.
Biblioteca/CRAI de la Universidad Pablo de Olavide
! Solución !
Diseña la gestión de la calidad de tus datos desde el comienzo
Plan limpieza de datos
1. Revisa filas y columnas (#, formato, etc) 2. Remueve casos duplicados
3. Separa columnas que fusionan más de una variable
4. De-identifica datos: elimina nombres, datos personales, etc.
5. Renombra variables acorde al diccionario 6. Revisa tipo de variables y corrige
7. Chequea los códigos de las variables. Agrega a diccionario de datos
8. Valores ausentes?: Decide cómo tratarlos. Analiza su distribución
9. Valores extremos ? Decide cómo tratarlos. ¿Son influyentes?
10. Documenta todos los cambios
Más en: https://cghlewis.github.io/mpsi-data-training/training_4.html
Limpieza y
transformación de datos.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Limpieza y transformación de datos.
Los datos tienen calidad cuando:
• Se usan según el contexto.
• Son Útiles
• Fáciles de entender y representar. Bien descritos !
• Sobre todo, CORRECTOS.
• Re-utilizables
• Deben permitir la REPRODUCIBILIDAD de la investigación
Motivos de errores en los datos
• Datos de entrada (Humanos)
• Datos externos
• Errores arrastrados o de carga de otros sistemas (migraciones)
• Errores en la codificación del sistema de variables
• Sesgos en el diseño de encuestas
• Errores en la integridad de los datos al transcribir entrevistas o cuestionarios
• Falta de normalización de los datos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Evita errores con la planificación
Antes de la recolección de los datos
• Define y refuerza estándares
• Formatos
• Códigos
• Unidades de medida
• Metadatos adecuados
• Asigna responsabilidades
Evita errores con la planificación
Durante la recolección de los datos
• Minimiza la entrada manual de los datos
• Usa programas de texto hablado
• Utiliza la validación de los datos
• Documenta todos los cambios (Ficheros Readme.txt)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Evita errores con la planificación
Durante la recolección de los datos
• Minimiza la entrada manual de los datos
• Usa programas de texto hablado
• Utiliza la validación de los datos
• Documenta todos los cambios (Ficheros Readme.txt)
Evita errores con la planificación
Después de la recolección de los datos
• Chequea existencia de Valores Missing, imposibles, anómalos (Usa la visualización exploratoria)
• Desarrolla resúmenes estadísticos descriptivos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Fases generales
1) Determinar los errores en los datos 2) Eliminar la suciedad
3) Análisis de correspondencia con la documentación de los datos (Diccionario de datos, Cuestionario; Guía del usuario, etc)
4) Reporte. Documenta los cambios
¿Cómo identificar los errores en nuestros datos?
• 1) Verificación manual
• 2) Análisis estadístico
2.1 ) Análisis exploratorio de datos
2.2.) Visualización exploratoria de datos
3) Análisis de correspondencia con la documentación de los datos (Diccionario de datos, Cuestionario; Guía del
usuario, etc)
Biblioteca/CRAI de la Universidad Pablo de Olavide Plan limpieza de datos
1. Revisa filas y columnas (#, formato, etc) 2. Remueve casos duplicados
3. Separa columnas que fusionan más de una variable
4. De-identifica datos: elimina nombres, datos personales, etc.
5. Renombra variables acorde al diccionario 6. Revisa tipo de variables y corrige
7. Chequea los códigos de las variables. Agrega a diccionario de datos
8. Valores ausentes?: Decide cómo tratarlos. Analiza su distribución 9. Valores extremos ? Decide cómo tratarlos. ¿Son influyentes?
10. Si tienes varias tablas, fusiona. Y vuelve a revisar 10. Documenta todos los cambios
Plan de limpieza. Pasos
Ejemplos. Datos sucios
Biblioteca/CRAI de la Universidad Pablo de Olavide
Transformar datos
¿Necesitan transformación tus
datos ?
Transformar datos
La visualización efectiva de los datos puede dar lugar a la necesidad de transformar los datos.
Al preparar los datos para la visualización, surgen preguntas relacionadas a la escala y granularidad. Por ejemplo:
• ¿debería un gráfico de líneas tener ocurrencias diarias a lo largo del eje Y, o ser suavizado (promediado) para mostrar puntos por semana o mes?
La respuesta depende de lo que vale la pena mostrar en los datos.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Transformar datos
Transformar datos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Transformar datos
Transformar datos
•Normalización estadística: usar una fórmula o un algoritmo para transformar las variables medidas en diferentes escalas en una escala común para que puedan ser comparables (manzanas con manzanas) o analizadas en un modelo estadístico elegido;
•Normalización de bases de datos: eliminar la duplicación e inconsistencia:
•Por ejemplo, dividir las tablas grandes en grupos más pequeños y vincular los campos entre tablas a través de una clave o ID común.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Open Refine para limpieza de datos sucios
• Entender mejor tus datos
• Limpiar tus datos
• Reestructurar tus datos
https://openrefine.org/
Open Refine para limpieza de datos sucios
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tratamiento de datos
ausentes (Missing values)
Missing values
Tratamiento de los Missing Values
¿Pórque es importante ?
- Reduce el poder estadístico de tus datos - Genera estimación sesgada
- Reduce la representatividad de la muestra
Biblioteca/CRAI de la Universidad Pablo de Olavide
• Usa una notación consistente para los campos sin valores
• Utiliza un campo separado (para revision de calidad)
• Tratamiento adecuado de los N/A
• Para campos numéricos, usar valor extremo como ej: -9999
• Para campos caracter, “NA”
Missing values
Missing values
Tratamiento de los Missing Values Pasos a considerar
1.Con qué tipo de datos estoy tratando? (variable, e.g., categorical vs. continua; fuente, e.g., datos estadísticos oficiales, encuestas, etc.)
2.Identificar patrones y recodificarlo correctamente 3.¿Cuál es la distribución?
4.Espcojer el método adecuado para análisis y/o imputación
Biblioteca/CRAI de la Universidad Pablo de Olavide
Missing values
Técnicas más utilizadas para tratar los Missing values
- Borrar: listwise, pairwise - Ignorar los Missing values
- Imputación simple: mean/median/mode substitution, hotdeck, single regression, etc.
- Basado en modelos (Expectation Maximization Maximum Likelihood, Multiple Imputation)
Missing values
Biblioteca/CRAI de la Universidad Pablo de Olavide
Ejemplos Missing values en encuestas
1. Dos tipos de No-respuesta en encuestas:
1.1 unit non-response * 1.2 item non_response **
*1.1 Ocurre cuando el possible encuestado no respondió la encuesta ya sea por negarse o porque no pudo ser contactado.
* Por tanto el encuestador, durante el tiempo de seguimiento no podrá seguir el mismo número de sujetos
http://dam.ukdataservice.ac.uk/dataskills/longitudinaldata/4/story_html5.html
Ejemplos Missing values en encuestas
• Incluir la información del número de encuestados y motivo como variable en el dataset
• Razones de No – respuesta
• Controlar los sujetos que abadonaron y los que se volvieron a incluir
durante el seguimiento de la encuesta
Biblioteca/CRAI de la Universidad Pablo de Olavide
Ejemplos Missing values en encuestas
http://dam.ukdataservice.ac.uk/dataskills/longitudinaldata/4/story_html5.html
1.2 item non_response **
• Cuando el encuestado realize la encuesta pero no responde todas las preguntas (Missing or No-válidos)
• Codificar los valores
Ejemplos Missing values en encuestas
1.2 item non_response **
• Evitar confusions y asumir que ej: Código -8 (No applicable) es debido a errores en los datos
• La razón más común es que no todas las preguntas son respondidas por todos los encuestados.
• Solución a mano: Ir al cuestionario para esa pregunta en específica.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Análisis Exploratorio de Datos
Resumen de los datos (Estadística descriptiva)
• ¿Qué puede ser relevante ?
• Buscar una (s) perla (s) entre
las ostras
Biblioteca/CRAI de la Universidad Pablo de Olavide
Análisis Exploratorio de los datos (AED)
• Exploración de los datos. (E.D.A. exploratory data analysis, J.Tukey)
El objetivo de este análisis exploratorio es:
a) Buscar posibles relaciones de la variable
respuesta/dependiente con la(s) variable(s) explicativa(s);
b) Considerar la necesidad de aplicar transformaciones de las variables;
c) Eliminar variables explicativas que estén altamente
correlacionadas.
Análisis Exploratorio de los datos (AED)
Explorar
Plots, trends, timelines, etc.
Analizar
Desarrollar y testar hipótesis Descubrir errores en los datos,
anomalías.
Encontrar patrones
Biblioteca/CRAI de la Universidad Pablo de Olavide
Exploración de los datos (Estadística descriptiva)
Explorar los datos es el primer paso para entender los datos de tu encuesta. Implica identificar:
•
Los valores más altos y más bajos (min y max)•
´ Los valores típicos (Medidas de tendencia central, media, mediana,)•
Los valores que son comunes (moda)•
Cómo se distribuyen los valores (rangos, dispersión)Explorar los datos te ayudará a comprender las principales características de tus datos, como valores ausentes, posibles outliers y sus características
Resumen de los datos (Estadística descriptiva)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Resumiendo las distribuciones de los datos
Puedes resumir como se distribuyen tus datos a partir de tablas, gráficos Ejemplos de resúmenes estadísticos :
Para variables categóricas:
•
conteos•
porcentajes•
Tablas de frecuencia Para variables continuas:•
medidas de tendencia central (media, moda , mediana)•
medidas de dispersión (desviación estándar, rango)• ¿ Cual es la distribución de frecuencia y porcentajes de hombres y mujeres ? (Var: Sexo)
• ¿ Cual es la media de edad de los pacientes incluidos en mi estudio ? (Var: Edad )
Resumen de las variables cuantitativas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Resumen estadístico de valores continuos
Interpretación para datos con distribución normal
Media
En este ejemplo, la media de horas trabajadas por los encuestados en la semana de referencia fue de 31,96. Esto no significa que todos trabajaron esta cantidad de horas; algunos pueden haber trabajado más y algunos pocos o ninguno y este valor tiene en cuenta ambos.
Resumen estadístico de valores continuos
Interpretación para datos con distribución normal
Desviación estándar
• La desviación estándar es una medida de dispersión. Mide la distancia promedio a la que se encuentran los valores de la media, es decir, muestra si todos están agrupados cerca de la media o dispersos más separados.
• Provee contexto importante de los datos. Si es pequeño, significa que los valores en el dataset están cerca de la media. Si es un valor alto, significa mucha dispersión, lejos de el valor promedio, el valor más representativo.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Resumen estadístico de valores continuos
Resumen estadístico de valores continuos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas de frecuencias
Las tablas de frecuencia cuentan el número de veces que se seleccionó una determinada respuesta para cada valor de una variable.
Es importante comprender:
Columna porcentaje: Son calculados como el porcentaje de todos los encuestados que respondieron a la pregunta
Columna porcentaje válido: se calculan como un porcentaje de todos los que respondieron la pregunta, excluyendo a los codificados como faltantes.
La columna "porcentaje acumulado" es el porcentaje total de la muestra que se ha contabilizado hasta esa fila. Esto se puede calcular sumando todos los números en la columna Porcentaje válido arriba de la fila actual.
Interpretando una tabla de frecuencia
Biblioteca/CRAI de la Universidad Pablo de Olavide
Interpretando una tabla de frecuencia
En la columna de porcentaje válido de esta tabla, podemos ver que el 26,1 % de las personas tiene una calificación equivalente a un título o superior, mientras que el 10,5 % no tiene ninguna calificación educativa.
Interpretando una tabla de frecuencia
• En la tabla de frecuencia anterior, “I dont know” " se incluye como una respuesta válida (non-missing). Normalmente, las respuestas codificadas como "no sé" se excluyen de los
análisis, por lo que podríamos volver a codificar este valor como faltante y volver a crear la tabla.
• Sin embargo, puede haber algunas situaciones en las que sea útil mantener "no sé" como una respuesta válida, p. si su investigación quisiera observar a aquellos que no saben qué calificaciones tienen.
• Depende del investigador si incluir la respuesta “I dont know” como válida o no.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Análisis de la relación entre variables
1 VARIABLE CUANTITATIVA Y 1 VARIABLE CUALITATIVA
• T DE STUDENT Y RELACIONADOS Datos independientes o apareados, ¿siguen una distribución normal?
• ANOVA (+ 2 DE GRUPOS) Detecta diferencia globales, test post-hoc para las diferencias entre qué pares de grupos
2 VARIABLES CUANTITATIVAS:
• Análisis de correlación (coeficiente perason o spearman según normalidad de los datos)
• Análisis de regresión simple 2 VARIABLES CUALITATIVAS:
• Tablas de contingencia (Tests: chi-cuadrado o Test exacto de Ficher.
Contraste de hipótesis
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis
Se busca aceptar o rechazar una hipótesis estadística acerca de un parámetro o característica de la población, pero que se contrasta a partir de los resultados de una muestra de la población.
• Rechazaremos la H0 (aceptando la alternativa) cuando la discrepancia entre la media observada y la teórica sea grande
• Aceptaremos la H0 si la media muestral está dentro del intervalo seleccionado y la rechazaremos en caso contrario
• Estamos asumiendo un riesgo del 5% (nivel de significación) de equivocarnos y rechazar Indebidamente H0 (riesgo tipo I)
https://github.com/Yusnelkis/introstatsconr/blob/master/Presentaciones/Estad%20en%20CCSS%20con%20R.pdf
Contraste de hipótesis. Ejemplo.
# No sé si tengo fiebre o no
Tu tienes una intuición y quieres investigar si esta intuición es cierta.
Tu hipótesis de investigación es que “tengo fiebre”. También llamada hipótesis del investigador o alternativa (H1).
Por el contrario tienes la hipótesis nula. ¿Por que nula?. Es la contraria. “NO tengo fiebre”
Además utilizas un criterio para decidir sin la hipótesis de investigación “tengo fiebre” es cierta.
Si el valor es más alto que 37ºC tienes fiebre.
Por lo contrario no tienes fiebre
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis. Ejemplo.
https://conceptosclaros.com/contraste-hipotesis/
# Quieres ver si el tratamiento de una lesión de rodilla es más efectivo que otro
La hipótesis de investigación es que este nuevo tratamiento es mejor que el convencional.
La hipótesis nula es que el nuevo tratamiento NO es mejor que el convencional.
Contraste de hipótesis. P valor y selección de test.
P valor: la probabilidad de error en que incurriríamos en caso de rechazar la hipótesis nula con los datos de que disponemos
Un número que te va a dar el test estadístico para ver si te puedes quedar con la hipótesis de investigación o no.
Pero necesitas un criterio. En el caso de la temperatura tienes el criterio de 37ºC. En estadística normalmente se utiliza el 0.05 (o el 5%)
El valor que vas a mirar para decidir si tu hipótesis de investigación es cierta o no.
Sigue esta receta:
• Si el pvalor es más grande que 0.05 NO puedes rechazar la hipótesis nula (“NO tengo fiebre”)
• Si el pvalor es más pequeño que 0.05 rechazas la hipótesis nula (“NO tiengo fiebre”) y te quedas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis. Resumen pasos
A) Formular las hipótesis de investigación
• H1 o hipótesis del investigador (la que quieres justificar que es cierta con datos reales)
• H0 o hipótesis nula (contraria que la H1)
B) Decidir el criterio de significación
• El criterio más típico es 0.05 (5%)
C) Elección de la prueba estadística
• ¿Qué test estadístico es el que vas a aplicar?
• Ten en cuenta si los grupos que vas a comparar siguen una distribución normal
• Ten en cuenta si hay homogeneidad de la varianza en los dos grupos. Varianzas similares.
• Ten en cuenta si los grupos son muestras independientes o apareadas.
• Tienes variables de dos muestras o más de 2 C) Calcula el p valor
Utiliza los soft para el tratamiento de datos (R, SPSS, Excel, etc)
D) Conclusión
p<0.05 Rechazas la hipótesis nula y te quedas con la hipótesis del investigador. Tienes fiebre.
p>0.05 NO puedes rechazar la hipótesis nula y NO puedes
demostrar que la hipótesis del investigador sea cierta. (NUNCA decir que la H0 es cierta, sino que no la podemos rechazar)
Contraste de hipótesis. Distribución de los datos
¿ Cómo se distribuyen los datos ? ¿Qué es una distribución de los datos ?
La distribución de una variable describe la forma en la que los valores en un dataset se distribuyen en el rango de todos los posibles valores
Ejemplo:
- Imagina que medimos la altura de 100 personas. Es probable que haya un rango de diferentes valores para la altura, desde alrededor de 150 a 190 cm.
La mayoría de las personas está cerca de la altura promedio (barra en el gráfico).
Cuando esto ocurre estamos ante una Distribución normal de los datos (curva). Pero los datos se pueden distribuir de muchas otras formas y no seguir este patrón
Biblioteca/CRAI de la Universidad Pablo de Olavide
Distribución de los datos Normal o paramétrica
No paramétrica
Resumen de los datos (Estadística descriptiva)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis. Intervalo de confianza.
Si fijamos el intervalo de confianza en el 95% la media de la población está entre los límites especificados con una probabilidad del 95%. El 5% no lo contienen
https://github.com/Yusnelkis/introstatsconr/blob/master/Presentaciones/Estad%20en%20CCSS%20con%20R.pdf
Biblioteca/CRAI de la Universidad Pablo de Olavide
Análisis
Variables categóricas
Tests
Biblioteca/CRAI de la Universidad Pablo de Olavide
https://www.youtube.com/watch?v=ruLCTkX4tRk
Tablas cruzadas / Tests
Tablas cruzadas
¿Cómo medir si existe relación entre dos variables categóricas del estudio ? Ejemplos:
¿ Cómo se comporta la variable “creencia sobre la existencia de armas …”
en función del Sexo?
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Tabla de 2x2
Es la tabla donde voy a relacionar dos variables que tienen dos niveles.
Veamos si existe relación entre el Tipo de telf. (TIPO_TEL) que usan y el Sexo de los participantes en la encuesta
Sexo
Tipo de Telef.
Hombre
Mujer
Móvil Fijo
Tablas cruzadas / Tabla de 2x2
Seleccionar: Analizar / Estadísticos descriptivos / Tablas cruzadas o de contingencia
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Tabla de 2x2
Pasar Sexo donde dice “Filas” y luego Tipo-Tef en “Columnas”.
#Tip: Siempre colocar en columnas la variable de respuesta o desenlace que nos interesa
En este caso queremos saber si
Ser hombre o mujer influye en el tipo de telf.
Utilizado
Tablas cruzadas / Tabla de 2x2
Dar clik en el botón de estadísticos y seleccionar la casilla de Chi-cuadrado
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Tabla de 2x2
Dar clik en el botón casillas y en recuentos seleccionar las casillas de observado y esperado. Para análisis más detallados se tienen en cuenta los Residuos tipificados.
Tablas cruzadas / Tabla de 2x2
En el visor de resultados genera una primera tabla donde se observan las frecuencias de los valores perdidos y el total.
En la segunda tabla se observan las frecuencias (N.
casos ) que resultan de cruzar cada categoría de la variable Sexo que divide o clasifica los datos en Femenino y Masculino y la variable Tipo de Telf que lo divide en Móvil vs Fijo.
Ofrece las frecuencias totales correspondiente a cada variable de forma individual
Aparecen los valores observados para cada combinación y también los esperados que los pedimos para saber si es posible aplicar el estadístico de Chi-cuadrado o no.
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Tabla de 2x2
¿Existe relación entre el Tipo de telf. (TIPO_TEL) que usan y el Sexo de los participantes en la encuesta ?
La primera ji cuadrado es la de Pearson, que es la que, si se cumplen los supuestos, se suele utilizar para la interpretación.
Este es un valor aproximado “asintótico”. Se aproximan tanto mejor cuanto mayor es el tamaño de la muestra.
En cambio, la prueba de Fisher es exacto, por eso su valor aparece en otra columna. Esta
prueba sólo se puede utilizar entre variables de 2x2, como es este caso.
Tablas cruzadas / Tabla de 2x2
Si algún valor esperado en una tabla de 2x2 es inferior a 5 no sirve o no podemos utilizar la prueba de ji cuadrado y hay que utilizar en su lugar la prueba de Fisher.
En las tablas que tengan más de 4 casillas, al menos el 80% de los valores esperados deben ser superiores o igual a 5.
¿Qué significa?
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Tabla de 2x2
El estadístico de chi-cuadrado toma un valor muy alto (35.025) con una p asociada (significación asintónica bilateral) < 0.001. Se evidencia una relación estadísticamente significativa entre el Sexo y el tipo de telf.
¿Cómo lo interpretamos?
Tablas cruzadas / Ejemplo 2
En este ejemplo, los % por fila nos darán % de todos los hombres en la muestra que trabajaron a full time, y el % de todas las mujeres en la muestra de los que trabajaron a full time.
Esto nos permitiría hacer comparaciones entre ambos sexos.
• El 85.0 % de hombres trabajaron a tiempo completo comparado con un 54.5 % de mujeres.
¿Cómo lo interpretamos?
Podemos agregar porcentajes por fila para comparar proporciones
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tablas cruzadas / Ejemplo 2
En este ejemplo, los % solicitamos extraerlos por columna.
Podemos ver cuál % de todos los que trabajan a full time son hombres y cuál % son mujeres.
• En la siguiente tabla podemos ver que de los que trabajan a tiempo parcial, el 75,7% son mujeres
¿Cómo lo interpretamos?
Podemos agregar porcentajes por columnas para comparar proporciones
Resumen estadístico de valores continuos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Resumen de las variables cuantitativas
Análisis
Variables numéricas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Selección del test
Variable normal: Medida de tendencia central (media aritmética)
Variable no normal: Medida de tendencia central (mediana)
Datos independientes: aquéllos que se obtienen al realizar el contraste con
dos muestras distintas
Ej: Diferencia en el salario medio entre directivos y personal técnico de la empresa.
Datos apareados: aquéllos que se
obtienen al realizar dos contrastes sobre una misma muestra
Ej.: Diferencia entre el salario inicial y el actual entre el personal técnico de la
empresa X
Selección del test
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis. Ejemplo variable salarios
https://github.com/Yusnelkis/introstatsconr/blob/master/Presentaciones/Estad%20en%20CCSS%20con%20R.pdf
Contraste de hipótesis. Test no paramétricos
En ocasiones los datos No se ajustan a una distribución normal, distribuciones muy asimétricas.
La dispersión es muy grande o la media está muy afectada por valores extremos
Para abordar estos problemas, se emplean contrastes que utilizan la mediana y que no emplean parámetros de una distribución concreta
Comparan MEDIANAS
Trabajan con rangos de orden en lugar de que con los datos originales
Comprueba la normalidad:
Test de normalidad:
Biblioteca/CRAI de la Universidad Pablo de Olavide
Contraste de hipótesis. Test no paramétricos
Comprueba la normalidad:
Test de normalidad:
• Kolmogorov-Smirnov para muestras >= 50
• Shapiro-Wilk para muestras <= 50
Visualización exploratoria:
• histogramas, diagrama de cajas o Box-Plot, Gráficos de normalidad
Dos variables cuantitativas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Análisis de correlación
Coeficiente de correlación lineal de Pearson
• Para datos con relación normal
• Se define como el cociente entre la covarianza y el producto de las desviaciones típicas
• Sus valores oscilan entre -1 y +1
• Cuanto más se aproxime I r I a 1, mayor es el grado de relación entre las variables
• Analizamos la relación entre dos variables numéricas. Relación, NO dependencia. La dependencia se analiza con la regresión.
• ¿La relación es fuerte o es débil ?
Análisis de correlación
Coeficiente de correlación Rho de Spearman:
• Para datos con relación no - normal o no – paramétrica.
• Se basa en los rangos de los datos en vez de en los valores reales y es apropiado para datos ordinales, además de cuantitativos.
Tau de Kendall: Medida no paramétrica de asociación para variables ordinales o de rangos que tiene en consideración los empates
Biblioteca/CRAI de la Universidad Pablo de Olavide
Datos de encuesta
European Social Survey
http://www.europeansocialsurvey.org/
Proveedores de macrodatos
European Values Study
Biblioteca/CRAI de la Universidad Pablo de Olavide
Barómetros: Datos de opinion pública
http://www.cis.es/cis/opencm/ES/11_barometros/index.jsp
Proveedores de macrodatos
Los datos de encuesta
• Proceso de recolección de datos que produce datos denominados microdatos
Microdatos Proceso
sistemático de recogida de
datos
Uso de muestras representativas Datos de encuesta
Biblioteca/CRAI de la Universidad Pablo de Olavide
Los datos de encuesta
• Recogidos con propósito de investigación
• Información estandarizada
• Información recogida a partir de un rango de características que pueden variar
• Cuestionarios (Papel / online)
• Entrevistas (Cara-cara / telf.)
Los datos de encuesta
2) Crear datos a nivel individual 1) Respuesta a la encuesta
Caso Sexo Sentimiento
1 F No me importa
2 M Engañado
3 F Me da risa
Biblioteca/CRAI de la Universidad Pablo de Olavide
Los datos de encuesta
Encuesta de temas de actualidad. CIS. Marzo 2022.
Variables
Casos
Valor
• Casos en filas,
• Variables en columnas
Los datos de encuesta
Encuesta de temas de actualidad. CIS. Marzo 2022.
Descripción variables Metadatos incrustadosBiblioteca/CRAI de la Universidad Pablo de Olavide
Esto no debe ocurrir
Los datos de encuesta / Missing values
• Usa una notación consistente para los campos sin valores
• Utiliza un campo separado (para revision de calidad)
• Tratamiento adecuado de los N/A
• Para campos numéricos, usar valor extremo como ej: -9999
• Para campos caracter, “NA”
Biblioteca/CRAI de la Universidad Pablo de Olavide
Los datos de encuesta / Missing values
-9 La pregunta no fue respondida
Los datos de encuesta / Missing values
1. Dos tipos de No-respuesta en encuestas:
1.1 unit non-response (Unidad, caso) *
1.2 item non_response (Pregunta concreta no respondida)**
Biblioteca/CRAI de la Universidad Pablo de Olavide
Los datos de encuesta / Missing values
1.1.unit non-response *
*1.1 Ocurre cuando el possible encuestado no respondió la encuesta ya sea por negarse o porque no pudo ser contactado.
* Por tanto el encuestador, durante el tiempo de seguimiento no podrá seguir el mismo número de sujetos
http://dam.ukdataservice.ac.uk/dataskills/longitudinaldata/4/story_html5.html
Los datos de encuesta / Missing values
• Incluir la información del número de encuestados y motivo como variable en el dataset
• Razones de No – respuesta
• Controlar los sujetos que abadonaron y los que se volvieron a incluir durante el
seguimiento de la encuesta
Biblioteca/CRAI de la Universidad Pablo de Olavide
Los datos de encuesta / Missing values
http://dam.ukdataservice.ac.uk/dataskills/longitudinaldata/4/story_html5.html
1.2 item non_response **
• Evitar confusiones y asumir que ej: Código -8 (No applicable) es debido a errores en los datos
• La razón más común es que no todas las preguntas son respondidas por todos los encuestados.
• Solución a mano: Ir al cuestionario para esa pregunta en específica.
Selecciona tu muestra
El objetivo del análisis de encuestas es usar la información de los datos de encuestas para hacer inferencias sobre la población, pero no todas las técnicas de muestreo producen datos que se pueden usar de esta manera.
• Una muestra es una selección de los encuestados elegidos y que
representan a la población total.
• Estos elegidos son los que,
potencialmente, responderán a tus preguntas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Selecciona tu muestra
Selecciona tu muestra
Población:
…la colección de todos los ítems que estamos
interesados en estudiar (Ejemplo, todos los árboles
de un bosque que me interesa estudiar, la foto 1)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Selecciona tu muestra
Una colección de los ítems de esa población (un subconjunto de los arboles del bosque, en naranja en la foto).
•La muestra son los datos que tienes y la población los datos que quisieras tener. En algunas situaciones coincide.
•La muestra debería comprender entre 5% y 10%
para ser más efectiva y debe ser representativa de esa población.
•Los elementos deben todos tener la misma
probabilidad de ser escogidos, es decir que sean aleatorios.
Selecciona tu muestra
• Para calcular el tamaño muestral necesitas saber:
• el tamaño de la población,
• el margen de error y
• el nivel de confianza.
! Busca apoyo con un estadístico !
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tamaño muestral
https://www.questionpro.com/es/tama%C3%B1o-de-la-muestra.html
Calculadores de muestra:
• QUESTIONPRO:
https://www.questionpro.com/es/calculadora- de-muestra.html
• SURVEYMONKEY:
https://es.surveymonkey.com/mp/sample- size-calculator/
• GRANMO
https://www.imim.es/ofertadeserveis/softwar e-public/granmo/
• NETQUEST:
https://www.netquest.com/es/gracias- calculadora-muestra
Tamaño muestral
Biblioteca/CRAI de la Universidad Pablo de Olavide
Selecciona tu muestra
• El tamaño de la muestra es una porción significativa de la
población que cumple con las características de la investigación reduciendo los costos y el tiempo.
• Determinar adecuadamente el tamaño muestral = evitar sesgos
Representativa: Hace referencia a que todos los miembros de un grupo de personas tengan las mismas oportunidades de participar en la investigación.
Adecuada: Se refiere a que el tamaño de la muestra debe de ser obtenido mediante un análisis que permite resultados como disminuir el margen de error.
Muestreo
Tipos de muestro
• Aleatorio simple
• Estratificado
• Por conglomerados
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de muestreo
• Todos los miembros tienen la misma probabilidad de ser elegidos
• Muestro aleatorio simple
Tipos de muestreo
• La población se divide en grupos
(Estratos, ex: grupos etarios, sexo, etc)
• Tiene el objetivo de garantizar que cada grupo se vea representado
• Muestro estratificado
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de muestreo
• Utiliza el muestreo aleatorio simple para seleccionar conglomerados
• Los conlogmerados son respondedores potenciales que están agrupados bajo determinados criterios (Personas de un área geográfica, de una escuela, etc)
• My usado en encuestas de gran escala
• Muestro por conglomerados
Calcula el número de cuestionarios que debes aplicar
Calcula el número de cuestionarios que vas a aplicar
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de preguntas que
puedes responder con datos
de encuesta
Tipos de preguntas
• Características de una población (Descripción de cómo se distribuye una variable. Ej: Edad, temperatura, tipo de telf usado, Fumador (Si/no), Nivel de estudios, etc)
• Relaciones entre dos características (Cómo A afecta a B ? Ex _ ¿Cómo afectan las diferentes condiciones de salud física y mental a las tasas de ausencia entre los
trabajadores en edad productiva en el Reino Unido?
• Control de características adicionales que afectan una relación ( Potencial factores, Ex: Tabaco, edad, sexo, etc)
(Necesidad de análisis multivariantes )
• Comparar datos temporales a distintos niveles geográficos
Biblioteca/CRAI de la Universidad Pablo de Olavide
Software para el procesamiento de datos de
encuesta
• SPSS
• PSPP
• R
• Stata
• QuestionPro
Software estadístico para el tratamiento de datos
de encuestas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Plataformas para recogida de datos de encuesta
• Google forms
• Survey monkeys
https://es.surveymonkey.com/
Tutorial: https://www.youtube.com/watch?v=dFJ7geOTdGM
Del formulario al soft de tratamiento de
datos (SPSS)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de variables
Biblioteca/CRAI de la Universidad Pablo de Olavide
Tipos de variables
Variable Definición operativa Escala
Edad Edad del niño al ser admitido en el
hospital, calculada a partir de la fecha de nacimiento y de la de admisión
Meses (0 a 11)
Edad de la madre En el momento del nacimiento del niño, según informa la propia madre
Menos de 20 años 20-29 años 20-39 años 40 o más años Sin información Clase social Grado ocupacional del cabeza de
familia, usando el esquema de
gradación del Registro General Británico
1. Clase social I 2. Clase social II 3. Clase social III 4. Clase social IV 5. Clase social V 9. Inclasificable
Hemoglobina Concentración de hemoglobina en
sangre de capilares, medida por el método de la cianometahemoglobina en las 24 horas siguientes a la admisión
Grs por 100 mls
https://www.uv.es/invsalud/invsalud/disenyo-variables.htm
A las variables categóricas generalmente se les asignan números para cada categoría para que puedan analizarse más fácilmente en los paquetes de estadísticos.
Generalmente, cada categoría tiene un número y una etiqueta asociada.
Codificando las variables categóricas
Biblioteca/CRAI de la Universidad Pablo de Olavide
Exportar datos de Google forms a SPSS
1 Formulario Google. Descargar
Descargar fichero Excel de las
respuestas del cuestionario
Exportar datos de Google forms a SPSS
2 Exportar a Excel 3 Codificar variables
Reemplazamos los valores de las respuestas por los
Biblioteca/CRAI de la Universidad Pablo de Olavide
Exportar datos de Google forms a SPSS
4 Importar en SPSS en un fichero de datos nuevo
Exportar datos de Google forms a SPSS
5 Revisar los datos importados
• Revisar que los valores sean correctos y estén bien codificados. Tener a mano diccionario de datos
• Revisar formato adecuado al Tipo de variable
- A excepción de campos muy
específicos, mayormente son “numérico”
- Fechas = Fechas - Cadena = Cadena
En el apartado Medida, ajustar también el tipo de medida según tipo de variable (ordinal, escala (numérica) o nominal)
Biblioteca/CRAI de la Universidad Pablo de Olavide
Comprendiendo los datos
Demo con SPSS
Biblioteca/CRAI de la Universidad Pablo de Olavide