Tratamiento de datos de investigación

(1)

Biblioteca/CRAI de la Universidad Pablo de Olavide

Tratamiento de datos de investigación

Enero 2022

Yusnelkis Milanés Guisado Ángel M. Delgado-Vázquez

(2)

Programa

• Módulo 1 Introducción a los datos Los datos en abierto

Variables. Tipología.

Errores a evitar en la gestión de los datos durante el proyecto.

• Módulo 2. Importación y limpieza de datos Plan de limpieza de datos

• Módulo 3. Análisis Exploratorio de Datos (AED).

Introducción al AED

Datos de encuestas

Estadística Descriptiva

Estadística inferencial

(3)

Introducción a los datos.

Tipología y estructuras

(4)

Ciclo de vida de los datos científicos

(5)

Etapas generales de un proyecto de datos

(6)

El problema: aprendiendo a hacer preguntas a partir de los datos

Las preguntas guían las respuestas

(7)

El problema: aprendiendo a hacer preguntas a partir de los datos

Básicamente se trabaja hacia atrás:

1: La lista de preguntas o afirmaciones basadas en datos que quieres presentar.

2: Decides qué variables y evidencias tendrás que obtener y analizar para hacer responder a esas preguntas o hacer esas afirmaciones.

3: Obtienes los datos de fuentes externas (ejemplos portales de datos, buscadores de datos en abierto, etc) o creas tu base de datos.

(8)

El problema: aprendiendo a hacer preguntas a partir de los datos

Ejemplo. Llega un investigador con una consulta sobre los patrones de crímenes en su país o ciudad.

En este caso podría interesar datos sobre:

• los horarios en que ocurren los crímenes,

• los tipos de crímenes,

• tipo de arma usado,

• las ciudades o zonas donde más ocurren, etc.

Necesita los datos (variables) que le permitan sacar cada una de esos patrones o preguntas de los datos:

• la fecha y el momento en que cada crimen fue informado,

• el tipo de crimen (asesinato, robo, asalto, etc.),

• tipo de arma usada (pistola, revolver, arma blanca, etc)

• la dirección de donde se dio el crimen.

(9)

El problema: aprendiendo a hacer preguntas a partir de los datos

¿Tengo los datos completos para la pregunta que quiero responder ?

Tenerlo claro desde el comienzo.

(10)

Tipos de datos

“datos que son recolectados, observados o creados para ser analizados y producir

resultados de investigación originales”

• Numéricos, descriptivos o visuales.

• Encontrarse en estado bruto o analizado, pueden ser experimentales u observacionales.

(11)

Tipos de datos

(12)

Tipos de datos

• Textos: Cuestionarios, Transcripciones de entrevistas, Codebooks,

Metodologías, Flujos de trabajo, Procedimientos, Protocolos, Notebooks, Diarios de investigación, etc.

• Numéricos: Respuestas a encuestas, Registros médicos, Respuestas a tests, Hojas de Excel, instrumentos de medida, Info geoespacial, etc. (Stata, Spss, Excel, Gis)

• Multimedia: Imágenes, Audio recordings, Videos (jpeg, png, tiff, mp3, wav, mpeg, quicktime)

• Códigos: Fuentes de código, Algoritmos, Scripts (R, Python, Java, MATLAB)

• Sintáxis: Software-specific code files to carry out data processing steps (e.g. data preparation, linkage, statistical analysis, etc) (Stata, SPSS, R, MATLAB)

• Específico de una disciplina: Los tipos de datos pueden incluir: Flexible Image Transport System (FITS) [Astronomy]; Crystallographic Information File (CIF) [Chemistry];

(13)

Tipos de datos

•Brutos

•Procesados

•Limpios

•Estadísticos

•Datos finales

(14)

Tipos de datos

(15)

Tipos de variables

https://towardsdatascience.com/statistical-testing-understanding-how-to-select-the-best-test-for-your-data-52141c305168

(16)

Estructura de los datos. Datos tabulares

(17)

Estructura de los datos. Datos tabulares

Fuente: Desconocido.

(18)

Estructura de los datos. Datos tabulares

{

"marcadores": [ {

"latitude": 40.416875,

"longitude": -3.703308,

"city": "Madrid",

"description": "Puerta del Sol"

}, {

"latitude": 40.417438,

"longitude": -3.693363,

"city": "Madrid",

"description": "Paseo del Prado"

}, {

"latitude": 40.407015,

"longitude": -3.691163,

"city": "Madrid",

"description": "Estación de Atocha"

} ]

(19)

Estructura de los datos. Ficheros CSV

Guía práctica para la publicación de datos tabulares en archivos CSV. https://datos.gob.es/sites/default/files/doc/file/guia_csv_vf.pdf

(20)

Estructura de los datos tabulares (CSV). Recomendaciones

(21)

Fuentes de datos

(22)

Errores en Gestión de datos

If the data you need still exists;

If you found the data you need;

If you understand the data you found;

If you trust the data you understand;

If you can use the data you trust;

Someone did a good job of data management.

Rex Sanders ‐ USGS‐Santa Cruz

(23)

Errores en Gestión de datos

Ya trabajamos con datos, ¿ para que tanta gestión ?

(24)

Error 1. Esperar hasta finalizar el proyecto para gestionar tus datos

🙁 Perder datos que no eras consciente que faltaban, incompletos o corruptos.

🙁 Pierdes la oportunidad de revisar y corregir los instrumentos para recoger datos con mejor calidad

🙁 Imposibilidad de acceder a los datos que necesitas

🙁 Pierdes tiempo y usas de manera

subóptima tus recursos.

(25)

! Solución !

Comienza aquí

NO aquí 1. Un Plan de Gestión de Datos (PGD) debe ser tu aliado desde el

inicio de la propuesta.

Milanés, Y. Errores vs buenas prácticas en Gestión de datos de investigación. https://zenodo.org/record/7540861#.Y8VL8BfMKUk

(26)

ERROR 2

2. No usar guías de nomenclatura y organización de ficheros y variables.

Q1 q14_a q14_b Q15 Q16Ope

n

1 1 m 10 3

2 5 f 11 2

4 13 f 8 1

5 22 m 15 4

Misdatos.xls

Misdatosbuenos.xls 2001_data.xls

Version_buena.xls

Dataaltmetricsterminado.xls

(27)

! Solución !

Guías de estilo:

✔ Estructura de directorios

✔ Nomenclatura de ficheros (incluyendo versionado)

✔ Nomenclatura de variables

✔ Codificación de los valores de tus variables

✔ Codificación de los valores ausentes (Missing values)

Te permitirá:

✔ Mejorar la búsqueda

✔ Una fácil interpretación

✔ Mejorar la reproducibilidad

✔ Estandarizar

Las guías de estilo, nomenclaturas y estructura de los directorios, inclúyelo en la documentación de los datos.

(28)

ERROR 3

No documentarlo todo

(29)

ERROR 3

No documentarlo todo

🙁 NO REPRODUCIBILIDAD

🙁 REDUCE SEGURIDAD DE LOS DATOS

🙁 BAJA CALIDAD EN LOS DATOS

🙁 COSTES

🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN

(30)

! Solución !

Documéntalo TODO

A nivel de proyecto: PROTOCOLO

✔ Reclutamiento

✔ Criterios de inclusión/exclusión

✔ Recolección de los datos / Procedimientos

✔ Procedimientos tratamiento de los datos

✔ Seguridad de los datos

✔ Control de la calidad

✔ Anonimización de los datos

Te permitirá:

✔ Reproducir en menos tiempo

✔ Calidad y fiabilidad de los datos y procedimientos

✔ Mejorar la reproducibilidad

✔ Estandarizar

(31)

! Solución !

¿Cómo documentarlo?

✔ Diccionario de datos

✔ Fichero Readme.txt

✔ Libro de código de variables

✔ Guías de usuario

✔ Software syntax

✔ Cuadernos de laboratorio

No dejes los datos huérfanos. Acompáñalos para que se

comprendan en su contexto.

(32)

! Solución !

También todos los pasos que vas dando

(33)

! Solución !

Usa metadatos incrustados

• Metadatos incrustados

• Metadatos que acompañan al dataset

(Fichero Readme.txt, diccionario de variables, etc)

(34)

ERROR 4

No crear un diccionario de datos antes de recoger los datos

NO TIENES LAS VARIABLES ESTANDARIZADAS

REDUCE DRÁSTICAMENTE LA CALIDAD DE LOS DATOS

🙁 COSTES

🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN

🙁

(35)

! Solución !

Antes de comenzar a recoger los datos, crea un DICCIONARIO DE DATOS Ayuda a entender las variables. Tanto las “raw” como las calculadas

después.

(36)

! Solución !

Antes de comenzar a recoger los datos, crea un DICCIONARIO DE DATOS

Campos a tener en cuenta en un diccionario de datos

✔ Elemento identificador de la tabla (por sí tienes datos en varias tablas)

✔ Nombres de las variables

✔ Definición de cada variable (cómo se entiende en tu estudio)

✔Tipo de datos

✔ Longitud del campo

✔ ¿Campo requerido? y/n

✔ ¿Valores nulos? Codificación

(37)

! Solución !

Crear un diccionario de datos antes de recoger los datos

UNA GUÍA PARA RECOGER LOS DATOS

- nombre de variables, códigos, ej: 0 = Hombre; 1 = Mujer AYUDA A LA LIMPIEZA Y CALIDAD DE LOS DATOS

- guía para renombrar variables, valores ausentes, recodificar, etiquetado, cálculos, etc

CONSISTENCIA

SEGUIMIENTO DE ESTÁNDARES EN UN CAMPO CIENTÍFICO AYUDA EN LA VALIDACIÓN DE LOS DATOS

- Chequear números de columnas

- Chequear que el rango de variables y tipos sea correcto.

(38)

ERROR 5

Trabajar sobre el fichero original

! Solución !

Crea una carpeta con una copia del Data Raw

No modifiques tu dataset original

(39)

ERROR 6

No trabajar con datos tidy o “long”

SI LOS DATOS CRECEN HORIZONTALMENTE,

REDUCE DRÁSTICAMENTE LA REPRODUCIBILIDAD DE LOS DATOS

🙁 COSTES

🙁 PÉRDIDA DE TIEMPO Y EFECTIVIDAD EN LA INVESTIGACIÓN

🙁

(40)

! Solución !

Trabajar con datos tidy o “long” o mantener ambas

versiones

(41)

! Solución !

Trabajar con datos tidy (“long”) o mantener ambas

versiones

(42)

ERROR 7

No proyectar tu proyecto de datos de forma reproducible desde el inicio

🙁 PÉRDIDA DE TIEMPO

🙁 REDUCE LA CALIDAD. SESGO DE ERRORES

🙁 COSTES

🙁 REPUTACIÓN

(43)

! Solución !

Publicación + Código + datos ejecutables

Fuente: Desconocido.

(44)

ERROR 8

Asumir una exactitud en los datos

🙁 VALORES AUSENTES

🙁 DUPLICADOS

🙁 DATOS CONTAMINADOS

🙁 NO EXTRAPOLABLES

🙁 VALORES NO ESPERADOS

Los datos vienen sucios

Créditos: Desconocido.

(45)

! Solución !

Diseña la gestión de la calidad de tus datos desde el comienzo

Plan limpieza de datos

1. Revisa filas y columnas (#, formato, etc) 2. Remueve casos duplicados

3. Separa columnas que fusionan más de una variable

4. De-identifica datos: elimina nombres, datos personales, etc.

5. Renombra variables acorde al diccionario 6. Revisa tipo de variables y corrige

7. Chequea los códigos de las variables. Agrega a diccionario de datos

8. Valores ausentes?: Decide cómo tratarlos. Analiza su distribución

9. Valores extremos ? Decide cómo tratarlos. ¿Son influyentes?

10. Documenta todos los cambios

Más en: https://cghlewis.github.io/mpsi-data-training/training_4.html

(46)

Limpieza y

transformación de datos.

(47)

Limpieza y transformación de datos.

Los datos tienen calidad cuando:

• Se usan según el contexto.

• Son Útiles

• Fáciles de entender y representar. Bien descritos !

• Sobre todo, CORRECTOS.

• Re-utilizables

• Deben permitir la REPRODUCIBILIDAD de la investigación

(48)

Motivos de errores en los datos

• Datos de entrada (Humanos)

• Datos externos

• Errores arrastrados o de carga de otros sistemas (migraciones)

• Errores en la codificación del sistema de variables

• Sesgos en el diseño de encuestas

• Errores en la integridad de los datos al transcribir entrevistas o cuestionarios

• Falta de normalización de los datos

(49)

Evita errores con la planificación

Antes de la recolección de los datos

• Define y refuerza estándares

• Formatos

• Códigos

• Unidades de medida

• Metadatos adecuados

• Asigna responsabilidades

(50)

Evita errores con la planificación

Durante la recolección de los datos

• Minimiza la entrada manual de los datos

• Usa programas de texto hablado

• Utiliza la validación de los datos

• Documenta todos los cambios (Ficheros Readme.txt)

(51)

Evita errores con la planificación

Durante la recolección de los datos

• Minimiza la entrada manual de los datos

• Usa programas de texto hablado

• Utiliza la validación de los datos

• Documenta todos los cambios (Ficheros Readme.txt)

(52)

Evita errores con la planificación

Después de la recolección de los datos

• Chequea existencia de Valores Missing, imposibles, anómalos (Usa la visualización exploratoria)

• Desarrolla resúmenes estadísticos descriptivos

(53)

Fases generales

1) Determinar los errores en los datos 2) Eliminar la suciedad

3) Análisis de correspondencia con la documentación de los datos (Diccionario de datos, Cuestionario; Guía del usuario, etc)

4) Reporte. Documenta los cambios

(54)

¿Cómo identificar los errores en nuestros datos?

• 1) Verificación manual

• 2) Análisis estadístico

2.1 ) Análisis exploratorio de datos

2.2.) Visualización exploratoria de datos

3) Análisis de correspondencia con la documentación de los datos (Diccionario de datos, Cuestionario; Guía del

usuario, etc)

(55)

Biblioteca/CRAI de la Universidad Pablo de Olavide Plan limpieza de datos

1. Revisa filas y columnas (#, formato, etc) 2. Remueve casos duplicados

3. Separa columnas que fusionan más de una variable

4. De-identifica datos: elimina nombres, datos personales, etc.

5. Renombra variables acorde al diccionario 6. Revisa tipo de variables y corrige

7. Chequea los códigos de las variables. Agrega a diccionario de datos

8. Valores ausentes?: Decide cómo tratarlos. Analiza su distribución 9. Valores extremos ? Decide cómo tratarlos. ¿Son influyentes?

10. Si tienes varias tablas, fusiona. Y vuelve a revisar 10. Documenta todos los cambios

Plan de limpieza. Pasos

(56)

Ejemplos. Datos sucios

(57)

Transformar datos

¿Necesitan transformación tus

datos ?

(58)

Transformar datos

La visualización efectiva de los datos puede dar lugar a la necesidad de transformar los datos.

Al preparar los datos para la visualización, surgen preguntas relacionadas a la escala y granularidad. Por ejemplo:

• ¿debería un gráfico de líneas tener ocurrencias diarias a lo largo del eje Y, o ser suavizado (promediado) para mostrar puntos por semana o mes?

La respuesta depende de lo que vale la pena mostrar en los datos.

(59)

Transformar datos

(60)

Transformar datos

(61)

Transformar datos

(62)

Transformar datos

•Normalización estadística: usar una fórmula o un algoritmo para transformar las variables medidas en diferentes escalas en una escala común para que puedan ser comparables (manzanas con manzanas) o analizadas en un modelo estadístico elegido;

•Normalización de bases de datos: eliminar la duplicación e inconsistencia:

•Por ejemplo, dividir las tablas grandes en grupos más pequeños y vincular los campos entre tablas a través de una clave o ID común.

(63)

Open Refine para limpieza de datos sucios

• Entender mejor tus datos

• Limpiar tus datos

• Reestructurar tus datos

https://openrefine.org/

(64)

Open Refine para limpieza de datos sucios

(65)

Tratamiento de datos

ausentes (Missing values)

(66)

Missing values

Tratamiento de los Missing Values

¿Pórque es importante ?

- Reduce el poder estadístico de tus datos - Genera estimación sesgada

- Reduce la representatividad de la muestra

(67)

• Usa una notación consistente para los campos sin valores

• Utiliza un campo separado (para revision de calidad)

• Tratamiento adecuado de los N/A

• Para campos numéricos, usar valor extremo como ej: -9999

• Para campos caracter, “NA”

Missing values

(68)

Missing values

Tratamiento de los Missing Values Pasos a considerar

1.Con qué tipo de datos estoy tratando? (variable, e.g., categorical vs. continua; fuente, e.g., datos estadísticos oficiales, encuestas, etc.)

2.Identificar patrones y recodificarlo correctamente 3.¿Cuál es la distribución?

4.Espcojer el método adecuado para análisis y/o imputación

(69)

Missing values

Técnicas más utilizadas para tratar los Missing values

- Borrar: listwise, pairwise - Ignorar los Missing values

- Imputación simple: mean/median/mode substitution, hotdeck, single regression, etc.

- Basado en modelos (Expectation Maximization Maximum Likelihood, Multiple Imputation)

(70)

Missing values

(71)

Ejemplos Missing values en encuestas

1. Dos tipos de No-respuesta en encuestas:

1.1 unit non-response * 1.2 item non_response **

*1.1 Ocurre cuando el possible encuestado no respondió la encuesta ya sea por negarse o porque no pudo ser contactado.

* Por tanto el encuestador, durante el tiempo de seguimiento no podrá seguir el mismo número de sujetos

http://dam.ukdataservice.ac.uk/dataskills/longitudinaldata/4/story_html5.html

(72)

Ejemplos Missing values en encuestas

• Incluir la información del número de encuestados y motivo como variable en el dataset

• Razones de No – respuesta

• Controlar los sujetos que abadonaron y los que se volvieron a incluir

durante el seguimiento de la encuesta

(73)

Ejemplos Missing values en encuestas

1.2 item non_response **

• Cuando el encuestado realize la encuesta pero no responde todas las preguntas (Missing or No-válidos)

• Codificar los valores

(74)

Ejemplos Missing values en encuestas

1.2 item non_response **

• Evitar confusions y asumir que ej: Código -8 (No applicable) es debido a errores en los datos

• La razón más común es que no todas las preguntas son respondidas por todos los encuestados.

• Solución a mano: Ir al cuestionario para esa pregunta en específica.

(75)

Análisis Exploratorio de Datos

(76)

Resumen de los datos (Estadística descriptiva)

• ¿Qué puede ser relevante ?

• Buscar una (s) perla (s) entre

las ostras

(77)

Análisis Exploratorio de los datos (AED)

• Exploración de los datos. (E.D.A. exploratory data analysis, J.Tukey)

El objetivo de este análisis exploratorio es:

a) Buscar posibles relaciones de la variable

respuesta/dependiente con la(s) variable(s) explicativa(s);

b) Considerar la necesidad de aplicar transformaciones de las variables;

c) Eliminar variables explicativas que estén altamente

correlacionadas.

(78)

Análisis Exploratorio de los datos (AED)

Explorar

Plots, trends, timelines, etc.

Analizar

Desarrollar y testar hipótesis Descubrir errores en los datos,

anomalías.

Encontrar patrones

(79)

Exploración de los datos (Estadística descriptiva)

Explorar los datos es el primer paso para entender los datos de tu encuesta. Implica identificar:

•

Los valores más altos y más bajos (min y max)

•

^´ Los valores típicos (Medidas de tendencia central, media, mediana,)

•

Los valores que son comunes (moda)

•

Cómo se distribuyen los valores (rangos, dispersión)

Explorar los datos te ayudará a comprender las principales características de tus datos, como valores ausentes, posibles outliers y sus características

(80)

Resumen de los datos (Estadística descriptiva)

(81)

Resumiendo las distribuciones de los datos

Puedes resumir como se distribuyen tus datos a partir de tablas, gráficos Ejemplos de resúmenes estadísticos :

Para variables categóricas:

•

^conteos

•

porcentajes

•

Tablas de frecuencia Para variables continuas:

•

medidas de tendencia central (media, moda , mediana)

•

medidas de dispersión (desviación estándar, rango)

• ¿ Cual es la distribución de frecuencia y porcentajes de hombres y mujeres ? (Var: Sexo)

• ¿ Cual es la media de edad de los pacientes incluidos en mi estudio ? (Var: Edad )

(82)

Resumen de las variables cuantitativas

(83)

Resumen estadístico de valores continuos

Interpretación para datos con distribución normal

Media

En este ejemplo, la media de horas trabajadas por los encuestados en la semana de referencia fue de 31,96. Esto no significa que todos trabajaron esta cantidad de horas; algunos pueden haber trabajado más y algunos pocos o ninguno y este valor tiene en cuenta ambos.

(84)

Resumen estadístico de valores continuos

Interpretación para datos con distribución normal

Desviación estándar

• La desviación estándar es una medida de dispersión. Mide la distancia promedio a la que se encuentran los valores de la media, es decir, muestra si todos están agrupados cerca de la media o dispersos más separados.

• Provee contexto importante de los datos. Si es pequeño, significa que los valores en el dataset están cerca de la media. Si es un valor alto, significa mucha dispersión, lejos de el valor promedio, el valor más representativo.

(85)

Resumen estadístico de valores continuos

(86)

Resumen estadístico de valores continuos

(87)

Tablas de frecuencias

Las tablas de frecuencia cuentan el número de veces que se seleccionó una determinada respuesta para cada valor de una variable.

(88)

Es importante comprender:

Columna porcentaje: Son calculados como el porcentaje de todos los encuestados que respondieron a la pregunta

Columna porcentaje válido: se calculan como un porcentaje de todos los que respondieron la pregunta, excluyendo a los codificados como faltantes.

La columna "porcentaje acumulado" es el porcentaje total de la muestra que se ha contabilizado hasta esa fila. Esto se puede calcular sumando todos los números en la columna Porcentaje válido arriba de la fila actual.

Interpretando una tabla de frecuencia

(89)

Interpretando una tabla de frecuencia

En la columna de porcentaje válido de esta tabla, podemos ver que el 26,1 % de las personas tiene una calificación equivalente a un título o superior, mientras que el 10,5 % no tiene ninguna calificación educativa.

(90)

Interpretando una tabla de frecuencia

• En la tabla de frecuencia anterior, “I dont know” " se incluye como una respuesta válida (non-missing). Normalmente, las respuestas codificadas como "no sé" se excluyen de los

análisis, por lo que podríamos volver a codificar este valor como faltante y volver a crear la tabla.

• Sin embargo, puede haber algunas situaciones en las que sea útil mantener "no sé" como una respuesta válida, p. si su investigación quisiera observar a aquellos que no saben qué calificaciones tienen.

• Depende del investigador si incluir la respuesta “I dont know” como válida o no.

(91)

Análisis de la relación entre variables

1 VARIABLE CUANTITATIVA Y 1 VARIABLE CUALITATIVA

• T DE STUDENT Y RELACIONADOS Datos independientes o apareados, ¿siguen una distribución normal?

• ANOVA (+ 2 DE GRUPOS) Detecta diferencia globales, test post-hoc para las diferencias entre qué pares de grupos

2 VARIABLES CUANTITATIVAS:

• Análisis de correlación (coeficiente perason o spearman según normalidad de los datos)

• Análisis de regresión simple 2 VARIABLES CUALITATIVAS:

• Tablas de contingencia (Tests: chi-cuadrado o Test exacto de Ficher.

(92)

Contraste de hipótesis

(93)

Contraste de hipótesis

Se busca aceptar o rechazar una hipótesis estadística acerca de un parámetro o característica de la población, pero que se contrasta a partir de los resultados de una muestra de la población.

• Rechazaremos la H0 (aceptando la alternativa) cuando la discrepancia entre la media observada y la teórica sea grande

• Aceptaremos la H0 si la media muestral está dentro del intervalo seleccionado y la rechazaremos en caso contrario

• Estamos asumiendo un riesgo del 5% (nivel de significación) de equivocarnos y rechazar Indebidamente H0 (riesgo tipo I)

https://github.com/Yusnelkis/introstatsconr/blob/master/Presentaciones/Estad%20en%20CCSS%20con%20R.pdf

(94)

Contraste de hipótesis. Ejemplo.

# No sé si tengo fiebre o no

Tu tienes una intuición y quieres investigar si esta intuición es cierta.

Tu hipótesis de investigación es que “tengo fiebre”. También llamada hipótesis del investigador o alternativa (H1).

Por el contrario tienes la hipótesis nula. ¿Por que nula?. Es la contraria. “NO tengo fiebre”

Además utilizas un criterio para decidir sin la hipótesis de investigación “tengo fiebre” es cierta.

Si el valor es más alto que 37ºC tienes fiebre.

Por lo contrario no tienes fiebre

(95)

Contraste de hipótesis. Ejemplo.

https://conceptosclaros.com/contraste-hipotesis/

# Quieres ver si el tratamiento de una lesión de rodilla es más efectivo que otro

La hipótesis de investigación es que este nuevo tratamiento es mejor que el convencional.

La hipótesis nula es que el nuevo tratamiento NO es mejor que el convencional.

(96)

Contraste de hipótesis. P valor y selección de test.

 P valor: la probabilidad de error en que incurriríamos en caso de rechazar la hipótesis nula con los datos de que disponemos

Un número que te va a dar el test estadístico para ver si te puedes quedar con la hipótesis de investigación o no.

Pero necesitas un criterio. En el caso de la temperatura tienes el criterio de 37ºC. En estadística normalmente se utiliza el 0.05 (o el 5%)

El valor que vas a mirar para decidir si tu hipótesis de investigación es cierta o no.

Sigue esta receta:

• Si el pvalor es más grande que 0.05 NO puedes rechazar la hipótesis nula (“NO tengo fiebre”)

• Si el pvalor es más pequeño que 0.05 rechazas la hipótesis nula (“NO tiengo fiebre”) y te quedas

(97)

Contraste de hipótesis. Resumen pasos

A) Formular las hipótesis de investigación

• H1 o hipótesis del investigador (la que quieres justificar que es cierta con datos reales)

• H0 o hipótesis nula (contraria que la H1)

B) Decidir el criterio de significación

• El criterio más típico es 0.05 (5%)

C) Elección de la prueba estadística

• ¿Qué test estadístico es el que vas a aplicar?

• Ten en cuenta si los grupos que vas a comparar siguen una distribución normal

• Ten en cuenta si hay homogeneidad de la varianza en los dos grupos. Varianzas similares.

• Ten en cuenta si los grupos son muestras independientes o apareadas.

• Tienes variables de dos muestras o más de 2 C) Calcula el p valor

Utiliza los soft para el tratamiento de datos (R, SPSS, Excel, etc)

D) Conclusión

p<0.05 Rechazas la hipótesis nula y te quedas con la hipótesis del investigador. Tienes fiebre.

p>0.05 NO puedes rechazar la hipótesis nula y NO puedes

demostrar que la hipótesis del investigador sea cierta. (NUNCA decir que la H0 es cierta, sino que no la podemos rechazar)

(98)

Contraste de hipótesis. Distribución de los datos

¿ Cómo se distribuyen los datos ? ¿Qué es una distribución de los datos ?

La distribución de una variable describe la forma en la que los valores en un dataset se distribuyen en el rango de todos los posibles valores

Ejemplo:

- Imagina que medimos la altura de 100 personas. Es probable que haya un rango de diferentes valores para la altura, desde alrededor de 150 a 190 cm.

La mayoría de las personas está cerca de la altura promedio (barra en el gráfico).

Cuando esto ocurre estamos ante una Distribución normal de los datos (curva). Pero los datos se pueden distribuir de muchas otras formas y no seguir este patrón

(99)

Distribución de los datos Normal o paramétrica

No paramétrica

(100)

Resumen de los datos (Estadística descriptiva)

(101)

Contraste de hipótesis. Intervalo de confianza.

 Si fijamos el intervalo de confianza en el 95% la media de la población está entre los límites especificados con una probabilidad del 95%. El 5% no lo contienen

(102)

(103)

Análisis

Variables categóricas

(104)

Tests

(105)

https://www.youtube.com/watch?v=ruLCTkX4tRk

Tablas cruzadas / Tests

(106)

Tablas cruzadas

¿Cómo medir si existe relación entre dos variables categóricas del estudio ? Ejemplos:

¿ Cómo se comporta la variable “creencia sobre la existencia de armas …”

en función del Sexo?

(107)

Tablas cruzadas / Tabla de 2x2

Es la tabla donde voy a relacionar dos variables que tienen dos niveles.

Veamos si existe relación entre el Tipo de telf. (TIPO_TEL) que usan y el Sexo de los participantes en la encuesta

Sexo

Tipo de Telef.

Hombre

Mujer

Móvil Fijo

(108)

Tablas cruzadas / Tabla de 2x2

Seleccionar: Analizar / Estadísticos descriptivos / Tablas cruzadas o de contingencia

(109)

Tablas cruzadas / Tabla de 2x2

Pasar Sexo donde dice “Filas” y luego Tipo-Tef en “Columnas”.

#Tip: Siempre colocar en columnas la variable de respuesta o desenlace que nos interesa

En este caso queremos saber si

Ser hombre o mujer influye en el tipo de telf.

Utilizado

(110)

Tablas cruzadas / Tabla de 2x2

Dar clik en el botón de estadísticos y seleccionar la casilla de Chi-cuadrado

(111)

Tablas cruzadas / Tabla de 2x2

Dar clik en el botón casillas y en recuentos seleccionar las casillas de observado y esperado. Para análisis más detallados se tienen en cuenta los Residuos tipificados.

(112)

Tablas cruzadas / Tabla de 2x2

En el visor de resultados genera una primera tabla donde se observan las frecuencias de los valores perdidos y el total.

En la segunda tabla se observan las frecuencias (N.

casos ) que resultan de cruzar cada categoría de la variable Sexo que divide o clasifica los datos en Femenino y Masculino y la variable Tipo de Telf que lo divide en Móvil vs Fijo.

Ofrece las frecuencias totales correspondiente a cada variable de forma individual

Aparecen los valores observados para cada combinación y también los esperados que los pedimos para saber si es posible aplicar el estadístico de Chi-cuadrado o no.

(113)

Tablas cruzadas / Tabla de 2x2

¿Existe relación entre el Tipo de telf. (TIPO_TEL) que usan y el Sexo de los participantes en la encuesta ?

La primera ji cuadrado es la de Pearson, que es la que, si se cumplen los supuestos, se suele utilizar para la interpretación.

Este es un valor aproximado “asintótico”. Se aproximan tanto mejor cuanto mayor es el tamaño de la muestra.

En cambio, la prueba de Fisher es exacto, por eso su valor aparece en otra columna. Esta

prueba sólo se puede utilizar entre variables de 2x2, como es este caso.

(114)

Tablas cruzadas / Tabla de 2x2

Si algún valor esperado en una tabla de 2x2 es inferior a 5 no sirve o no podemos utilizar la prueba de ji cuadrado y hay que utilizar en su lugar la prueba de Fisher.

En las tablas que tengan más de 4 casillas, al menos el 80% de los valores esperados deben ser superiores o igual a 5.

¿Qué significa?

(115)

Tablas cruzadas / Tabla de 2x2

El estadístico de chi-cuadrado toma un valor muy alto (35.025) con una p asociada (significación asintónica bilateral) < 0.001. Se evidencia una relación estadísticamente significativa entre el Sexo y el tipo de telf.

¿Cómo lo interpretamos?

(116)

Tablas cruzadas / Ejemplo 2

En este ejemplo, los % por fila nos darán % de todos los hombres en la muestra que trabajaron a full time, y el % de todas las mujeres en la muestra de los que trabajaron a full time.

Esto nos permitiría hacer comparaciones entre ambos sexos.

• El 85.0 % de hombres trabajaron a tiempo completo comparado con un 54.5 % de mujeres.

¿Cómo lo interpretamos?

Podemos agregar porcentajes por fila para comparar proporciones

(117)

Tablas cruzadas / Ejemplo 2

En este ejemplo, los % solicitamos extraerlos por columna.

Podemos ver cuál % de todos los que trabajan a full time son hombres y cuál % son mujeres.

• En la siguiente tabla podemos ver que de los que trabajan a tiempo parcial, el 75,7% son mujeres

¿Cómo lo interpretamos?

Podemos agregar porcentajes por columnas para comparar proporciones

(118)

Resumen estadístico de valores continuos

(119)

Resumen de las variables cuantitativas

(120)

Análisis

Variables numéricas

(121)

Selección del test

 Variable normal: Medida de tendencia central (media aritmética)

 Variable no normal: Medida de tendencia central (mediana)

 Datos independientes: aquéllos que se obtienen al realizar el contraste con

dos muestras distintas

Ej: Diferencia en el salario medio entre directivos y personal técnico de la empresa.

 Datos apareados: aquéllos que se

obtienen al realizar dos contrastes sobre una misma muestra

Ej.: Diferencia entre el salario inicial y el actual entre el personal técnico de la

empresa X

(122)

Selección del test

(123)

Contraste de hipótesis. Ejemplo variable salarios

(124)

Contraste de hipótesis. Test no paramétricos

En ocasiones los datos No se ajustan a una distribución normal, distribuciones muy asimétricas.

La dispersión es muy grande o la media está muy afectada por valores extremos

Para abordar estos problemas, se emplean contrastes que utilizan la mediana y que no emplean parámetros de una distribución concreta

Comparan MEDIANAS

Trabajan con rangos de orden en lugar de que con los datos originales

Comprueba la normalidad:

Test de normalidad:

(125)

Contraste de hipótesis. Test no paramétricos

Comprueba la normalidad:

Test de normalidad:

• Kolmogorov-Smirnov para muestras >= 50

• Shapiro-Wilk para muestras <= 50

Visualización exploratoria:

• histogramas, diagrama de cajas o Box-Plot, Gráficos de normalidad

(126)

Dos variables cuantitativas

(127)

Análisis de correlación

Coeficiente de correlación lineal de Pearson

• Para datos con relación normal

• Se define como el cociente entre la covarianza y el producto de las desviaciones típicas

• Sus valores oscilan entre -1 y +1

• Cuanto más se aproxime I r I a 1, mayor es el grado de relación entre las variables

• Analizamos la relación entre dos variables numéricas. Relación, NO dependencia. La dependencia se analiza con la regresión.

• ¿La relación es fuerte o es débil ?

(128)

Análisis de correlación

Coeficiente de correlación Rho de Spearman:

• Para datos con relación no - normal o no – paramétrica.

• Se basa en los rangos de los datos en vez de en los valores reales y es apropiado para datos ordinales, además de cuantitativos.

Tau de Kendall: Medida no paramétrica de asociación para variables ordinales o de rangos que tiene en consideración los empates

(129)

Datos de encuesta

(130)

European Social Survey

http://www.europeansocialsurvey.org/

Proveedores de macrodatos

European Values Study

(131)

Barómetros: Datos de opinion pública

http://www.cis.es/cis/opencm/ES/11_barometros/index.jsp

Proveedores de macrodatos

(132)

Los datos de encuesta

• Proceso de recolección de datos que produce datos denominados microdatos

Microdatos Proceso

sistemático de recogida de

datos

Uso de muestras representativas Datos de encuesta

(133)

Los datos de encuesta

• Recogidos con propósito de investigación

• Información estandarizada

• Información recogida a partir de un rango de características que pueden variar

• Cuestionarios (Papel / online)

• Entrevistas (Cara-cara / telf.)

(134)

Los datos de encuesta

2) Crear datos a nivel individual 1) Respuesta a la encuesta

Caso Sexo Sentimiento

1 F No me importa

2 M Engañado

3 F Me da risa

(135)

Los datos de encuesta

Encuesta de temas de actualidad. CIS. Marzo 2022.

Variables

Casos

Valor

• Casos en filas,

• Variables en columnas

(136)

Los datos de encuesta

Encuesta de temas de actualidad. CIS. Marzo 2022.

Descripción variables Metadatos incrustados

(137)

Esto no debe ocurrir

(138)

Los datos de encuesta / Missing values

• Usa una notación consistente para los campos sin valores

• Utiliza un campo separado (para revision de calidad)

• Tratamiento adecuado de los N/A

• Para campos numéricos, usar valor extremo como ej: -9999

• Para campos caracter, “NA”

(139)

Los datos de encuesta / Missing values

-9 La pregunta no fue respondida

(140)

Los datos de encuesta / Missing values

1. Dos tipos de No-respuesta en encuestas:

1.1 unit non-response (Unidad, caso) *

1.2 item non_response (Pregunta concreta no respondida)**

(141)

Los datos de encuesta / Missing values

1.1.unit non-response *

*1.1 Ocurre cuando el possible encuestado no respondió la encuesta ya sea por negarse o porque no pudo ser contactado.

* Por tanto el encuestador, durante el tiempo de seguimiento no podrá seguir el mismo número de sujetos

(142)

Los datos de encuesta / Missing values

• Incluir la información del número de encuestados y motivo como variable en el dataset

• Razones de No – respuesta

• Controlar los sujetos que abadonaron y los que se volvieron a incluir durante el

seguimiento de la encuesta

(143)

Los datos de encuesta / Missing values

1.2 item non_response **

• Evitar confusiones y asumir que ej: Código -8 (No applicable) es debido a errores en los datos

• La razón más común es que no todas las preguntas son respondidas por todos los encuestados.

• Solución a mano: Ir al cuestionario para esa pregunta en específica.

(144)

Selecciona tu muestra

El objetivo del análisis de encuestas es usar la información de los datos de encuestas para hacer inferencias sobre la población, pero no todas las técnicas de muestreo producen datos que se pueden usar de esta manera.

• Una muestra es una selección de los encuestados elegidos y que

representan a la población total.

• Estos elegidos son los que,

potencialmente, responderán a tus preguntas

(145)

Selecciona tu muestra

(146)

Selecciona tu muestra

Población:

…la colección de todos los ítems que estamos

interesados en estudiar (Ejemplo, todos los árboles

de un bosque que me interesa estudiar, la foto 1)

(147)

Selecciona tu muestra

Una colección de los ítems de esa población (un subconjunto de los arboles del bosque, en naranja en la foto).

•La muestra son los datos que tienes y la población los datos que quisieras tener. En algunas situaciones coincide.

•La muestra debería comprender entre 5% y 10%

para ser más efectiva y debe ser representativa de esa población.

•Los elementos deben todos tener la misma

probabilidad de ser escogidos, es decir que sean aleatorios.

(148)

Selecciona tu muestra

• Para calcular el tamaño muestral necesitas saber:

• el tamaño de la población,

• el margen de error y

• el nivel de confianza.

! Busca apoyo con un estadístico !

(149)

Tamaño muestral

https://www.questionpro.com/es/tama%C3%B1o-de-la-muestra.html

Calculadores de muestra:

• QUESTIONPRO:

https://www.questionpro.com/es/calculadora- de-muestra.html

• SURVEYMONKEY:

https://es.surveymonkey.com/mp/sample- size-calculator/

• GRANMO

https://www.imim.es/ofertadeserveis/softwar e-public/granmo/

• NETQUEST:

https://www.netquest.com/es/gracias- calculadora-muestra

(150)

Tamaño muestral

(151)

Selecciona tu muestra

• El tamaño de la muestra es una porción significativa de la

población que cumple con las características de la investigación reduciendo los costos y el tiempo.

• Determinar adecuadamente el tamaño muestral = evitar sesgos

Representativa: Hace referencia a que todos los miembros de un grupo de personas tengan las mismas oportunidades de participar en la investigación.

Adecuada: Se refiere a que el tamaño de la muestra debe de ser obtenido mediante un análisis que permite resultados como disminuir el margen de error.

(152)

Muestreo

Tipos de muestro

• Aleatorio simple

• Estratificado

• Por conglomerados

(153)

Tipos de muestreo

• Todos los miembros tienen la misma probabilidad de ser elegidos

• Muestro aleatorio simple

(154)

Tipos de muestreo

• La población se divide en grupos

(Estratos, ex: grupos etarios, sexo, etc)

• Tiene el objetivo de garantizar que cada grupo se vea representado

• Muestro estratificado

(155)

Tipos de muestreo

• Utiliza el muestreo aleatorio simple para seleccionar conglomerados

• Los conlogmerados son respondedores potenciales que están agrupados bajo determinados criterios (Personas de un área geográfica, de una escuela, etc)

• My usado en encuestas de gran escala

• Muestro por conglomerados

(156)

Calcula el número de cuestionarios que debes aplicar

Calcula el número de cuestionarios que vas a aplicar

(157)

Tipos de preguntas que

puedes responder con datos

de encuesta

(158)

Tipos de preguntas

• Características de una población (Descripción de cómo se distribuye una variable. Ej: Edad, temperatura, tipo de telf usado, Fumador (Si/no), Nivel de estudios, etc)

• Relaciones entre dos características (Cómo A afecta a B ? Ex _ ¿Cómo afectan las diferentes condiciones de salud física y mental a las tasas de ausencia entre los

trabajadores en edad productiva en el Reino Unido?

• Control de características adicionales que afectan una relación ( Potencial factores, Ex: Tabaco, edad, sexo, etc)

(Necesidad de análisis multivariantes )

• Comparar datos temporales a distintos niveles geográficos

(159)

Software para el procesamiento de datos de

encuesta

(160)

• SPSS

• PSPP

• R

• Stata

• QuestionPro

Software estadístico para el tratamiento de datos

de encuestas

(161)

Plataformas para recogida de datos de encuesta

• Google forms

• Survey monkeys

https://es.surveymonkey.com/

Tutorial: https://www.youtube.com/watch?v=dFJ7geOTdGM

(162)

Del formulario al soft de tratamiento de

datos (SPSS)

(163)

(164)

Tipos de variables

(165)

Tipos de variables

Variable Definición operativa Escala

Edad Edad del niño al ser admitido en el

hospital, calculada a partir de la fecha de nacimiento y de la de admisión

Meses (0 a 11)

Edad de la madre En el momento del nacimiento del niño, según informa la propia madre

Menos de 20 años 20-29 años 20-39 años 40 o más años Sin información Clase social Grado ocupacional del cabeza de

familia, usando el esquema de

gradación del Registro General Británico

1. Clase social I 2. Clase social II 3. Clase social III 4. Clase social IV 5. Clase social V 9. Inclasificable

Hemoglobina Concentración de hemoglobina en

sangre de capilares, medida por el método de la cianometahemoglobina en las 24 horas siguientes a la admisión

Grs por 100 mls

https://www.uv.es/invsalud/invsalud/disenyo-variables.htm

(166)

A las variables categóricas generalmente se les asignan números para cada categoría para que puedan analizarse más fácilmente en los paquetes de estadísticos.

Generalmente, cada categoría tiene un número y una etiqueta asociada.

Codificando las variables categóricas

(167)

Exportar datos de Google forms a SPSS

1 Formulario Google. Descargar

Descargar fichero Excel de las

respuestas del cuestionario

(168)

Exportar datos de Google forms a SPSS

2 Exportar a Excel 3 Codificar variables

Reemplazamos los valores de las respuestas por los

(169)

Exportar datos de Google forms a SPSS

4 Importar en SPSS en un fichero de datos nuevo

(170)

Exportar datos de Google forms a SPSS

5 Revisar los datos importados

• Revisar que los valores sean correctos y estén bien codificados. Tener a mano diccionario de datos

• Revisar formato adecuado al Tipo de variable

- A excepción de campos muy

específicos, mayormente son “numérico”

- Fechas = Fechas - Cadena = Cadena

En el apartado Medida, ajustar también el tipo de medida según tipo de variable (ordinal, escala (numérica) o nominal)

(171)

Comprendiendo los datos

(172)

Demo con SPSS

(173)