EL ANÁLISIS PRELIMINAR DE LOS DATOS
TEMA II
Modelos Multivariantes 2
Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela, J. (2008).
Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 17-28.
Capítulo 3: Análisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 31-57.
Capítulo 4: Inferencia estadística. Estimación de parámetros y contrates de hipótesis.
En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo. Páginas 59-96.
LECTURA OBLIGATORIA
Modelos Multivariantes 3
Preparar el archivo de datos: depurar errores e incoherencias
Resolver el problema de la falta de respuesta: tamaño de la muestra
(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar)
Problema I: los datos no son buenos
Tratar los casos anómalos: elección de los estadísticos adecuados
Comprobación de supuestos paramétricos: pruebas paramétricas vs. no paramétricas, elección de la técnica multivariante concreta
Problema II: las herramientas no son las adecuadas
Resumir la información que contienen los datos, informar de las tendencias, realciones entre variables, etc.
Razones por las que examinar los datos
Modelos Multivariantes 4
Errores de grabación e incoherencias
La Depuración de los Datos
Valores fuera de rango (no admisibles):
Tablas de Frecuencias para todas las variables
Incoherencias entre respuestas (preguntas filtro):
Tablas de Contingencia para pares de variables
¿Cómo corregir los errores?
Buscar los valores erróneos en la matriz de datos (variable por variable) e ir subsanándolos
Modelos Multivariantes 5
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra matriz de datos. Seleccionamos una submuestra de cuestionarios y comprobamos cuántos errores hay.
Seleccionar una submuestra aleatoria (entre el 10 y el 20%)
Contar el número de datos erróneos
Hacer una Regla de Tres para estimar cuántos habrá en toda la matriz
Aplicar la fórmula del PE
[Errores / (casos x variables)] x 100
El resultado debe ser inferior al 0.05%
Muestreo de Errores
Modelos Multivariantes 6
Los valores ausentes o casos
“MISSING”
RIESGOS:
1. LA CAPACIDAD DE GENERALIZACIÓN DE LOS RESULTADOS (lo que en principio era una muestra adecuada se convierte en inadecuada y no representativa)
2. La reducción excesiva del tamaño de la muestra condiciona las
estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las comparaciones (REDUCIENDO AL SIGNIFICACIÓN ESTADÍSTICA)
3. LOS RECHAZOS. ¿Son iguales los que responden a una encuesta que los que no responden?. ¿Los missing siguen algún patrón?, ¿de quién
estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS) LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes 7
Varias estrategias:
Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia, Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los que responden y los missing se comportan igual, que no existen diferencias estadísticamente significativas entre ambos grupos.
¿Se distribuyen al azar?
Modelos Multivariantes 8
Media de la serie
Media de los puntos adyacentes
Mediana de los puntos adyacentes
Interpolación lineal
Tendencia lineal en el punto
Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
Regresión lineal
Esperanza Maximización (EM)
¿Sustituirlos o imputarlos?
SUSTITUCIÓN
IMPUTACIÓN
Modelos Multivariantes 9
“Valores que caen fuera del rango normal de los datos”
CRITERIO: distancia respecto al cuerpo central de la distribución (50% de los casos, los que están entre el P75 y el P25) ¿Cuántas veces el valor del IQR (Recorrido Intercuartílico)
OUTLIERS... 1.5 IQR 3 IQR EXTREMOS... 3 IQR
Los valores ANÓMALOS o atípicos
Modelos Multivariantes 10
3 Ejemplos:
A NIVEL UNIVARIADO: Gasto promedio fin de semana
A NIVEL BIVARIADO: Contraste de hipótesis para dos medias. Ingresos deportistas profesionales
A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el análisis de regresión lineal
Implicaciones de los casos anómalos
Modelos Multivariantes 11
SOLUCIONES:
Acudir a estadísticos distintos de los habituales y
“RESISTENTES” (Mediana, Media reducida, M-estimadores:
Andrews, Huber, Tukey, Hampel)
Utilizar Contrastes no paramétricos: Mann-Withney, Prueba de la Mediana, Kruskal-Wallis
Detectarlos, eliminarlos de la muestra y repetir el análisis (deben ser pocos y poco influyentes), recurrir a un
procedimiento de Remuestreo (Bootstrapping) o a procedimientos de estimación robustos.
Implicaciones de los casos anómalos
Modelos Multivariantes 12
A nivel univariante:
Numéricamente (IQR)
Gráficos de Caja (BOXPLOT)
Gráficos de Tallo y Hojas
A nivel bivariado:
Gráficos de DispersiónA nivel multivariado:
Residuos (tipificados, studentizados, etc.)
Distancia de Mahalanobis
Distancia de Cook
¿Cómo detectarlos?
Modelos Multivariantes 13
2 0 N =
INGRESOS 600000
500000
400000
300000
200000
100000
0
9 1 0
El BOXPLOT
Modelos Multivariantes 14
MUCHA INFORMACIÓN:
Extremos y outliers Percentiles 75 y 25 IQR
Mediana Asimetría
Comparar la distribución de 2 o más variables
Comparar la distribución de 2 o más grupos en una misma variable
BOXPLOT
Modelos Multivariantes 15
2 0 2 0
N =
GASTOS INGRESOS
600000
500000
400000
300000
200000
100000
0
-100000
2 1 9 1 0 9
1 0
Comparar la distribución de dos o más
variables
Modelos Multivariantes 16
1 0 1 0
N =
SEXO
MUJER HOMBRE
INGRESOS
600000
500000
400000
300000
200000
100000
0
1 0
Comparar la distribución de dos o
más grupos
Modelos Multivariantes 17
Para elegir la prueba estadística adecuada en cada caso Optar por Pruebas Paramétricas ó No Paramétricas
Garantizar la Estabilidad del modelo
Ejemplos:
t de Student ó Mann-Withney
Anova ó Kruskal-Wallis
Discriminante o Regresión Logística
La comprobación de supuestos
Modelos Multivariantes 18
NORMALIDAD,
que la VD se distribuya normalmente ALEATORIEDAD o Independencia de las medidas: que los sujetos hayan sido seleccionados al azar (ANOVA)HOMOCEDASTICIDAD u Homogeneidad de varianzas:
que los distintos grupos posean una variabilidad similar
LINEALIDAD: Relación lineal entre las variables analizadas
OTROS: ausencia colinealidad, normalidad de los residuos
¿Cuáles son esos SUPUESTOS?
Modelos Multivariantes 19
NORMALIDAD: Prueba K-S con corrección de Lilliefors (muestras pequeñas: Shapiro-Wilk)
ALEATORIEDAD: Prueba de las Rachas HOMOCEDASTICIDAD: Prueba de Levene
Se parte siempre de que se cumplen los supuestos salvo que las pruebas sean significativas (p< 0.05)
LINEALIDAD: Gráfico de dispersión y/o correlación
¿Cómo se comprueban?
Modelos Multivariantes 20
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetría Positiva FUERTE: -1/X3, ó -1/X SUAVE: log X ó X
Asimetría Negativa FUERTE: antilog X SUAVE: X2 ó X3
Recurrir a una prueba no paramétrica o a técnicas multivariantes más robustas