1
Curso teórico práctico de demostración
Introducción a la
Bioestadística
con el Programa de Análisis Estadísticos G-Stat
2.0
Madrid
Fechas: 21 y 22 de Noviembre 2006 Biometría
GSK
2
6D1_90
Clasificación práctica de técnicas estadísticas
6D1_90
Estima
ESTIMACIÓN
Poblaciones
Decide
C.HIPÓTESIS
Conocimiento
Muestras
Procesa
Resume
DESCRIPTIVA
3
63 enfermos tomaron parte en un estudio cruzado para determinar la
eficacia de 2 tratamientos: A y B.
Al término del estudio señalaron su preferencia por uno de ellos.
31 prefieren A
15 prefieren B
17 no muestran preferencia
Ejemplo
Resultados
Clasificación de la Estadística
4
Población
El verdadero valor de la diferencia A-B en la población
estará comprendido en el IC
[ 9.2%
A-B
41.2% ]
Estimación
Diferentes tipos de técnicas estadísticas
(I)
49.2 %
23.8%
26.9%
A-B = 25.4 %
Muestra
A
B
A B
Descriptiva
5
Explicación / Predicción
Si el sujeto es mujer y la gravedad es moderada la
preferencia de A sobre B es solo un 12%
Modelización
Diferentes tipos de técnicas estadísticas
(y II)
Existe evidencia de que A es más preferido que B
(McNemar; p=0.0183)
Conocimiento
C. Hipótesis
6
Contenido del curso
I- Manejo de G-Stat/Datos
Características, Instalación
Menús
Importar datos
Manejo de variables
II- Descriptiva
Tipos de variables
Descriptiva uni y bivariante
Gráficos
Ajuste a la normal
Epidemiología, Diagnóstico
IV- Pruebas estadísticas
t-Student, Mann-Whitney (Wilcoxon)
ANOVA, Kruskal-Wallis
Chi Cuadrado
Fisher
V- Correlación y Regresión simple
Diagrama de dispersión
Coeficientes de la recta de regresión
Correlación de Pearson y Spearman
Análisis de los residuos
Modelos transformados
VI- Técnicas multivariantes
Regresión lineal múltiple
Regresión logística
Análisis de supervivencia
III- Estimación
Concepto de estimación
Error estandar
Intervalos de confianza
7
Módulo I : Manejo de G-Stat
/ Datos
G-Stat
2.0
Características
Instalación y contenido del CD-ROM
Pantalla de trabajo (BdD) y Menús
Manejo de datos
Importar datos
Fichero de ejemplo
Transformación de variables
8
Características
SW Libre distribución
Enfocado en Bio-Ciencias
Actualizable
Menús con orden
Multi S.O.
No programación
Usuarios no profesionales de la estadística
Desarrollado por Biometría-GSK
9
Instalación:
1. Leer las condiciones de licencia
2. Doble clic en install
3. Doble clic en la opción del sistema operativo en la ventana que aparece
4. Seguir instrucciones de instalación
5. Observar que hay una versión PDF del manual
G-Stat
2.010
G-Stat
2.0Pantalla de trabajo y Menús
11
Manejo de datos
Fichero integrado
ImportarIconos
Variables
Casos
12
Bases de Datos
EXCEL
ASCII
SW ESTADÍSTICO
Texto delimitado por tabulaciones
Manejo de datos
Importar datos
13
Variables del fichero Manejo de datos1.txt
EDAD: (edad en años del paciente)
SEXO: 1_Hombre, 2_Mujer
PESO: en Kg.
TALLA: en cm.
TAS: en mmHg.
TAD: en mmHg.
DIABETES: No, Tipo 1, Tipo 2
Manejo de datos
Abrir
Archivo
14
Ejemplos:
DT=TAS-TAD
Log_peso=ln(Peso)
IMC=Peso/altura^2
Manejo de datos
Transformación de variables
Transformación
Manejo de datos1.txt15
Recodificar
BdD Recodificada
Manejo de datos
Recodificación
16
Filtrar
BdD Filtrada
Manejo de datos
Filtrado
17
Manejo de datos
Cómo realizar un análisis estadístico en menos de 1’
No programación
No hay sesiones
Sí hay que guardar resultados
Sí hay que guardar datos
18
Contenido del curso
I- G-Stat/Datos
Características, Instalación
Menús
Importar datos
Manejo de variables
II- Descriptiva
Tipos de variables
Descriptiva uni y bivariante
Gráficos
Ajuste a la normal
Epidemiología, Diagnóstico
IV- Pruebas estadísticas
t-Student, Mann-Whitney (Wilcoxon)
ANOVA, Kruskal-Wallis
Chi Cuadrado
Fisher
V- Correlación y Regresión simple
Diagrama de dispersión
Coeficientes de la recta de regresión
Correlación de Pearson y Spearman
Análisis de los residuos
Modelos transformados
VI- Técnicas multivariantes
Regresión lineal múltiple
Regresión logística
Análisis de supervivencia
III- Estimación
Concepto de estimación
Error estandar
Intervalos de confianza
19
Definición y Bases de Datos
Tipos de variables
Descriptiva uni y bivariante, análisis estratificado
Gráficos
Ajuste a la normal
Medidas de efecto en Epidemiología y Diagnóstico
Validación de los datos
Módulo II
Descriptiva
20
Algunas definiciones básicas
Población
Muestra
Muestra representativa o aleatoria
Caso, sujeto, unidad
Característica
Variable
factores
respuesta explicativa
demográficas
gestión
ficticias
principal, secundarias
Base de datos
definición21
índices, medidas, estadísticos
Resumir, describir, sintetizar … la muestra
Descriptiva
Objetivo de la Estadística Descriptiva
obtenidos a partir de la muestra
22
Descriptiva
Ejemplo de publicacion
23
Descriptiva
Estudio de Migraña
Se desea hacer un análisis descriptivo de una muestra de 259 migrañosos.
Se han recogido datos relacionados con su enfermedad
24
Variables
Centro
Centro1, Centro2…
Sexo:
Mujer, Hombre
Edad
Años
Intensidad:
1 Leve, 2 Moderada, 3 Severa
Duración:
1 (4-12h), 2 (12-24h), 3 (24-48h), 4 (>48h)
Localización:
1 Hemicraneal, 2 Holocraneal
Productividad: Pérdida de horas /año
FBG:
Fibrinógeno sérico
Leucocitos:
Recuento
Descriptiva
Estudio Migraña
25
Descriptiva
Datos Estudio Migraña
CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD
1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.29
1 Mujer 35 Moderada 4-12 Hemicraneal Si 4.29
1 Mujer 25 Moderada 4-12 Hemicraneal Si 2.57
1 Mujer 28 Moderada 4-12 Holocraneal Si 2.29
1 Mujer 32 Moderada 4-12 Holocraneal Si 4.57
1 Mujer 27 Moderada 4-12 No 9.14
2 Mujer Severa >48 Hemicraneal Si 8.57
2 Mujer 38 Severa 4-12 Hemicraneal No 5.14
3 Mujer 42 Moderada 12-24 Hemicraneal Si 8.00
3 Mujer 63 Moderada 12-24 Holocraneal Si 9.57
3 Hombre 36 Moderada 4-12 Holocraneal Si 18.29
3 Mujer 40 Moderada 4-12 Holocraneal Si 12.57
3 Hombre 38 Moderada 12-24 Hemicraneal No 10.86
3 Mujer 42 Moderada 4-12 Hemicraneal Si 5.43
3 Hombre 48 Moderada 4-12 Hemicraneal Si 7.71
3 Mujer 52 Moderada Hemicraneal Si 9.14
3 Hombre 46 Moderada 4-12 Holocraneal Si 6.86
4 Mujer 36 Severa 4-12 Hemicraneal Si 15.71
4 Hombre Severa >48 Hemicraneal No 12.14
4 Hombre 49 Severa 24-48 Hemicraneal No 51.43
4 Mujer 43 Severa 12-24 Hemicraneal Si 100.00
4 Hombre 52 Moderada 4-12 Hemicraneal No 25.00
5 Mujer 36 Severa 24-48 Hemicraneal Si 13.71
5 Mujer 53 Leve 4-12 Hemicraneal Si 3.43
5 Mujer 50 Moderada 24-48 Holocraneal No 28.57
. . . .
26
¡ Los Estadísticos Descriptivos que se emplean
dependen
del tipo de variable !
Descriptiva
27
Ordinales
Cualitativas (a,b,c)
Cuantitativas (x,y,z)
Centro, Tratamiento
Temperatura, Edad, Col.
Dicotómicas o Binarias
Sexo
,
Curación
¡ Las pruebas Estadísticas dependen del tipo de variable !
Descriptiva
Clasificación de Variables
Descriptiva
Análisis
28
¡ Las pruebas Estadísticas dependen del tipo de variable !
29 Núm. Var. Var. Respuesta Var. Explicativa Datos en la Muestra Tipo de
Técnica Técnica Menú
1 C Indep. Param. t-Student para una muestra Análisis / Cuantitativa (y) / t-Student
1 C Indep. Param. Chi-2 para una desviación típica Análisis / Cuantitativa (y) / Chi-2 para una desviación típica 1 C Indep. Param. Chi-2 bondad de ajuste Análisis / Cuantitativa (y) / Ajuste
1 C Indep. Param. Kolmogorov Análisis / Cuantitativa (y) / Ajuste 1 C Indep. Param. Kolmogorov-Lilliefors Análisis / Cuantitativa (y) / Ajuste 1 C Indep. Param. Shapiro-Wilk Análisis / Cuantitativa (y) / Ajuste 1 D Indep. No Par. z para una muestra Análisis / Cualitativa (a) / Una Proporción 1 O Indep. No Par. Signos para una muestra Análisis / Cuantitativa (y) / Signos 1 O Indep. No Par. Wilcoxon para una muestra Análisis / Cuantitativa (y) / Rangos Signados 1 Cens. Indep. No Par. Kaplan-Meier Multivariante / Regresión de Cox (xz|y cens) 2 C C Indep. Param. Regresión lineal simple Análisis / x|y / Regresión Lineal Simple 2 C C Indep. Param. Regresión lineal simple con transformaciones Análisis / x|y / Modelos Transformados 2 C C Indep. Param. Regresión polinómica Análisis / x|y / Regresión Polinómica 2 C D Indep. Param. t-Student para dos muestras independientes Análisis / Dos grupos (b|y) / t-Student 2 C D Indep. Param. F-Snedecor para dos desviaciones típicas Análisis / Dos grupos (b|y) / F-Snedecor 2 C D Paread. Param. t-Student para dos muestras pareadas Análisis / Dos grupos (b|y) / t-Student. Pareados 2 C N Indep. Param. ANOVA 1 factor Anova / Un Factor (a|y)
2 C N Paread. Param. ANOVA 1 factor con bloques Anova / Un Factor con Bloques (a bloque|y) 2 C N Paread. No Par. Friedman Anova / Friedman (a bloque|y)
2 D C Indep. No Par. Regresión logística simple Multivariante / Regresión Logística (xz|b) 2 D D Indep. No Par. ROC Análisis / Diagnóstico (b|b) / ROC (y|b) 2 D D Indep. No Par. Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado
2 D D Indep. No Par. z Análisis / Tablas (a,b) / Dos proporciones. Datos agrupados 2 D D Indep. No Par. Fisher Análisis / Tablas (a,b) / Fisher
2 D D Indep. No Par. OR, RR Análisis / Epidemiología (b|b) / Tablas 2 D D Indep. No Par. Diagnóstico Análisis / Diagnóstico (b|b) / Tablas 2 D D Paread. No Par. McNemar Análisis / Tablas (a,b) / McNemar 2 D N Indep. No Par. Metha-Patel No disponible
2 D O Indep. No Par. Chi-2 de tendencia lineal Análisis / Tablas (a,b) / Chi-Cuadrado tendencia lineal (y|b) 2 N C Indep. Param. Análisis discriminante No disponible
2 N D Indep. No Par. z / Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado
2 O D Indep. No Par. Mann-Whitney / Wilcoxon para dos muestras independientes Análisis / Dos grupos (b|y) / Mann-Whitney (Wilcoxon) 2 O D Paread. No Par. Signos para dos muestras pareadas Análisis / Dos grupos (b|y) / Signos. Pareados 2 O D Paread. No Par. Wilcoxon para dos muestras pareadas Análisis / Dos grupos (b|y) / Wilcoxon. Pareados 2 O N Indep. No Par. Kruskal-Wallis Anova / Kruskal-Wallis (a|y)
2 O O Indep. No Par. Jonckheere-Tersptra No disponible
2 Cens. C Indep. No Par. Regresión de Cox simple Multivariante / Regresión de Cox (xz|y cens) 2 Cens. D Indep. No Par. Log-Rank Análisis / Dos grupos (b|y cens) / Log-Rank 3 C C,D Indep. Param. ANACOVA Anova / Anacova (ax|y)
3 C N,N Indep. Param. ANOVA dos factores Anova / Anova Dos Factores (ab|y)
≥3 C C,D Indep. Param. Regresión lineal múltiple Multivariante / Regresión Múltiple (xz|y)
≥3 D C,D Indep. No Par. Regresión logística múltiple Multivariante / Regresión Logística (xz|b)
≥3 D N,D Indep. No Par. Mantel-Haenszel Análisis / Epidemiología (b|b) / Mantel-Haenszel
≥3 N C,D Indep. Param. Análisis discriminante múltiple No disponible
≥3 O C,D Indep. No Par. Regresión "Odds proportional" múltiple No disponible
≥3 Cens. C,D Indep. No Par. Regresión de Cox múltiple Multivariante / Regresión de Cox (xz|y cens)
≥3 C,C N Indep. Param. MANOVA No disponible
≥4 C,C N,C Indep. Param. MANACOVA No disponible
2 C,C Indep. Param. r de Pearson Análisis / x|y / Regresión Lineal Simple 2 C,C Indep. No Par. Rho de Spearman Análisis / x|y / Regresión Lineal Simple
Resumen de utilización de las 50 principales técnicas estadísticas
¡ Las pruebas Estadísticas dependen del tipo de variable !
30
CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD
1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.29
1 Mujer 35 Moderada 4-12 Hemicraneal Si 4.29
1 Mujer 25 Moderada 4-12 Hemicraneal Si 2.57
1 Mujer 28 Moderada 4-12 Holocraneal Si 2.29
1 Mujer 32 Moderada 4-12 Holocraneal Si 4.57
1 Mujer 27 Moderada 4-12 No 9.14
2 Mujer Severa >48 Hemicraneal Si 8.57
2 Mujer 38 Severa 4-12 Hemicraneal No 5.14
3 Mujer 42 Moderada 12-24 Hemicraneal Si 8.00
3 Mujer 63 Moderada 12-24 Holocraneal Si 9.57
3 Hombre 36 Moderada 4-12 Holocraneal Si 18.29
3 Mujer 40 Moderada 4-12 Holocraneal Si 12.57
3 Hombre 38 Moderada 12-24 Hemicraneal No 10.86
3 Mujer 42 Moderada 4-12 Hemicraneal Si 5.43
3 Hombre 48 Moderada 4-12 Hemicraneal Si 7.71
3 Mujer 52 Moderada Hemicraneal Si 9.14
3 Hombre 46 Moderada 4-12 Holocraneal Si 6.86
4 Mujer 36 Severa 4-12 Hemicraneal Si 15.71
4 Hombre Severa >48 Hemicraneal No 12.14
4 Hombre 49 Severa 24-48 Hemicraneal No 51.43
4 Mujer 43 Severa 12-24 Hemicraneal Si 100.00
4 Hombre 52 Moderada 4-12 Hemicraneal No 25.00
5 Mujer 36 Severa 24-48 Hemicraneal Si 13.71
5 Mujer 53 Leve 4-12 Hemicraneal Si 3.43
5 Mujer 50 Moderada 24-48 Holocraneal No 28.57
. . . .
Estudio Migraña
¿
De qué tipo son las variables del estudio
?
Fichero: Migranna1.txt
31
Descriptiva univariante variables Cualitativas (a)
Frecuencias y Barras
Frecuencias
==============================================
Número de Casos: 259
INTENSIDAD Frecuencias Porcentajes
---Leve 22 8.49
Moderada 149 57.53
Severa 88 33.98
---Total 259 100.00
SEXO Frecuencias Porcentajes
---Hombre 81 31.52
Mujer 176 68.48
---Total 257 100.00
Moda:
nivel observado más frecuente
32
Descriptiva bivariante
Cruces o Tablas de dos variables cualitativas (a|b)
¿Hay diferencias de Intensidad de la migraña
en relación a los Sexos?
Fichero: Migranna1.txt
( SEXO | INTENSIDAD )
¡Hablar de los modelos!
33
Descriptiva bivariante
Cruces o Tablas de frecuencias (a|b)
¿ En qué sexo se produce una mayor frecuencia de migrañas Leves?
Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)
================================================================================ Número de Casos: 257
INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila ---| 11 ---| 54 ---| 16 ---| 81 Hombre | 4.28 | 21.01 | 6.23 | 31.52 ---| 11 ---| 94 ---| 71 ---| 176 Mujer | 4.28 | 36.58 | 27.63 | 68.48 ---Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00
Los porcentajes de cada celda se refieren al total de la tabla
34
Descriptiva bivariante
¿En qué sexo se produce una mayor frecuencia de migrañas Leves?
Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)
================================================================================ Número de Casos: 257
INTENSIDAD | Leve | Moderada | Severa | Total
SEXO | | | | Fila ---| 11 ---| 54 ---| 16 ---| 81 Hombre | 13.58 | 66.67 | 19.75 | 31.52 ---| 11 ---| 94 ---| 71 ---| 176 Mujer | 6.25 | 53.41 | 40.34 | 68.48 ---Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00
Los porcentajes de cada celda se refieren al total de cada fila
35
Descriptiva Estudio Migraña
Cuantitativa (y): descriptiva univariante
Fichero: Migranna1.txt
CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD
1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.29
1 Mujer 35 Moderada 4-12 Hemicraneal Si 4.29
1 Mujer 25 Moderada 4-12 Hemicraneal Si 2.57
1 Mujer 28 Moderada 4-12 Holocraneal Si 2.29
1 Mujer 32 Moderada 4-12 Holocraneal Si 4.57
1 Mujer 27 Moderada 4-12 No 9.14
2 Mujer Severa >48 Hemicraneal Si 8.57
2 Mujer 38 Severa 4-12 Hemicraneal No 5.14
3 Mujer 42 Moderada 12-24 Hemicraneal Si 8.00
3 Mujer 63 Moderada 12-24 Holocraneal Si 9.57
3 Hombre 36 Moderada 4-12 Holocraneal Si 18.29
3 Mujer 40 Moderada 4-12 Holocraneal Si 12.57
3 Hombre 38 Moderada 12-24 Hemicraneal No 10.86
3 Mujer 42 Moderada 4-12 Hemicraneal Si 5.43
3 Hombre 48 Moderada 4-12 Hemicraneal Si 7.71
3 Mujer 52 Moderada Hemicraneal Si 9.14
3 Hombre 46 Moderada 4-12 Holocraneal Si 6.86
4 Mujer 36 Severa 4-12 Hemicraneal Si 15.71
4 Hombre Severa >48 Hemicraneal No 12.14
4 Hombre 49 Severa 24-48 Hemicraneal No 51.43
4 Mujer 43 Severa 12-24 Hemicraneal Si 100.00
4 Hombre 52 Moderada 4-12 Hemicraneal No 25.00
5 Mujer 36 Severa 24-48 Hemicraneal Si 13.71
5 Mujer 53 Leve 4-12 Hemicraneal Si 3.43
5 Mujer 50 Moderada 24-48 Holocraneal No 28.57
36 0,0 2,9 4,9 6,4 8,6 . . . 33,4 0,0 2,9 5,0 6,4 8,6 . . . 34,3 0,0 3,1 5,0 6,6 8,6 . . . 34,3 0,0 3,4 5,1 6,9 8,6 . . . 34,3 0,0 3,4 5,1 6,9 8,6 . . . 35,7 0,0 3,4 5,1 6,9 8,6 . . . 35,7 0,3 3,4 5,1 6,9 8,6 . . . 37,1 0,3 3,4 5,1 6,9 8,6 . . . 37,7 0,4 3,6 5,1 6,9 8,7 . . . 37,9 1,1 3,6 5,4 7,1 9,1 . . . 40,0 1,4 4,0 5,4 7,1 9,1 . . . 41,1 1,4 4,1 5,7 7,1 9,1 . . . 41,7 1,7 4,3 5,7 7,1 9,1 . . . 42,9 2,0 4,3 5,7 7,1 9,1 . 18,57 . 42,9 2,1 4,3 5,7 7,1 9,3 . . . 48,6 2,3 4,3 5,7 7,1 9,6 . . . 48,6 2,3 4,3 5,7 7,1 9,7 . . . 50,0 2,3 4,3 6,0 7,4 10,0 . . . 51,4 2,3 4,6 6,0 7,7 10,3 . . . 52,0 2,3 4,6 6,0 7,9 10,3 . . . 54,0 2,3 4,6 6,0 8,0 10,3 . . . 65,7 2,6 4,6 6,3 8,0 10,3 . . . 65,7 2,6 4,6 6,3 8,0 10,3 . . . 68,6 2,6 4,7 6,3 8,0 10,8 . . . 89,5 2,6 4,7 6,3 8,6 10,8 . . . 100,0
Descriptiva
Variable Productividad ordenada
37
Descriptiva Variables Cuantitativas (y)
Medidas de Centralización y Posición: Cajas (Box-Plot)
Percentil 50% Mediana Q2: 10,8 Percentil 25% Cuartil inferior Q1: 5,7 Percentil 75% Cuartil superior Q3: 18,57 Mínimo: 0,0 Máximo: 100 Rango intercuartílico: 12,8 Amplitud
14.8
n
x
x
media
=
=
∑
i
=
dt38
Descriptiva: Medidas de dispersión
La medida reina: Desviación Típica
VAR-1:
0 0 0 0 0 0 9 9 9 9 9 9
VAR-2
:
0 0 3 3 3 4 5 6 6 6 9 9
1
)
(
2
1
−
−
Σ
=
−
n
x
x
S
n
i
Desviación Típica 4.7001
Varianza 22.0909Desviación Típica 2.9388
Varianza 8.6364 Estadístico VAR-1 ---N 12 Media 4.5000 Mediana 4.5000 Estadístico VAR-2 ---N 12 Media 4.5000 Mediana 4.5000 chevichevv39
Descriptiva: Medidas de dispersión
Una aplicación de la Desviación Típica
40
Descriptiva Variables Cuantitativas
Medidas de Centralización y Posicionamiento: Cajas
---Estadístico PRODUCTIVIDAD ---N 253 Media 14.8853 Mediana 10.8600 Moda 14.2900 Varianza 212.8639 Desviación Típica 14.5899 Mínimo 0.0000 Máximo 100.0000 Rango 100.0000 Cuartil Inferior 5.7100 Cuartil Superior 18.5700 Rango Intercuartílico 12.8600 Asimetría 2.5740 Curtosis 9.5348
41
Descriptiva Variables Cuantitativas (y)
Histogramas,
Discretizar una variable Cuantitativa
42 Histograma
Ventaja
N( m=-0.17, dt=2.1)
Distribución Normal
Si la variable sigue una distribución Normal toda la información de la muestra queda
recogida con la Media y Desviación Estándar
4,50 3,50 2,50 1,50 ,50 -,50 -1,50 -2,50 -3,50 -4,50 -5,50 30 20 10 0 4,50 3,50 2,50 1,50 ,50 -,50 -1,50 -2,50 -3,50 -4,50 -5,50 30 20 10 0 4,50 3,50 2,50 1,50 ,50 -,50 -1,50 -2,50 -3,50 -4,50 -5,50 30 20 10 0
->
=
Comprobación del ajuste
Descriptiva
Histograma y Ajuste a la Normalidad
Para contrastar si variable sigue una distribución normal se aplicará la prueba de Kolmogorov con la correción de Lilliefords (KL) o la de Shapiro-WilK(SW)
43
Descriptiva
Gauss
44
Descriptiva
45
Comprobar si la variable PRODUCTIVIDAD sigue una distribución normal
Descriptiva
Diagnóstico de Normalidad
(I)
Análisis /Cuantitativa(y) /Ajuste
Fichero: Migranna1.txt
D+ de Kolmogorov: 0.1726 D- de Kolmogorov: -0.1538 DN: 0.1726 p-valor: 0.0006E-3
p-valor Lilliefors corregido: 0.0003E-16 W Shapiro-Wilk: 0.7620 p-valor Shapiro-Wilk: 0.0008E-15
46
Comprobar si la variable LEUCOS sigue una distribución normal
Descriptiva
Diagnóstico de Normalidad
(II)
Análisis /Cuantitativa(y) /Ajuste
Fichero: Migranna1.txt Grupos
D+ de Kolmogorov: 0.0350 D- de Kolmogorov: -0.0443 DN: 0.0443 p-valor: 0.8753
p-valor Lilliefors corregido: >0.1 W Shapiro-Wilk: 0.9898 p-valor Shapiro-Wilk: 0.2308
47
Descriptiva bivariante
Grupos(a|y)
¿La Intensidad de la migraña influye en la
Productividad?
¿Puede una variable discreta (a) explicar una continua (y)?
48
Descriptiva bivariante
Cuantitativa (a|y): Grupos
Descriptiva de la variable PRODUCTIVIDAD por INTENSIDAD
Descriptiva / Grupos (a|y)
Estadísticos para PRODUCTIVIDAD por INTENSIDAD
---Grupos Leve Moderada Severa ---N 21 147 85 Media 6.7281 12.6822 20.7107 Mediana 4.5700 10.8600 14.2900 Desviación Típica 7.1552 9.1926 20.4953 Mínimo 0.0000 0.0000 0.0000 Máximo 34.2900 50.0000 100.0000 Cuartil Inferior 3.4300 6.2900 5.7100 Cuartil Superior 8.0000 17.7100 27.4300 ---Fichero: Migranna1.txt
Q&A
los dos49
Descriptiva bivariante
Los dos estadísticos descriptivos más importantes del mundo
Diferencia de proporciones p2-p1
Diferencia de medias m2-m1
Diferencia de Productividad entre Sexos
Variable Respuesta: PRODUCTIVIDAD Variable Explicativa: SEXO
Grupo 1 2 ---Tamaños Muestrales 172 80 Medias: 16.5422 11.4199 Desviaciones Típicas: 15.7179 11.1961 E. E. de las Medias: 1.1985 1.2518 ---Diferencia de Medias 5.1223
Diferencia de Eficacia entre Analgésicos
Tabla de Frecuencias de EFICACI por ANALGESIC =========================================== ANALGESICO | A | B EFICACIA | | | ---| 116 ---| 63 ---| SI | 66.2% | 77.7% | ---| 59 ---| 18 ---| NO | 33.7% | 22.2% | ---Total | 175 | 81 | Diferencia de proporciones: 11.5 % Epi y diag
50
Descriptiva
Mas allá de la descriptiva clásica (b|b)
• Epidemiología
(b|b)
Odds Ratio
Riesgo Relativo
Diferencia de Riesgos
• Diagnóstico
(b|b)
Sensibilidad
Especificidad
VP-; VP+; LR
51
Datos de un estudio prospectivo de salud dental en 76 niños.
Se estudia la relación entre la aparición de caries y una dieta pobre en vegetales y fibra
Descriptiva en Epidemiología
Estudio prospectivo de salud dental
Dieta Pobre Fibra
Factor
(Causa)
Caries
Respuesta
(Efecto)
a|b
52
Datos
Estudio prospectivo
Datos experimentales
N=76
DPF | Si Exp + | No Exp - | Total
Caries | | | Fila
---Si | 21 | 16 | 37
Res+ | 72.4% | 34.0% |
---No | 8 | 31 | 39
Res-
| 27.5% | 65.9% |
---Total | 29 | 47 | 76
¿Cómo se puede medir la asociación entre DPF y Caries ?
Factor Exposición
R
e
s
p
u
e
s
ta
/
E
v
e
n
to
53
Medidas de riesgo basadas en el cociente
Riesgo relativo
:
ratio de las proporciones de eventos entre sujetos con factor
y sin factor de riesgo.
Odds ratio
:
cociente entre los odds del grupo con el factor y sin el factor
Descriptiva
Medidas de Efecto en Epidemiología
Medidas de riesgo basadas en la diferencia
Diferencia absoluta de riesgo
:
diferencia entre la proporción de
eventos en expuestos y no expuestos
Diferencia relativa de riesgo
Reducción absoluta de riesgo
Reducción relativa de riesgo
54
60
.
2
1
tratar
a
necesario
Número
38
,
0
riesgo
de
absoluta
Diferencia
08
.
5
8
·
16
31
·
21
Ratio
Odds
12
.
2
34
.
0
72
.
0
)
/(
)
/(
Relativo
Riesgo
48
.
0
76
37
a
Prevalenci
=
−
=
=
−
=
=
=
=
=
=
+
+
=
=
=
+
+
+
+
=
RnF
RF
RnF
RF
bc
ad
d
b
b
c
a
a
d
c
b
a
b
a
Descriptiva
Medidas de Efecto en Epidemiología: Ejemplo
Evento No evento Total a = 21 b = 16 a+b=37 c = 8 d = 31 c+d=39 a+c=29 b+d=47 76 Presencia factor Ausencia factor Total
55
Descriptiva
Medidas de Efecto : Resultados
Medidas de Asociación en Estudios Epidemiológicos
=========================================================================
Número de Casos : 76
Localización RR EE[LnRR] IC95.00% inf IC95.00% sup
---(+,+) en la celda 1
2.1272
0.2332 1.3469 3.3594
Asumiendo Explicativa en Columnas y Respuesta en Filas con:
Localización OR EE[LnOR] IC95.00% inf IC95.00% sup
---(+,+) en la celda 1
5.0859
0.5171 1.8460 14.0125
56
Se estudia la fiabilidad de un nuevo diagnóstico para la candidiasis infectiva (CI)
Índices de Fiabilidad en Diagnóstico
Ejemplo
Entre los métodos paraclínicos disponibles para el diagnóstico de CI el
hemocultivo tiene una baja sensibilidad (10-43%) comparado con la necropsia.
Lo anterior ha motivado del desarrollo de métodos alternativos basados en la
determinación de anticuerpos en suero mediante ELISA, inmunodifusión, etc.
57
Estudio de Diagnóstico
Datos experimentales
Número de Casos: 90
| Test + | Test -
| Total
| | | Fila
---| 30
| 10
| 40
EN + | 33.33 | 11.11 | 44.44
---| 5
| 45
| 50
EN -
| 5.56 | 50.00 | 55.56
---Total | 35 | 55 | 90
Columna | 38.89 | 61.11 | 100.00
Los porcentajes de cada celda se refieren al total de la tabla
+/-58
Permiten evaluar la fiabilidad de un
dispositivo o test
Descriptiva
Índices de Fiabilidad en Diagnóstico
Sensibilidad
:
porcentaje de Test + en Enfermos
Especificidad
:
porcentaje de Test - en Sanos
Valor Predictivo Positivo:
porcentaje de Enfermos en Test +
Valor Predictivo Negativo:
porcentaje de Sanos en Test
-Asociados a tablas de frecuencia 2x2
b|b
59 Enfermo Sano Total a = 30 b = 10 a+b=40 c = 5 d = 45 c+d=50 a+c=35 b+d=55 90 Test + Test -Total
90
.
0
50
45
75
.
0
40
30
S
=
=
+
=
=
=
+
=
d
c
d
dad
Especifici
b
a
a
d
ensibilida
Descriptiva
Índices de Fiabilidad en Diagnóstico: ejemplo
811
.
0
55
45
857
.
0
35
30
=
=
+
=
=
=
+
=
d
b
d
Neg
VP
c
a
a
Pos
VP
Q&A
60
Descriptiva
Índices de Fiabilidad en Diagnóstico
Análisis/ Diagnostico (b|b) /Tablas. Datos Agrupados/ Ejemplo por defecto
Índices Diagnósticos
================================================================================
Variable Estado de la Naturaleza: EN
Variable Test: Test
Prevalencia = 0.4444
Sensibilidad =
0.7500
con I.C. al 95.00% [0.5880,0.8731]
Especificidad =
0.9000
con I.C. al 95.00% [0.7819,0.9667]
Prob(EN+ | Test+) =
0.8571
si Prev = 0.4444 con I.C. al 95.00% [0.7412,0.9731]
Prob(EN+ | Test-) =
0.1818
si Prev = 0.4444 con I.C. al 95.00% [0.0410,0.3226]
61
Contenido del curso
I- Manejo de G-Stat/Datos
Características, Instalación
Menús
Importar datos
Manejo de variables
II- Descriptiva
Tipos de variables
Descriptiva uni y bivariante
Gráficos
Ajuste a la normal
Epidemiología, Diagnóstico
IV- Pruebas estadísticas básicas
t-Student, Mann-Whitney (Wilcoxon)
ANOVA, Kruskal-Wallis
Chi Cuadrado
Fisher
V- Correlación y Regresión simple
Diagrama de dispersión
Coeficientes de la recta de regresión
Correlación de Pearson y Spearman
Análisis de los residuos
Modelos transformados
VI- Técnicas multivariantes
Regresión lineal múltiple
Regresión logística
Análisis de supervivencia
III- Estimación
Concepto de estimación
Error estandar
Intervalos de confianza
62
Concepto de Estimación de Parámetros
Error Estandar
Intervalos de Confianza
Módulo III
Técnicas de Estimación
de parámetros poblacionales
Una ojeada al universo
63
Prevalencia de EPOC
(%)
Duración media del efecto analgésico
(media)
Tiempo mínimo hasta pico de cc. máxima
(mínimo)
Porcentaje de éxitos quirúrgicos
(%)
Diferencia de eficacia entre dos fármacos
(dif. medias)
Mediana del incremento de IgE tras inmunoterapia
(mediana)
Dispersión de la glucemia en ayunas
(varianza)
Relación cloración del agua e infecciones
(RR)
El 50% de datos centrales
(Rango IQ)
Estimación
Ejemplos de parámetros poblacionales
65
De letras latinas a griegas
De estadísticos a parámetros
Información
de la muestra
Características
de la población
Parámetros
µ σ π
µ σ π
µ σ π
µ σ π
Estimación
Concepto de Estimación de parámetros poblacionales
Estimación
Estadísticos
x s p
muestra
población
66
Estimación
¡Buenas Noticias!
La media muestral es un buen estimador de la media poblacional
µ
=
)
(x
E
La cuasivarianza muestral es un buen estimador de la varianza poblacional
σ
=
−
=
−)
1
(
)
(
s
1n
n
E
s
E
nLa prevalencia muestral es un buen estimador de la prevalencia poblacional
π
=
)
( p
E
67
Ser un estimador adecuado no significa ...,
significa ...
... manejo de la incertidumbre
y de la imprecisión
Estimación
Concepto de estimación de parámetros
68
Estimación
Intervalo de Confianza (IC) de un parámetro
Muestra (estadístico p)
p=22%
Población (parámetro
π
)
19%
25%
IC 95%
Imprecisión
±
3%
Confianza
95%
Dos propiedades de los IC
69
0
50
100
150
200
250
300
350
400
450
500
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
muestra
media poblacional
lím.sup.
lím.inf
media muestral
Estimación
Concepto de Confianza
70
⋅
−
+
≤
≤
−
⋅
−
=
n
p
p
z
p
n
p
p
z
p
IC
95
%
α
/
2
(
1
)
π
α
/
2
(
1
)
Estimación
Intervalo de confianza para una proporción
Parámetro: Prevalencia Poblacional
Límites de confianza
Nivel de confianza
Error Estándar
[
22
3
22
3
]
%
95
=
−
≤
π
≤
+
IC
[
19
%
25
%
]
%
95
=
≤
π
≤
IC
Ejemplo
n y la imprecisión71
Estimación
El tamaño muestral condiciona la imprecisión
0
0,02
0,04
0,06
0,08
0,1
0,12
0
200
400
600
800
1000
1200
1400
Tamaño Muestral
Im
p
re
c
is
ió
n
IC = 0,95 p = 10%
medias72
+
≤
≤
−
=
−
−
−
−
n
s
t
x
n
s
t
x
IC
95
%
n
1
n
1
µ
n
1
n
1
Estimación
Intervalo de confianza para la media poblacional
Parámetro: Media Poblacional
Límites de confianza
Nivel de
confianza
Estimo
Error Estándar
Ejemplo
IC
95
%
=
[
320
−
30
≤
µ
≤
320
+
30
]
[
290
350
]
%
95
=
≤
µ
≤
IC
Factor relacionado
con la confianza
Factor de confianza73
0.20
0.25
0.30
0.38
0.40
0.52
0.50
0.67
0.60
0.84
0.70
1.03
0.80
1.28
0.90
1.64
0.95
1.96
0.97
2.24
0.98
2.32
0.99
2.58
0.995
2.8
0.999
3.29
Nivel de
confianza
K
Estimación
74
[
]
[
379
.
51
409
.
81
]
69
.
7
·
96
.
1
66
.
394
69
.
7
·
96
.
1
66
.
394
⇔
=
+
⇔
−
Intervalo de confianza al 95%
Análisis / Cuantitativa (y)/ t-Student
Estimación
Intervalo de confianza: ejemplo FBG
Variable: FBG: Fibrinógeno sérico
Estadísticos para la variable FBG
---Estadístico FBG
---N 257
Media 394.66
Desviación Típica 123.31
E.E. de la Media (*) 7.6919
---(*) Usar con propósito de estimación
para el I.C. de la media
75
Descriptiva
Recordatorio: Los dos estadísticos descriptivos más importantes del mundo
Diferencia de proporciones p2-p1
Diferencia de medias m2-m1
Diferencia de Productividad entre Sexos
Variable Respuesta: PRODUCTIVIDAD Variable Explicativa: SEXO
Grupo 1 2 ---Tamaños Muestrales 172 80 Medias: 16.5422 11.4199 Desviaciones Típicas: 15.7179 11.1961 E. E. de las Medias: 1.1985 1.2518 ---E. ---E. de la Diferencia de Medias: 1.9545 Diferencia de Medias: 5.1223
Diferencia de Eficacia entre Analgésicos
Toda “medida” debe tener su IC Tabla de Frecuencias de EFICACI por ANALGESIC
=========================================== ANALGESICO | A | B EFICACIA | | | ---| 116 ---| 63 ---| SI | 66.2% | 77.7% | ---| 59 ---| 18 ---| NO | 33.7% | 22.2% | ---Total | 175 | 81 | Diferencia de proporciones: 11.5 %
76 Estimación de la Diferencia Poblacional de
Dos Proporciones
=============================================== Grupo Trat B Trat A ---Tamaños Muestrales: 81 175 Proporciones: 0.7770 0.6620 E. E. de las proporciones: 0.0463 0.0358 ---EE de la diferencia de proporciones: 0.0585 Estimación
---I.C. al 95.00% para la diferencia :
0.1150 +/- 0.1146 [0.0004, 0.2296]
Recordatorio: Los dos estadísticos descriptivos más importantes del mundo
Intervalos de confianza
Variable Respuesta: PRODUCTIVIDAD Variable Explicativa: SEXO
Grupo 1 2 ---Tamaños Muestrales 172 80 Medias: 16.5422 11.4199 Desviaciones Típicas: 15.7179 11.1961 E. E. de las Medias: 1.1985 1.2518 ---E. ---E. de la Diferencia de Medias: 1.9545 Diferencia de Medias: 5.1223 Estimación
---I.C. al 95.00% para la diferencia de medias:
5.1223 +/- 3.8495 [1.2728, 8.9718]
Analisis / Dos Grupos(b|y )/ t-Student
Fichero: Migranna1.txt