TEMA 5
Estad´ıstica descriptiva.
An´alisis de datos
• Conceptos preliminares: Poblaci ´on, Muestra, Variable,...
• Tabla de frecuencias. Representaci ´on gr´afica de datos cuantitativos
• Descripci ´on basada en momentos
• Descripci ´on basada en ordenaciones
1. Conceptos Preliminares
La Poblaci ´on es el conjunto completo de individuos a los cuales se referir ´an las con- clusiones de su estudio. Tama ˜no de la poblaci ´onN.
La Muestra es un reducido grupo representativo de individuos de la poblaci ´on. A partir de ´esta, el investigador, con t ´ecnicas estad´ısticas puede inferir las caracter´ısticas y relaciones existentes en una poblaci ´on. Tama ˜no de la muestran.
Los Sujetos o Individuos son los elementos que integran la poblaci ´on o muestra.
Los Par ´ametros poblacionales son los diferentes ´ındices estad´ısticos descriptivos de toda una poblaci ´on. Se simbolizan con letras griegas. Por ejemplo, la media µ = (P
xi)/N.
Funci ´on estad´ıstico: cada par ´ametro de la poblaci ´on puede ser estimado a partir de los datos observados de una muestra extra´ıda al azar. Las funciones que proporcio- nan estas estimaciones son los estad´ısticos. Por ejemplo, el estad´ıstico que estima la mediax = (P
xi)/n.
La variable es cada uno de los caracteres o aspectos que se van a estudiar en los individuos.
Los datos se recogen en la matriz de datos que es una matriz cuyas filas representan los individuos y las columnas las diferentes variables.
Datos missing son aquellos valores que no se han registrado en la matriz.
Las variables se clasifican en:
Variables categ ´oricas, que son variables no m ´etricas y que a su vez pueden ser,
- Binarias: sexo, s´ı/no, etc.
- Con varias categor´ıas: grupo sangu´ıneo, tratamiento recibido, etc.
Variables cuantitativas, que son variables m ´etricas y que pueden ser, - Discretas: no de hijos, edad en a ˜nos, etc.
- Continuas: peso, altura, presi ´on arterial sist ´olica, etc.
2. Tabla de frecuencias. Representaci ´on de datos
Una distribuci ´on de frecuencias consiste en una serie de clases predeterminadas (categor´ıas, n ´umeros, intervalos de valores,...) con el n ´umero total de sujetos que se incluyen en cada clase.
En una tabla de frecuencias se reflejan los elementos de una distribuci ´on de frecuen- cias. Consideraremos los siguientes elementos:
1. La frecuencia absoluta que es el n ´umero de veces que observamos el mismo valor de la variable (ni).
2. La frecuencia relativa que es el cociente entre la frecuencia absoluta y el n ´ume- ro total de repeticiones del experimento (fi).
3. La frecuencia acumulada (absoluta o relativa) que es la suma de frecuencias absolutas (o relativas) anteriores con la del valor de la variable actual (Ni = n1+ · · · + ni,Fi = f1+ · · · + fi).
4. El porcentaje es la frecuencia relativa multiplicada por 100 (100fi).
5. El porcentaje acumulado es la frecuencia relativa acumulada multiplicada por 100 (100Fi).
¡Siempre debemos tener en cuenta lo siguiente!:
parandatos ypposibles valores observados: las frecuencias verifican n1+ n2+ · · · + np−1+ np = n, f1+ f2+ · · · + fp−1+ fp = 1.
Las frecuencias absolutas
N1 = n1, Np = n, F1 = f1, Fp = 1.
Y el porcentaje
% porcentaje acumuladop = 100.
Ejercicio: comprobar matem ´aticamente todas las relaciones anteriores.
Ejemplo: Supongamos la siguiente puntuaci ´on obtenida en una tabla de destreza de 60 primates:
2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3
Valores que puede tomar la variable “puntuaci ´on”: 0,1,2,3,4,5 (n = 60)
xi ni fi Ni Fi % %acum
0 2 0.0333 2 0.0333 3.33 3.33
1 9 0.15 11 0.1833 15 18.8
2 13 0.2167 24 0.4 21.67 40
3 14 0.2333 38 0.6333 23.33 63.3
4 12 0.2 50 0.8333 20 83.3
5 10 0.1667 60 1 16.67 100
60 1 100
En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud seg ´un laregla d’Sturges. Y en la tabla de frecuencias se ˜nalaremos el punto medio del intervalo o marca de clase.
Ejemplo: Per´ımetro craneal medido en 30 perros de tama ˜no medio:
41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46
x xi ni fi Ni Fi %acum
38.2-39.9 39.05 5 0.1667 5 0.1667 16.67 39.9-41.6 40.75 8 0.2667 13 0.4333 43.33 41.6-43.3 42.45 6 0.2 19 0.6333 63.33 43.3-45 44.15 3 0.1 22 0.7333 73.33 45-46.7 45.85 6 0.2 28 0.9333 93.33
46.7-48.4 47.55 2 0.0667 30 1 100
30 1
Regla d’Sturges para escoger el n ´umero de intervalos:
Tama ˜no de la muestra 6 a 10 11 a 22 23 a 44 45 a 90 91 a 181 ...
N ´umero de intervalos 4 5 6 7 8 ...
Las principales representaciones gr ´aficas son las siguientes:
Tipo de variable Representaciones gr ´aficas Categ ´orica Diagrama de barras
Diagrama de sectores Diagrama de l´ıneas Cuantitativa discreta Diagrama de barras Diagrama de l´ıneas Diagrama de tallo&hojas Cuantitativa continua Diagrama de tallo&hojas
Histograma
Pol´ıgonos de frecuencias Nos limitaremos a representar datos cuantitativos. Utilizaremos,
el diagrama de barras, con el cual colocamos en el eje de abcisas los distintos valores discretos de la variable y en el eje de ordenadas las frecuencias absolu- tas o relativas,
el histograma, con el cual dibujamos un rect ´angulo con ´area igual a la frecuen- cia absoluta correspondiente: colocaremos en el eje de abcisas los l´ımites de los intervalos y sobre la ordenada el cociente entre la frecuencia y la amplitud (longitud) del intervalo,
el pol´ıgono de frecuencias que se obtiene de unir los centros de los extremos superiores de cada rect ´angulo.
Nota: Notar que es habitual encontrar una definici ´on del histograma en la que sobre cada intervalo se dibuja una altura correspondiente a la frecuencia (esta no es la que se ha dado aqu´ı, que es m ´as apropiada en ciencias de la salud).
Ejercicio: Dibujar los diagramas de barras e histogramas correspondientes a los ejemplos vistos.
3. Descripci ´on basada en momentos
Representan laposici´on,dispersi´on,asimetr´ıayapuntamientode la distribuci ´on.
Ventajas:
- Utilizan todos los datos de la distribuci ´on.
- F ´aciles de obtener: sumas, sumas de cuadrados, sumas de cubos, y sumas de potencias cuartas.
Inconvenientes:
- Dif´ıcil interpretaci ´on pr ´actica en algunos casos.
- Los principales se ven afectados por valores anormales (poco robustos).
Para sintetizar una distribuci ´on de datos cuantitativos es necesario dar las medidas que representen los 4 aspectos fundamentales de distribuciones de variables cuanti- tativas:
Medidas de tendencia central. Resumen la posici ´on central de la distribuci ´on.
El estimador de la media poblacional (µ) es la mediax:¯ µ =
Pxi
N , x =
Pxi
n =
Pp
k=1xknk
n = x1n1+ x2n2+ · · · + xpnp
n .
Interpretaci ´on f´ısica: centro de gravedad.
Medidas de dispersi ´on. Permiten evaluar la separaci ´on de un conjunto de datos respecto a la media. El estimador de la varianza (σ2) se denota pors2:
σ2 =
P(xi− µ)2
N , s2 =
Pp
k=1(xk− ¯x)2nk
n − 1 = (x1− ¯x)2n1+ · · · + (xp − ¯x)2np
n − 1 .
Interpretaci ´on f´ısica: momento de inercia.
Ejercicio: comprobar la siguiente expresi ´onX
(xi− ¯x) = 0.
La desviaci ´on t´ıpica o est ´andarσ es m ´as ´util, su estimador se simboliza pors:
σ = +√
σ2, s = +√
s2 = + sPp
k=1(xk− ¯x)2nk
n − 1 ,
y caracteriza la dispersi ´on o grado de homogeneidad de una distribuci ´on.
Nota: En el caso particular de una distribuci ´on normal la desviaci ´on est ´andar s´ı tiene una interpretaci ´on m ´as pr ´actica.
Nota: ¡Hay que tener cuidado! la media y varianza s ´olo deber´ıan emplearse en distribuciones sim ´etricas...
Medidas de forma: asimetr´ıa. Calculamos ahora momentos de orden 3. Eleva- mos al cubo potenciasxi− ¯x, y obtenemos valores positivos (asimetr´ıa positiva Γ1 > 0), negativos (asimetr´ıa negativaΓ1 < 0), y nulos (simetr´ıa Γ1 = 0).
Γ1 = 1 N
X µxi− µ σ
¶3
, G1 = 1 n − 1
X µxi− ¯x s
¶3 ni.
Medidas de forma: apuntamiento/curtosis. Calculamos ahora momentos de orden 4. Elevamos a la cuarta potencia las diferencias xi− ¯x. Refleja el apunta- miento respecto a la ley normal. Diremos que es platic ´urtica (Γ2 < 0) si es m ´as aplanada que la normal, leptoc ´urtica (Γ2 > 0) si es m ´as apuntada, y mesoc ´urti- ca (Γ2 = 0) si la forma coincide con la de la ley normal.
Γ2 = 1 N
X µxi− µ σ
¶4
− 3, G2 = 1 n − 1
X µxi− ¯x s
¶4
ni− 3.
Nota: La asimetr´ıa positiva es una caracter´ıstica frecuente en las distribuciones de datos sanitarios, mientras que la asimetr´ıa negativa se presenta en pocas ocasiones.
Nota: En las distribuciones platic ´urticas los valores se acumulan en las colas, mientras que en las leptoc ´urticas los valores se acumulan en el centro de la distribuci ´on.
Ejercicio: Calcular los valores anteriores para las muestras de los dos ejemplos.
4. Descripci ´on basada en ordenaciones
Las medidas basadas en ordenaciones tienen la ventaja de ser m ´as robustas, pues los valores extremos no afectan tanto al valor del ´ındice. Quiz ´as sean m ´as complicadas de obtener.
Los percentiles, son los 99 sujetos que resultan de dividir la distribuci ´on en 100 partes de igual tama ˜no. El percentil de ordenkcorresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la poblaci ´on. xg = P75 ⇒ el individuoxg deja por debajo al 75%de la poblaci ´on.
Los deciles son las 9 medidas de posici ´on que dividen el conjunto ordenado de datos en 10 partes iguales.
D1 = P10, D2 = P20, · · · , D9 = P90
Los cuartiles son las 3 medidas de posici ´on que dividen el conjunto ordenado de datos en 4 partes iguales.
Q1 = P25, Q2 = P50, Q3 = P75
La Mediana es el valor de la variable que divide la distribuci ´on en dos partes iguales. Es el percentil 50, el decil 5 y el cuartil 2. La se ˜nalaremos en el pol´ıgono de frecuencias acumuladas.
Ejemplo: en el ejercicio de los primates la mediana est ´a entre 2 y 3. En el ejercicio del per´ımetro craneal, la mediana cae en el intervalo 41.6-43.3.
La Moda es el valor de la variable m ´as frecuente en la distribuci ´on.
Ejemplo: en el ejercicio de los primates la moda es 3, mientras que en el del per´ımetro craneal, la moda est ´a en el intervalo 39.9-41.6.
Ejercicio: Los valores de hemoglobina en sangre con percentiles de rango 95 y 5 son, respectivamente, 14.34 y 4.29. Esto significa que: a) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % a 4.29, b) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % inferiores a 4.29, c) el 90 % central de los valores de hemoglobina est ´a comprendido entre 14.34 y 4.29.