2. Tabla de frecuencias. Representaci ´on de datos

(1)

TEMA 5

Estad´ıstica descriptiva.

An´alisis de datos

• Conceptos preliminares: Poblaci ´on, Muestra, Variable,...

• Tabla de frecuencias. Representaci ´on gr´afica de datos cuantitativos

• Descripci ´on basada en momentos

• Descripci ´on basada en ordenaciones

1. Conceptos Preliminares

La Poblaci ón es el conjunto completo de individuos a los cuales se referir án las con- clusiones de su estudio. Tama ño de la poblaci ónN.

La Muestra es un reducido grupo representativo de individuos de la poblaci ón. A partir de ésta, el investigador, con t écnicas estad´ısticas puede inferir las caracter´ısticas y relaciones existentes en una poblaci ón. Tama ño de la muestran.

Los Sujetos o Individuos son los elementos que integran la poblaci ´on o muestra.

Los Par ´ametros poblacionales son los diferentes ´ındices estad´ısticos descriptivos de toda una poblaci ´on. Se simbolizan con letras griegas. Por ejemplo, la media µ = (P

xi)/N.

Funci ón estad´ıstico: cada par ámetro de la poblaci ón puede ser estimado a partir de los datos observados de una muestra extra´ıda al azar. Las funciones que proporcio- nan estas estimaciones son los estad´ısticos. Por ejemplo, el estad´ıstico que estima la mediax = (P

x_i)/n.

La variable es cada uno de los caracteres o aspectos que se van a estudiar en los individuos.

Los datos se recogen en la matriz de datos que es una matriz cuyas filas representan los individuos y las columnas las diferentes variables.

Datos missing son aquellos valores que no se han registrado en la matriz.

Las variables se clasifican en:

(2)

Variables categ ´oricas, que son variables no m ´etricas y que a su vez pueden ser,

- Binarias: sexo, s´ı/no, etc.

- Con varias categor´ıas: grupo sangu´ıneo, tratamiento recibido, etc.

Variables cuantitativas, que son variables m étricas y que pueden ser, - Discretas: nô de hijos, edad en a ños, etc.

- Continuas: peso, altura, presi ´on arterial sist ´olica, etc.

2. Tabla de frecuencias. Representaci ´on de datos

Una distribuci ón de frecuencias consiste en una serie de clases predeterminadas (categor´ıas, n úmeros, intervalos de valores,...) con el n úmero total de sujetos que se incluyen en cada clase.

En una tabla de frecuencias se reflejan los elementos de una distribuci ´on de frecuen- cias. Consideraremos los siguientes elementos:

1. La frecuencia absoluta que es el n ´umero de veces que observamos el mismo valor de la variable (n_i).

2. La frecuencia relativa que es el cociente entre la frecuencia absoluta y el n ´ume- ro total de repeticiones del experimento (f_i).

3. La frecuencia acumulada (absoluta o relativa) que es la suma de frecuencias absolutas (o relativas) anteriores con la del valor de la variable actual (N_i = n₁+ · · · + n_i,F_i = f₁+ · · · + f_i).

4. El porcentaje es la frecuencia relativa multiplicada por 100 (100f_i).

5. El porcentaje acumulado es la frecuencia relativa acumulada multiplicada por 100 (100F_i).

¡Siempre debemos tener en cuenta lo siguiente!:

parandatos ypposibles valores observados: las frecuencias verifican n₁+ n₂+ · · · + n_p−1+ n_p = n, f₁+ f₂+ · · · + f_p−1+ f_p = 1.

Las frecuencias absolutas

N₁ = n₁, N_p = n, F₁ = f₁, F_p = 1.

(3)

Y el porcentaje

% porcentaje acumulado_p = 100.

Ejercicio: comprobar matem ´aticamente todas las relaciones anteriores.

Ejemplo: Supongamos la siguiente puntuaci ´on obtenida en una tabla de destreza de 60 primates:

2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3

Valores que puede tomar la variable “puntuaci ´on”: 0,1,2,3,4,5 (n = 60)

x_i n_i f_i N_i F_i % %acum

0 2 0.0333 2 0.0333 3.33 3.33

1 9 0.15 11 0.1833 15 18.8

2 13 0.2167 24 0.4 21.67 40

3 14 0.2333 38 0.6333 23.33 63.3

4 12 0.2 50 0.8333 20 83.3

5 10 0.1667 60 1 16.67 100

60 1 100

En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud seg ´un laregla d’Sturges. Y en la tabla de frecuencias se ˜nalaremos el punto medio del intervalo o marca de clase.

Ejemplo: Per´ımetro craneal medido en 30 perros de tama ˜no medio:

41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46

x x_i n_i f_i N_i F_i %acum

38.2-39.9 39.05 5 0.1667 5 0.1667 16.67 39.9-41.6 40.75 8 0.2667 13 0.4333 43.33 41.6-43.3 42.45 6 0.2 19 0.6333 63.33 43.3-45 44.15 3 0.1 22 0.7333 73.33 45-46.7 45.85 6 0.2 28 0.9333 93.33

46.7-48.4 47.55 2 0.0667 30 1 100

30 1

Regla d’Sturges para escoger el n ´umero de intervalos:

(4)

Tama ˜no de la muestra 6 a 10 11 a 22 23 a 44 45 a 90 91 a 181 ...

N ´umero de intervalos 4 5 6 7 8 ...

Las principales representaciones gr ´aficas son las siguientes:

Tipo de variable Representaciones gr ´aficas Categ ´orica Diagrama de barras

Diagrama de sectores Diagrama de l´ıneas Cuantitativa discreta Diagrama de barras Diagrama de l´ıneas Diagrama de tallo&hojas Cuantitativa continua Diagrama de tallo&hojas

Histograma

Pol´ıgonos de frecuencias Nos limitaremos a representar datos cuantitativos. Utilizaremos,

el diagrama de barras, con el cual colocamos en el eje de abcisas los distintos valores discretos de la variable y en el eje de ordenadas las frecuencias absolutas o relativas,

el histograma, con el cual dibujamos un rect ´angulo con ´area igual a la frecuen- cia absoluta correspondiente: colocaremos en el eje de abcisas los l´ımites de los intervalos y sobre la ordenada el cociente entre la frecuencia y la amplitud (longitud) del intervalo,

el pol´ıgono de frecuencias que se obtiene de unir los centros de los extremos superiores de cada rect ´angulo.

Nota: Notar que es habitual encontrar una definici ´on del histograma en la que sobre cada intervalo se dibuja una altura correspondiente a la frecuencia (esta no es la que se ha dado aqu´ı, que es m ´as apropiada en ciencias de la salud).

Ejercicio: Dibujar los diagramas de barras e histogramas correspondientes a los ejemplos vistos.

3. Descripci ´on basada en momentos

Representan laposición,dispersión,asimetr´ıayapuntamientode la distribuci ón.

Ventajas:

(5)

- Utilizan todos los datos de la distribuci ´on.

- F ´aciles de obtener: sumas, sumas de cuadrados, sumas de cubos, y sumas de potencias cuartas.

Inconvenientes:

- Dif´ıcil interpretaci ´on pr ´actica en algunos casos.

- Los principales se ven afectados por valores anormales (poco robustos).

Para sintetizar una distribuci ´on de datos cuantitativos es necesario dar las medidas que representen los 4 aspectos fundamentales de distribuciones de variables cuantitativas:

Medidas de tendencia central. Resumen la posici ´on central de la distribuci ´on.

El estimador de la media poblacional (µ) es la mediax:¯ µ =

Pxi

N , x =

Pxi

n =

P_p

k=1x_kn_k

n = x1n1+ x2n2+ · · · + xpnp

n .

Interpretaci ´on f´ısica: centro de gravedad.

Medidas de dispersi ´on. Permiten evaluar la separaci ´on de un conjunto de datos respecto a la media. El estimador de la varianza (σ²) se denota pors²:

σ² =

P(x_i− µ)²

N , s² =

P_p

k=1(xk− ¯x)²nk

n − 1 = (x₁− ¯x)²n₁+ · · · + (x_p − ¯x)²n_p

n − 1 .

Interpretaci ´on f´ısica: momento de inercia.

Ejercicio: comprobar la siguiente expresi ´onX

(xi− ¯x) = 0.

La desviaci ón t´ıpica o est ándarσ es m ás útil, su estimador se simboliza pors:

σ = +√

σ², s = +√

s² = + sP_p

k=1(x_k− ¯x)²n_k

n − 1 ,

y caracteriza la dispersi ´on o grado de homogeneidad de una distribuci ´on.

Nota: En el caso particular de una distribuci ón normal la desviaci ón est ándar s´ı tiene una interpretaci ón m ás pr áctica.

Nota: ¡Hay que tener cuidado! la media y varianza s ´olo deber´ıan emplearse en distribuciones sim ´etricas...

(6)

Medidas de forma: asimetr´ıa. Calculamos ahora momentos de orden 3. Eleva- mos al cubo potenciasxi− ¯x, y obtenemos valores positivos (asimetr´ıa positiva Γ1 > 0), negativos (asimetr´ıa negativaΓ1 < 0), y nulos (simetr´ıa Γ1 = 0).

Γ₁ = 1 N

X µx_i− µ σ

¶₃

, G₁ = 1 n − 1

X µx_i− ¯x s

¶₃ n_i.

Medidas de forma: apuntamiento/curtosis. Calculamos ahora momentos de orden 4. Elevamos a la cuarta potencia las diferencias x_i− ¯x. Refleja el apunta- miento respecto a la ley normal. Diremos que es platic úrtica (Γ₂ < 0) si es m ás aplanada que la normal, leptoc úrtica (Γ2 > 0) si es m ás apuntada, y mesoc ´urti- ca (Γ2 = 0) si la forma coincide con la de la ley normal.

Γ2 = 1 N

X µxi− µ σ

¶₄

− 3, G2 = 1 n − 1

X µxi− ¯x s

¶₄

ni− 3.

Nota: La asimetr´ıa positiva es una caracter´ıstica frecuente en las distribuciones de datos sanitarios, mientras que la asimetr´ıa negativa se presenta en pocas ocasiones.

Nota: En las distribuciones platic úrticas los valores se acumulan en las colas, mientras que en las leptoc úrticas los valores se acumulan en el centro de la distribuci ón.

Ejercicio: Calcular los valores anteriores para las muestras de los dos ejemplos.

4. Descripci ´on basada en ordenaciones

Las medidas basadas en ordenaciones tienen la ventaja de ser m ás robustas, pues los valores extremos no afectan tanto al valor del ´ındice. Quiz ás sean m ás complicadas de obtener.

Los percentiles, son los 99 sujetos que resultan de dividir la distribuci ón en 100 partes de igual tama ño. El percentil de ordenkcorresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la poblaci ón. x_g = P₇₅ ⇒ el individuox_g deja por debajo al 75%de la poblaci ón.

Los deciles son las 9 medidas de posici ´on que dividen el conjunto ordenado de datos en 10 partes iguales.

D1 = P10, D2 = P20, · · · , D9 = P90

(7)

Los cuartiles son las 3 medidas de posici ´on que dividen el conjunto ordenado de datos en 4 partes iguales.

Q1 = P25, Q2 = P50, Q3 = P75

La Mediana es el valor de la variable que divide la distribuci ´on en dos partes iguales. Es el percentil 50, el decil 5 y el cuartil 2. La se ˜nalaremos en el pol´ıgono de frecuencias acumuladas.

Ejemplo: en el ejercicio de los primates la mediana est ´a entre 2 y 3. En el ejercicio del per´ımetro craneal, la mediana cae en el intervalo 41.6-43.3.

La Moda es el valor de la variable m ´as frecuente en la distribuci ´on.

Ejemplo: en el ejercicio de los primates la moda es 3, mientras que en el del per´ımetro craneal, la moda est ´a en el intervalo 39.9-41.6.

Ejercicio: Los valores de hemoglobina en sangre con percentiles de rango 95 y 5 son, respectivamente, 14.34 y 4.29. Esto significa que: a) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % a 4.29, b) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % inferiores a 4.29, c) el 90 % central de los valores de hemoglobina est ´a comprendido entre 14.34 y 4.29.