• No se han encontrado resultados

2. Tabla de frecuencias. Representaci ´on de datos

N/A
N/A
Protected

Academic year: 2023

Share "2. Tabla de frecuencias. Representaci ´on de datos"

Copied!
7
0
0

Texto completo

(1)

TEMA 5

Estad´ıstica descriptiva.

An´alisis de datos

• Conceptos preliminares: Poblaci ´on, Muestra, Variable,...

• Tabla de frecuencias. Representaci ´on gr´afica de datos cuantitativos

• Descripci ´on basada en momentos

• Descripci ´on basada en ordenaciones

1. Conceptos Preliminares

La Poblaci ´on es el conjunto completo de individuos a los cuales se referir ´an las con- clusiones de su estudio. Tama ˜no de la poblaci ´onN.

La Muestra es un reducido grupo representativo de individuos de la poblaci ´on. A partir de ´esta, el investigador, con t ´ecnicas estad´ısticas puede inferir las caracter´ısticas y relaciones existentes en una poblaci ´on. Tama ˜no de la muestran.

Los Sujetos o Individuos son los elementos que integran la poblaci ´on o muestra.

Los Par ´ametros poblacionales son los diferentes ´ındices estad´ısticos descriptivos de toda una poblaci ´on. Se simbolizan con letras griegas. Por ejemplo, la media µ = (P

xi)/N.

Funci ´on estad´ıstico: cada par ´ametro de la poblaci ´on puede ser estimado a partir de los datos observados de una muestra extra´ıda al azar. Las funciones que proporcio- nan estas estimaciones son los estad´ısticos. Por ejemplo, el estad´ıstico que estima la mediax = (P

xi)/n.

La variable es cada uno de los caracteres o aspectos que se van a estudiar en los individuos.

Los datos se recogen en la matriz de datos que es una matriz cuyas filas representan los individuos y las columnas las diferentes variables.

Datos missing son aquellos valores que no se han registrado en la matriz.

Las variables se clasifican en:

(2)

Variables categ ´oricas, que son variables no m ´etricas y que a su vez pueden ser,

- Binarias: sexo, s´ı/no, etc.

- Con varias categor´ıas: grupo sangu´ıneo, tratamiento recibido, etc.

Variables cuantitativas, que son variables m ´etricas y que pueden ser, - Discretas: no de hijos, edad en a ˜nos, etc.

- Continuas: peso, altura, presi ´on arterial sist ´olica, etc.

2. Tabla de frecuencias. Representaci ´on de datos

Una distribuci ´on de frecuencias consiste en una serie de clases predeterminadas (categor´ıas, n ´umeros, intervalos de valores,...) con el n ´umero total de sujetos que se incluyen en cada clase.

En una tabla de frecuencias se reflejan los elementos de una distribuci ´on de frecuen- cias. Consideraremos los siguientes elementos:

1. La frecuencia absoluta que es el n ´umero de veces que observamos el mismo valor de la variable (ni).

2. La frecuencia relativa que es el cociente entre la frecuencia absoluta y el n ´ume- ro total de repeticiones del experimento (fi).

3. La frecuencia acumulada (absoluta o relativa) que es la suma de frecuencias absolutas (o relativas) anteriores con la del valor de la variable actual (Ni = n1+ · · · + ni,Fi = f1+ · · · + fi).

4. El porcentaje es la frecuencia relativa multiplicada por 100 (100fi).

5. El porcentaje acumulado es la frecuencia relativa acumulada multiplicada por 100 (100Fi).

¡Siempre debemos tener en cuenta lo siguiente!:

parandatos ypposibles valores observados: las frecuencias verifican n1+ n2+ · · · + np−1+ np = n, f1+ f2+ · · · + fp−1+ fp = 1.

Las frecuencias absolutas

N1 = n1, Np = n, F1 = f1, Fp = 1.

(3)

Y el porcentaje

% porcentaje acumuladop = 100.

Ejercicio: comprobar matem ´aticamente todas las relaciones anteriores.

Ejemplo: Supongamos la siguiente puntuaci ´on obtenida en una tabla de destreza de 60 primates:

2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3

Valores que puede tomar la variable “puntuaci ´on”: 0,1,2,3,4,5 (n = 60)

xi ni fi Ni Fi % %acum

0 2 0.0333 2 0.0333 3.33 3.33

1 9 0.15 11 0.1833 15 18.8

2 13 0.2167 24 0.4 21.67 40

3 14 0.2333 38 0.6333 23.33 63.3

4 12 0.2 50 0.8333 20 83.3

5 10 0.1667 60 1 16.67 100

60 1 100

En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud seg ´un laregla d’Sturges. Y en la tabla de frecuencias se ˜nalaremos el punto medio del intervalo o marca de clase.

Ejemplo: Per´ımetro craneal medido en 30 perros de tama ˜no medio:

41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46

x xi ni fi Ni Fi %acum

38.2-39.9 39.05 5 0.1667 5 0.1667 16.67 39.9-41.6 40.75 8 0.2667 13 0.4333 43.33 41.6-43.3 42.45 6 0.2 19 0.6333 63.33 43.3-45 44.15 3 0.1 22 0.7333 73.33 45-46.7 45.85 6 0.2 28 0.9333 93.33

46.7-48.4 47.55 2 0.0667 30 1 100

30 1

Regla d’Sturges para escoger el n ´umero de intervalos:

(4)

Tama ˜no de la muestra 6 a 10 11 a 22 23 a 44 45 a 90 91 a 181 ...

N ´umero de intervalos 4 5 6 7 8 ...

Las principales representaciones gr ´aficas son las siguientes:

Tipo de variable Representaciones gr ´aficas Categ ´orica Diagrama de barras

Diagrama de sectores Diagrama de l´ıneas Cuantitativa discreta Diagrama de barras Diagrama de l´ıneas Diagrama de tallo&hojas Cuantitativa continua Diagrama de tallo&hojas

Histograma

Pol´ıgonos de frecuencias Nos limitaremos a representar datos cuantitativos. Utilizaremos,

el diagrama de barras, con el cual colocamos en el eje de abcisas los distintos valores discretos de la variable y en el eje de ordenadas las frecuencias absolu- tas o relativas,

el histograma, con el cual dibujamos un rect ´angulo con ´area igual a la frecuen- cia absoluta correspondiente: colocaremos en el eje de abcisas los l´ımites de los intervalos y sobre la ordenada el cociente entre la frecuencia y la amplitud (longitud) del intervalo,

el pol´ıgono de frecuencias que se obtiene de unir los centros de los extremos superiores de cada rect ´angulo.

Nota: Notar que es habitual encontrar una definici ´on del histograma en la que sobre cada intervalo se dibuja una altura correspondiente a la frecuencia (esta no es la que se ha dado aqu´ı, que es m ´as apropiada en ciencias de la salud).

Ejercicio: Dibujar los diagramas de barras e histogramas correspondientes a los ejemplos vistos.

3. Descripci ´on basada en momentos

Representan laposici´on,dispersi´on,asimetr´ıayapuntamientode la distribuci ´on.

Ventajas:

(5)

- Utilizan todos los datos de la distribuci ´on.

- F ´aciles de obtener: sumas, sumas de cuadrados, sumas de cubos, y sumas de potencias cuartas.

Inconvenientes:

- Dif´ıcil interpretaci ´on pr ´actica en algunos casos.

- Los principales se ven afectados por valores anormales (poco robustos).

Para sintetizar una distribuci ´on de datos cuantitativos es necesario dar las medidas que representen los 4 aspectos fundamentales de distribuciones de variables cuanti- tativas:

Medidas de tendencia central. Resumen la posici ´on central de la distribuci ´on.

El estimador de la media poblacional (µ) es la mediax:¯ µ =

Pxi

N , x =

Pxi

n =

Pp

k=1xknk

n = x1n1+ x2n2+ · · · + xpnp

n .

Interpretaci ´on f´ısica: centro de gravedad.

Medidas de dispersi ´on. Permiten evaluar la separaci ´on de un conjunto de datos respecto a la media. El estimador de la varianza (σ2) se denota pors2:

σ2 =

P(xi− µ)2

N , s2 =

Pp

k=1(xk− ¯x)2nk

n − 1 = (x1− ¯x)2n1+ · · · + (xp − ¯x)2np

n − 1 .

Interpretaci ´on f´ısica: momento de inercia.

Ejercicio: comprobar la siguiente expresi ´onX

(xi− ¯x) = 0.

La desviaci ´on t´ıpica o est ´andarσ es m ´as ´util, su estimador se simboliza pors:

σ = +√

σ2, s = +√

s2 = + sPp

k=1(xk− ¯x)2nk

n − 1 ,

y caracteriza la dispersi ´on o grado de homogeneidad de una distribuci ´on.

Nota: En el caso particular de una distribuci ´on normal la desviaci ´on est ´andar s´ı tiene una interpretaci ´on m ´as pr ´actica.

Nota: ¡Hay que tener cuidado! la media y varianza s ´olo deber´ıan emplearse en distribuciones sim ´etricas...

(6)

Medidas de forma: asimetr´ıa. Calculamos ahora momentos de orden 3. Eleva- mos al cubo potenciasxi− ¯x, y obtenemos valores positivos (asimetr´ıa positiva Γ1 > 0), negativos (asimetr´ıa negativaΓ1 < 0), y nulos (simetr´ıa Γ1 = 0).

Γ1 = 1 N

X µxi− µ σ

3

, G1 = 1 n − 1

X µxi− ¯x s

3 ni.

Medidas de forma: apuntamiento/curtosis. Calculamos ahora momentos de orden 4. Elevamos a la cuarta potencia las diferencias xi− ¯x. Refleja el apunta- miento respecto a la ley normal. Diremos que es platic ´urtica (Γ2 < 0) si es m ´as aplanada que la normal, leptoc ´urtica (Γ2 > 0) si es m ´as apuntada, y mesoc ´urti- ca (Γ2 = 0) si la forma coincide con la de la ley normal.

Γ2 = 1 N

X µxi− µ σ

4

− 3, G2 = 1 n − 1

X µxi− ¯x s

4

ni− 3.

Nota: La asimetr´ıa positiva es una caracter´ıstica frecuente en las distribuciones de datos sanitarios, mientras que la asimetr´ıa negativa se presenta en pocas ocasiones.

Nota: En las distribuciones platic ´urticas los valores se acumulan en las colas, mientras que en las leptoc ´urticas los valores se acumulan en el centro de la distribuci ´on.

Ejercicio: Calcular los valores anteriores para las muestras de los dos ejemplos.

4. Descripci ´on basada en ordenaciones

Las medidas basadas en ordenaciones tienen la ventaja de ser m ´as robustas, pues los valores extremos no afectan tanto al valor del ´ındice. Quiz ´as sean m ´as complicadas de obtener.

Los percentiles, son los 99 sujetos que resultan de dividir la distribuci ´on en 100 partes de igual tama ˜no. El percentil de ordenkcorresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la poblaci ´on. xg = P75 el individuoxg deja por debajo al 75%de la poblaci ´on.

Los deciles son las 9 medidas de posici ´on que dividen el conjunto ordenado de datos en 10 partes iguales.

D1 = P10, D2 = P20, · · · , D9 = P90

(7)

Los cuartiles son las 3 medidas de posici ´on que dividen el conjunto ordenado de datos en 4 partes iguales.

Q1 = P25, Q2 = P50, Q3 = P75

La Mediana es el valor de la variable que divide la distribuci ´on en dos partes iguales. Es el percentil 50, el decil 5 y el cuartil 2. La se ˜nalaremos en el pol´ıgono de frecuencias acumuladas.

Ejemplo: en el ejercicio de los primates la mediana est ´a entre 2 y 3. En el ejercicio del per´ımetro craneal, la mediana cae en el intervalo 41.6-43.3.

La Moda es el valor de la variable m ´as frecuente en la distribuci ´on.

Ejemplo: en el ejercicio de los primates la moda es 3, mientras que en el del per´ımetro craneal, la moda est ´a en el intervalo 39.9-41.6.

Ejercicio: Los valores de hemoglobina en sangre con percentiles de rango 95 y 5 son, respectivamente, 14.34 y 4.29. Esto significa que: a) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % a 4.29, b) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % inferiores a 4.29, c) el 90 % central de los valores de hemoglobina est ´a comprendido entre 14.34 y 4.29.

Referencias

Documento similar