Medidas de centralización - Cálculo de medidas de los datos de la variable

Tema 2. Estadística, azar y probabilidad

1. Introducción

2.2.2. Cálculo de medidas de los datos de la variable

2.2.2.1. Medidas de centralización

Las medidas de centralización, posición central o localización central se expresan con las mismas unidades que las observaciones y determinan una cantidad central en la distribución alrededor de la cual se encuentran repartidos los valores de la variable. Las más importantes son las siguientes:

a. m

ediaariTméTica

Es una medida que pretende representar todos los valores de la distribución. Es un número calculado y, por lo tanto, puede no coincidir con ningún valor de la distribución. Se define como el resultado de dividir la suma de todos los datos por el número de estos y se representa por x. En el momento de calcularla distinguiremos dos casos:

• Datos no agrupados de la variable. La media aritmética de una serie de valo-

encuentran agrupados se calcula de la manera anteriormente señalada:

• Datos agrupardos de la variable. Se toma como valores de la variables las marcas de clase de cada uno de los intervalos (c_i) y se procede como si los datos no estuvieron agrupadas, por lo tanto la expresión quedará:

. Ventajas de la utilización de la media aritmética:

• Se determina de manera objetiva y es única. • Tiene un significado interpretativo muy claro. • Es sencilla de calcular.

• En el caso de datos no agrupados de la variable, se utilizan todos los valores de la distribución para calcularla.

Inconvenientes:

• Los valores extremos de la distribución, muy dispares, influyen de manera notable en el valor de la media aritmética, lo cual puede hacerle perder representatividad.

• En el caso de datos agrupados de la variable, no se utilizan todos los valores de la distribución, sino los representantes de los intervalos, c_i y, por lo tanto, se pierde parte de información.

B. m

oda

Se representa por Mo y se define como el valor o valores de la variable con la mayor frecuencia absoluta (análogamente modalidades de la variable si es cualitativa). Del mismo modo que en el caso anterior, para calcularla distinguiremos:

• Datos no agrupados de la variable. Su cálculo es muy sencillo en este caso, solo hay que mirar la columna n_i y la x_i asociada al mayor de estos valores, será la moda (puede haber más de una).

• Datos agrupados de la variable. Seguiremos dos pasos:

1. Encontrar el intervalo modal (puede haber más de uno): será aquel con la mayor frecuencia absoluta. Nombraremos este intervalo como

[

Li−1, Li

)

2. Hacer un cálculo para obtener, no el valor exacto de la moda, sino una aproximación que vendrá determinada por las siguientes hipótesis: – Hay una moda en cada intervalo modal.

– En el interior del mencionado intervalo, la moda es el punto que equi- libra las frecuencias absolutas de los intervalos adyacentes, suponien- do que los valores se reparten en el interior de los intervalos de manera

n n x x k i i i



  1 · n n c x k i i i



  1 ·

uniforme. Por lo tanto, si los intervalos tienen la misma amplitud, la moda se calcula como:

Mo = Li−1+b → ni−1·b = a

(

i−b

)

·ni+1→b = n_n i+1 i−1+ni+1·ai

Mo = Li−1+b → ni−1·b = a

(

i−b

)

·ni+1→b = n_n i+1

i−1+ni+1·ai

y, por tanto,

Mo = Li−1+_n ni+1 i−1+ni+1

·ai

Una representación geométrica de la moda para datos agrupados la podemos encontrar en la figura 147.

Figura 147. Representación geométrica de la moda

Si los intervalos tienen distinta amplitud, tenemos que encontrar, en primer lugar, la densidad de frecuencia de cada intervalo,di, que se define como el cociente en-

tre la frecuencia absoluta y la amplitud del intervalo,di= n_ai i

. El intervalo modal

[L_i-1,L_i) será ahora el de mayor densidad de frecuencia y para encontrar la moda

aplicamos de nuevo la fórmula anterior, pero sustituyendo las frecuencias por las densidades de frecuencia, es decir:

Mo = Li−1+_d di+1 i−1+di+1

·ai

Ventajas de la utilización de la moda: • Es sencilla de calcular.

• Tiene una interpretación muy fácil. Inconvenientes:

• Es menos representativa que las otras medidas de centralización. Es útil, mayoritariamente, si se trata de distribuciones con datos cualitativos, porque no se puede calcular la media aritmética, al no tomar valores numéricos la variable.

• En el cálculo de la moda no se utilizan todos los valores de la distribución y, por lo tanto, se puede perder representatividad.

• Se puede encontrar cercana a valores extremos.

• Podemos encontrar distribuciones llamadas bimodales, trimodales..., según encontremos dos, tres o más modas.

c. m

ediana

Representa el valor de la variable que se encuentra en la posición central de la distribución (si los datos se encuentran ordenados de menor a mayor) y podemos encontrarla tanto en variables cualitativas como cuantitativas. Puede ocurrir que en las cuantitativas haya que hacer un cálculo para obtenerla y, por lo tanto, que no coincida con ningún valor de la distribución. Es necesario resaltar que en el caso de las cualitativas esta medida depende totalmente del criterio de ordenación que se elija.

Se representa por Me y se define como el valor de la variable (real o calculado) que deja el mismo número de observaciones a su derecha y a su izquierda, cuando las observaciones están ordenadas de menor a mayor. El procedimiento para obtener este parámetro es diferente si los valores de la variable se encuentran agrupados o no:

• Datos no agrupados de la variable. En el caso de una variable cuantitativa, si el número de datos es impar, la mediana será el valor central. Para encontrarla, se tiene que calcular n

2 y se compara este valor con los de la columna

N_ide la tabla de frecuencias. Se ha de elegir el primer valor de N_iigual o superior a n

2. La mediana es el valor xi asociado a esta frecuencia absoluta

acumulada.

Si el número de datos es par, tomaremos como mediana la media aritmética de los dos valores centrales. Será un número calculado, y por lo tanto, no coincidirá con ningún valor de la distribución.

En el caso de una variable cualitativa con un número impar de datos, el procedimiento es análogo a la misma situación para variable cuantitativa. Cuando el número de datos sea par y las dos modalidades que ocupan los lugares centrales sean diferentes, no se puede encontrar la mediana.

• Datos agrupados de la variable. Para obtener la mediana, seguiremos dos pasos:

1. Encontrar el intervalo mediano. Para hallarlo, se tiene que calcular n 2 y comparar este valor con los de la columna N_i de la tabla de frecuencias. Se ha de encontrar el primer valor de N_i igual o superior a n

2. El intervalo mediano

[

Li−1, Li

)

es el asociado a esta frecuencia absoluta acumulada.

2. Calcular la mediana. En primer lugar, construimos el polígono de frecuencias absolutas acumuladas y buscamos la intersección con la recta de ecuacióny = n

del punto de intersección del polígono con la recta y se puede calcular mediante la fórmula: Me = Li−1+b → _n ni 2−Ni−1 = ai b →b = n 2−Ni−1 ni ai y, por tanto, Me = Li−1+ n 2−Ni−1 ni ai

Figura 148. Representación geométrica de la mediana

Si se quiere establecer una relación entre la media aritmética, la moda y la mediana, se puede observar:

• Si la distribución es simétrica (lo es cuando en un diagrama de barras o un histograma, a partir de la vertical en la que se situaría la media aritmética, el gráfico se desarrolla igual a derecha e izquierda) y unimodal, los tres pará- metros coinciden.

• Si la distribución es moderadamente asimétrica, se ha comprobado de manera empírica que x − Mo ≤ 3⋅ x − Me , expresión que se conoce como desigualdad de Pearson.

In document La geometría y la estadística en el aula de primaria (página 124-128)