MSc. Ennio Mérida
Distribución de frecuencias, es la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría.
Frecuencia absoluta (fi), es el número de veces que aparece un determinado valor en un estudio estadístico. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.
Frecuencia relativa (hi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (N). Se puede expresar en tantos por ciento. La suma de las frecuencias relativas es igual a 1.
Frecuencia absoluta acumulada (Fi) es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Frecuencia relativa acumulada (Hi), resulta de dividir cada una de las frecuencias acumuladas absolutas entre número total de datos.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma) que se lee suma o sumatoria.
Ejercicio 1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
xi fi Fi %
(hi x100)
Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
0 1 2 3 4 5 6 7 8 9 10
Total
1 1 2 3 6 11 12 7 4 2 1 50
1 2 4 7 13 24 36 43 47 49 50
0.02 0.02 0.04 0.06 0.12 0.22 0.24 0.14 0.08 0.04 0.02 1.00
0.02 0.04 0.08 0.14 0.26 0.48 0.72 0.86 0.94 0.98 1.00
2 2 4 6 12 22 24 14 8 4 2
100 %
Distribución de Frecuencias para Datos No Agrupados
1. ¿Cuántos estudiantes tienen calificaciones de 5 puntos y qué porcentaje representan?
Se desea saber:
2. ¿Cuántos estudiantes tienen calificaciones de 10 puntos y qué porcentaje representan?
3. ¿Cuántos estudiantes tienen calificaciones menos de 7 puntos y qué porcentaje representan?
4. ¿Cuántos estudiantes tienen calificaciones mayor e igual a 7 puntos y qué porcentaje representan?
Ejercicio 1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
Distribución de Frecuencias para Datos No Agrupados
CON SPSS
Estadísticos
Calificaciones Estudiantes
N Válido 50
Perdidos 0
Media 5,48
Mediana 6,00
Moda 6
INTERPRETACIÓN:
MEDIA: El promedio de las calificaciones es de 5,48 puntos en matemáticas.
MEDIANA: 50% de las calificaciones están por debajo de 6 puntos o 50% de las calificaciones están sobre los 6 puntos.
MODA: la calificación más frecuente es 6 puntos.
Ejercicio 1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
Distribución de Frecuencias para Datos No Agrupados
CON SPSS
Calificaciones Estudiantes
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
Válido 0 1 2,0 2,0 2,0
1 1 2,0 2,0 4,0
2 2 4,0 4,0 8,0
3 3 6,0 6,0 14,0
4 6 12,0 12,0 26,0
5 11 22,0 22,0 48,0
6 12 24,0 24,0 72,0
7 7 14,0 14,0 86,0
8 4 8,0 8,0 94,0
9 2 4,0 4,0 98,0
10 1 2,0 2,0 100,0
Total 50 100,0 100,0
Ejercicio 2. Se tiene un colectivo de 20 familias, con ingresos anuales expresados en miles de euros. Los valores observados:
18, 20, 22, 19, 18, 20, 18, 19, 21, 20, 20, 21, 18, 20, 21, 19, 20, 21, 18, 20
Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
Distribución de frecuencias para Datos No Agrupados
Estadísticos
Ingresos de Familias
N Válido 20
Perdidos 0
Media 19,65
Mediana 20,00
Moda 20
Suma 393
CON SPSS
INTERPRETACIÓN:
MEDIA: El promedio de los ingresos de las familias es de 19,65 miles de euros anual.
MEDIANA: el 50% de las familias tienen ingresos menos de 20 mil euros o el 50%
de las familias tienen ingresos mayores de 20 mil euros.
MODA: el ingreso más frecuente de las familias es de 20 mil euros.
Ingresos de Familias
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
Válido 18 5 25,0 25,0 25,0
19 3 15,0 15,0 40,0
20 7 35,0 35,0 75,0
21 4 20,0 20,0 95,0
22 1 5,0 5,0 100,0
Total 20 100,0 100,0
CON SPSS
Ejercicio 2. Se tiene un colectivo de 20 familias, con ingresos anuales expresados en miles de euros. Los valores observados:
18, 20, 22, 19, 18, 20, 18, 19, 21, 20, 20, 21, 18, 20, 21, 19, 20, 21, 18, 20
Distribución de frecuencias para Datos No Agrupados
Ejercicio 2. Se tiene un colectivo de 20 familias, con ingresos anuales expresados en miles de euros. Los valores observados:
18, 20, 22, 19, 18, 20, 18, 19, 21, 20, 20, 21, 18, 20, 21, 19, 20, 21, 18, 20
1. ¿Cuántas familias tienen ingresos anuales de 21 mil euros y qué porcentaje representan?
Se desea saber:
2. ¿Cuántas familias tienen ingresos anuales menos de 20 mil euros y qué porcentaje representan?
3. ¿Cuántas familias tienen ingresos anuales mayores e iguales a 21 mil euros y qué porcentaje representan?
3. ¿Cuántas familias tienen ingresos anuales de 22 mil euros y qué porcentaje representan?
Ejercicio 3. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas?
c) ¿Cuántos hogares están compuestos por 7 y 8 personas y qué proporción representan?
d) ¿Cuántos hogares están conformados por 3 personas y qué proporción representan?
c) Dibuje el diagrama de barras.
Distribución de frecuencias para Datos No Agrupados
Ejercicio 4: Se desea estudiar el diámetro interno de las arandelas que se producen con un determinado proceso de fabricación, los siguientes datos representan el diámetro interno en mm de 16 arandelas tomadas de una muestra aleatoria; construya una tabla de distribución de frecuencia para describir los datos.
18 20 21 19 19 24 18 19 20 20 20 19 19 21 22 19 Tabla de Distribución de Frecuencia
Xi (Clase o
Categoría) ni Ni
18 2 0,125 ~ 12,5 2 0,125 ~ 12,5
19 6 0,375 ~ 37,5 8 0,5 ~ 50
20 4 0,25 ~ 25 12 0,75 ~ 75
21 2 0,125 ~ 12,5 14 0,875 ~ 87,5
22 1 0,063 ~ 6,25 15 0,9375 ~ 93,75
24 1 0,063 ~ 6,25 16 1 ~ 100
N 16 1 ~ 100
fi ~ % Fi Fi ~ %
Distribución de frecuencias para Datos No Agrupados
Para datos no agrupados, la media de una muestra es la suma de todos los valores divididos entre el número total de los
mismos:
donde X denota la media muestral
n es el número total de valores en la muestra.
X X n /
3-4
Medidas de Tendencia Central para Datos No Agrupados
Una muestra de cinco ejecutivos recibió la siguiente cantidad en bonos el año pasado:
$14 000, $15 000, $17 000, $16 000 y
$15 000. Encuentre el promedio en bonos para los cinco ejecutivos.
Como estos valores representan la muestra de 5 ejecutivos, la media de la muestra es:
(14 000 + 15 000 + 17 000 + 16 000 + 15 000) / 5 = $15 400.
3-5
Medidas de Tendencia Central para Datos No Agrupados
MODA PARA DATOS NO AGRUPADOS
La moda es el valor de la observación que aparece con más frecuencia.
EJEMPLO 2: las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Como la calificación 81 es la que más ocurre, la calificación modal es 81.
Medidas de Tendencia Central para Datos No Agrupados
MEDIANA PARA DATOS NO AGRUPADOS
Mediana: es el punto medio de los valores después de ordenarlos de menor a mayor, o de mayor a menor. La misma cantidad de valores se encuentra por arriba de la mediana que por debajo de ella.
Nota : para un conjunto con un número par de números, la mediana será el promedio aritmético de los dos números medios.
Medidas de Tendencia Central para Datos No Agrupados
EJEMPLO 3
Calcule la mediana para los siguientes datos:
1. La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25. La mediana es 21.
2. La altura, en pulgadas, de cuatro jugadores de basquetbol es 76, 73, 80 y 75.
Al ordenar los datos de manera ascendente quedan: 73, 75, 76, 80. La mediana es 75.5.
Medidas de Tendencia Central para Datos No Agrupados
Hallar la media, mediana y moda de la siguiente serie de números: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6.
1. Se ordenan: 2, 2, 3, 5, 5, 5, 6, 6, 8, 9.
Moda
Me = 5
⇨
⇨ Mo = 5
⇨
Media aritmética
EJEMPLO 4
Media, Mediana y Moda para Datos No Agrupados
Medidas de dispersión
Entre las medidas de variabilidad mas utilizadas se encuentran: la amplitud, la
varianza y la desviación estándar.
Las medidas de variabilidad, también
conocidas como de dispersión, cuantifican la
variabilidad o dispersión de un conjunto de
observaciones (datos), es decir, que tanto se
alejan los datos de las medidas de tendencia
central como la media. Estas medidas de
variabilidad serán pequeñas si no hay
diferencias muy grandes entre los valores
observados, pero resultaran grandes en caso
contrario.
Medidas de dispersión
Por ejemplo, si lo que interesa es exponer la parte
central de la distribución de frecuencias, deberán
usarse medidas de tendencia central. Si el
objetivo es conocer las variaciones de los datos
observados respecto a un valor central de
distribución, se utilizaran entonces medidas de
variabilidad. A las medidas de tendencia central y
de variabilidad se les conoce como medidas
descriptivas. Este tipo de medidas, con excepción
de la moda, solo deben aplicarse en variables
cuantitativas.
Esta medida descriptiva mide la distancia entre la observación de mayor valor y la de menor valor, por lo que esta en la misma unidad de medición que la variable utilizada para su obtención. Se obtiene mediante:
R o Amplitud = valor máximo – valor mínimo.
Medidas de dispersión – Amplitud o Rango
Medidas de dispersión – Varianza y Desviación Estándar
Esta medida de dispersión mide la variabilidad en términos de la distancia entre cada dato y la media.
La varianza y la desviación estándar son
estadísticas que se pueden distorsionar si
hay datos atípicos, es decir, si las
observaciones presentan datos muy
pequeños o muy grandes.
Medidas de dispersión – Desviación estándar
Varianza para una población Varianza para una muestra Es el promedio de los cuadrados de las desviaciones de las observaciones respecto a su media.
VARIANZA
Las unidades en que se expresa la varianza son el cuadrado de la unidades originales de la medición, de aquí su dificultad para interpretarla.
Desviación estándar (S)
Medidas de dispersión – Desviación estándar
Para la primera población
Por ejemplo, Encontrar la desviación estándar de las tres poblaciones (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7.
Sus desviaciones estándar poblacionales son 7, 5 y 1, respectivamente. La tercera población tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.
Ejemplo: Supongamos
que un investigador obtuvo para su muestra una media (promedio) de ingreso familiar anual de 6000 unidades monetarias y una desviación estándar de 1000. La interpretación es que los ingresos familiares de la muestra se desvían, en promedio, mil unidades monetarias respecto a la media.
Ejemplo 5: Dos empresas, A y B, venden sobres de café instantáneo de 350 gramos. Se seleccionaron al azar en los mercados cinco sobres de cada una de las compañías y se pesaron cuidadosamente sus contenidos.
Los resultados fueron los siguientes.
A B
350,14 350,09 350,18 350,12 349,98 350,20 349,99 349,88 350,12 349,95
a) ¿Qué empresa proporciona más café en sus sobres?
b) ¿Qué empresa llena sus sobres de manera más
consistente?
a) Se calculan las medias aritméticas.
Interpretación: Como la media aritmética de la empresa A es mayor que la de la empresa B, por lo tanto la empresa A proporciona más café en sus sobres.
b) Se calculan las desviaciones estándar.
Interpretación: Como la desviación estándar de la empresa A es menor a la desviación estándar de la empresa B, por lo tanto la empresa A es más consistente al llenar los sobres de café.
.
Rango (R) = valor máximo – valor mínimo
Para calcular el numero de intervalos se aplica la Regla de Sturges
Amplitud (A) es el cociente entre el rango y el numero de intervalos
k= 1+3,322log(n)
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.
Distribución de frecuencias para Datos Agrupados
La media aritmética: Se calcula multiplicando cada dato con su respectiva frecuencia, sumar todos estos productos, y el resultado dividirlo por la suma de los datos.
La moda de un conjunto de datos es el dato que más veces se repite, es decir, aquel que tiene mayor frecuencia absoluta
Mediana: Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.
Si n es par Si n es impar
⇨
⇨
Media, Mediana y Moda para Datos Agrupados
Ejercicio 1. El numero de horas trabajadas de 20 personas en una empresa son las siguientes: 22 19 16 13 18 15 20 14 15 16 15 16 20 13 15 18 15 13 18 15
Intervalos
de clases Marca de
clase (Xi) fi hi Fi
[13- 15) [15 -17) [17-19) [19-21) [21-23) Total
14 16 18 20 22
4 9 3 3 1 20
0,2 0,45 0,15 0,15 0,05 1
4 13 16 19 20
R = Xi max – Xi min R = 22 – 13
k = 1 + 3,322log(n) k = 1 + 3,322log(20)
k = 5,32 k = 5
1 2 3
A = 1,8≃2
R = 9
Distribución de frecuencias para Datos Agrupados
Intervalos
de clases Marca de
clase (Xi) fi hi Fi xi*fi
[13- 15) [15 -17) [17-19) [19-21) [21-23) Total
14 16 18 20 22
4 9 3 3 1 20
0,2 0,45 0,15 0,15 0,05 1
4 13 16 19 20
56 144 54 60 22 336
Como n es par
Media, Mediana y Moda para Datos Agrupados
Intervalos
de clases Marca de
clase (Xi) fi hi Fi xi*fi
[13- 15) [15 -17) [17-19) [19-21) [21-23) Total
14 16 18 20 22
4 9 3 3 1 20
0,2 0,45 0,15 0,15 0,05 1
4 13 16 19 20
56 144 54 60 22 336
Media, Mediana y Moda para Datos Agrupados
HORAS fi
55 - 60 5
60- 65 18
65 - 70 20
70 -75 50
75- 80 17
80- 85 16
85 - 90 4
Ejercicio propuesto. Determine: mediana, moda y media para el número de horas trabajadas de 130 personas en una empresa.
Media, Mediana y Moda para Datos Agrupados
Estadísticos
MARCA
N Válido 20
Perdidos 0
Media 16,80
Mediana 16,00
Moda 16
Suma 336
Ejercicio 1. El numero de horas trabajadas de 20 personas en una empresa son las siguientes: 22 19 16 13 18 15 20 14 15 16 15 16 20 13 15 18 15 13 18 15
Distribución de frecuencias para Datos Agrupados
MARCA
Frecuencia Porcentaje
Porcentaje válido
Porcentaje acumulado
Válido 14 4 20,0 20,0 20,0
16 9 45,0 45,0 65,0
18 3 15,0 15,0 80,0
20 3 15,0 15,0 95,0
22 1 5,0 5,0 100,0
Total 20 100,0 100,0
Ejercicio. El numero de horas trabajadas de 20 personas en una empresa son las siguientes: 22 19 16 13 18 15 20 14 15 16 15 16 20 13 15 18 15 13 18 15
Distribución de frecuencias para Datos Agrupados
Ejercicio
Medidas de Tendencia Central y Medidas de Dispersión.
De acuerdo con las edades de 45 personas (mujeres y hombres) que presentaron una denuncia en la Oficina Central de la CDHDF (los datos se muestran en la siguiente base), se requiere determinar:
a) ¿Cuál es la edad de las mujeres, en promedio?
b) ¿Es mayor la edad de las mujeres que la de los hombres, en promedio?
c) ¿Cuál es la edad modal del grupo de las mujeres y cuál es la de los hombres?.
d) ¿La edad mediana de las mujeres es igual a la de los hombres?
e) ¿Cuál de los dos grupos presenta mayor variabilidad?
Edad
Número Mujeres Hombres
1 26 59
2 58 24
3 28 59
4 48 23
5 16 58
6 22 47
7 27 37
8 47 93
9 13 61
10 46 26
11 41 23
12 41 36
13 41 77
14 48 52
15 55 38
16 48 22
17 55 44
18 19 28
19 51 33
20 42 29
21 72 25
22 48 34
23 37
Medidas de Tendencia Central y Medidas de
Dispersión.
Resultados:
Medidas de Tendencia Central y Medidas de
Dispersión.
Interpretación:
En respuesta a las preguntas planteadas, se observa que la edad promedio de las mujeres que presentaron una denuncia en la oficina central de la CDHDF es de 40.4 años, mientras que, en promedio, los hombres tienen 42.2 años; de lo que se concluye que las mujeres son mas jóvenes que los hombres. Lo anterior se corrobora con la edad modal, pues la de los hombres es 11 años mayor que la de las mujeres, con 59 y 48 años, respectivamente. Sin embargo, si se observa el valor de la edad mediana de ambos grupos, se ve que es menor la de los hombres, es decir, mientras que la mitad de las mujeres tienen menos de 42 años, 50% de los hombres tienen menos de 36.5 años, es decir, casi seis años menos. Esto se debe a que en ambos grupos de edad hay casos atípicos, personas muy jóvenes y personas de la tercera edad. Entre las mujeres, la edad mínima es de 13 años y la máxima de 72, lo que significa una amplitud de 59 años.
Medidas de Tendencia Central y Medidas de
Dispersión.
Media, Mediana y Moda para Datos No Agrupados
En el grupo de los hombres, la edad mínima es de 22 años y la máxima de 93, con una amplitud de 71 años. Por lo tanto, no se puede afirmar que, en general, las mujeres que presentaron una denuncia sean mas jóvenes que los hombres, pero si se puede decir que, en promedio, las denunciantes son mas jóvenes que los denunciantes.
En cuanto a la variabilidad, en promedio, los hombres se alejan mas de su media, con un valor de la desviación estándar de 19 años; en cambio, las mujeres se alejan un poco menos (casi 15 años). Por lo tanto, se concluye que entre los hombres que presentaron una denuncia en la oficina central de la cdhdf hay mas variabilidad en la edad que entre las mujeres.
Interpretación:
Diagrama de barras: Se utiliza habitualmente para variables cuantitativas discretas.
Histograma: Se utiliza para variables cuantitativas continuas.
Polígonos de frecuencias: Se utiliza en los mismos casos que el histograma.
Diagrama de sectores: Se puede utilizar para todo tipo de variable, pero se usa habitualmente para las variables cualitativas.
Presentación Gráfica de Distribución de Frecuencias
Histograma: gráfica donde las clases se
marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase se representan por las alturas de las
barras y éstas se trazan adyacentes entre sí.
2-12
Presentación Gráfica de Distribución de Frecuencias
0 2 4 6 8 10 12 14
10 15 20 25 30 35
Horas de estudio
Frecuencia
2-14
Un polígono de frecuencias consiste en segmentos de línea que conectan los
puntos formados por el punto medio de la clase y la frecuencia de clase.
2-13
Presentación Gráfica de Distribución de Frecuencias
2-15
0 2 4 6 8 10 12 14
10 15 20 25 30 35
Horas de estudio
Frecuencia
Una gráfica de barras se puede usar para describir cualquier nivel de medición
(nominal, ordinal, discreta o continua)
EJEMPLO 3: construya una gráfica de barras para el número de personas desempleadas por cada 100 000
habitantes de ciertas ciudades en 1995.
2-17
Presentación Gráfica de Distribución de Frecuencias
Ciudad Número de desempleados por 100 000 habitantes
Atlanta, GA 7300
Boston, MA 5400
Chicago, IL 6700
Los Angeles, CA 8900
New York, NY 8200
Washington, D.C. 8900
2-18
7300
5400
6700
8900 8200 8900
0 2000 4000 6000 8000 10000
1 2 3 4 5 6
Ciudades
# desempleados/100 000
Atlanta Boston Chicago Los Angeles New York Washington
2-19
Una gráfica circular es en especial útil para desplegar una distribución de
frecuencias relativas. Se divide un círculo de manera proporcional a la frecuencia relativa y las rebanadas representan los diferentes grupos.
EJEMPLO: se pidió a una muestra de 200 corredores que indicaran su tipo favorito de zapatos para correr.
2-20
Presentación Gráfica de Distribución de Frecuencias
Dibuje una gráfica circular basada en la siguiente información.
Tipo de zapato # de corredores
Nike 92
Adidas 49
Reebok 37
Asics 13
Otros 9
2-21
Nike Adidas
Reebok Asics
Otros
Nike Adidas Reebok Asics Otros
2-22