Capítulo 8: Medidas de forma de la distribución
8.3. Diagrama de cajas
Es una representación semi gráfica de una distribución construida para mostrar sus características principales (Moya, 2007). En este diagrama se pueden observar los valores atípicos, estos son aquellos valores que son muy diferentes a los demás. Considere que el diagrama de cajas se utiliza para el análisis de variables numéricas.
Anderson et al. (2012) señalan que un diagrama de cajas es un resumen gráfico de los datos con base en el resumen de cinco números: el valor mínimo, el valor máximo, el primer cuartil, la mediana y el tercer cuartil.
Figura 8.15 Diagrama de cajas elaborado con SPSS.
Moya (2007) indica que para elaborar un diagrama de cajas se debe seguir el siguiente procedimiento:
1) Del conjunto de datos se obtiene el valor mínimo, el valor máximo, el primer cuartil, la mediana y el tercer cuartil.
2) Sobre un eje de referencia se grafica un rectángulo cuyos extremos coinciden con los valores del primer y tercer cuartil. Dentro del rectángulo se traza un segmento cuya ubicación coincide con el valor de la mediana.
Figura 8.16 Ubicación de la caja en la distribución. 3) Se calculan los límites admisibles inferior y superior.
Límite inferior= 𝑄1− 1.5(𝑄3− 𝑄1) Límite superior= 𝑄3+ 1.5(𝑄3− 𝑄1)
D i a g r a m a d e c a j a s | 183
4) Se grafican segmentos que van desde los extremos del rectángulo hasta los límites inferior y superior.
Al realizar este procedimiento se pueden dar los siguientes casos:
Figura 8.17 Diagrama de cajas con valores atípicos en ambos extremos de la distribución.
En la figura 8.17 se observa que existen valores menores al límite inferior y valores mayores al límite superior, es decir existen valores atípicos en los extremos de la distribución.
Figura 8.18 Observe que el valor mínimo es menor que el límite inferior. En la figura 8.18 se observa que existen valores menores al límite inferior pero no existen valores mayores al límite superior, es decir, solo existen valores atípicos en la parte inferior de la distribución.
En la figura 8.19 se observa que existen valores mayores al límite superior pero no existen valores menores al límite inferior, es decir, solo existen valores atípicos en la parte superior de la distribución.
Figura 8.20 Diagrama de cajas sin valores atípicos.
En la figura 8.20 se observa que no existen valores menores al límite inferior ni valores mayores al límite superior, es decir no existen valores atípicos en la distribución.
5) Los valores que son menores que el límite inferior o mayores que el límite superior deben ser resaltados como valores atípicos.
Figura 8.21 Observe como se resalta la ubicación de los valores atípicos. Ejemplo: Se realiza una encuesta para conocer las edades de las personas que consumen, con mayor frecuencia, los productos de una pastelería. Los resultados son los siguientes:
30 32 45 25 24 24 24 25 20 20
26 30 32 30 24 25 24 20 18 32
28 30 30 25 24 24 24 24 20 28
25 24 23 22 22 23 22 25 20 25
D i a g r a m a d e c a j a s | 185
Tabla 8.8 Distribución de las edades.
Edad fi Fi 18 1 1 20 5 6 22 3 9 23 2 11 24 10 21 25 7 28 26 1 29 28 2 31 30 5 36 32 3 39 45 1 40 Total 40
Observe que el valor mínimo y el valor máximo para las edades son 18 y 45.
Para calcular los cuartiles y la mediana hacemos Frecuencia para el primer cuartil: 𝐹𝑄1 ≥
40 4
𝐹𝑄1 ≥ 10
Frecuencia para el segundo cuartil (Mediana): 𝐹𝑄2 ≥ 2 (40
4)
𝐹𝑄1 ≥ 20
Frecuencia para el tercer cuartil: 𝐹𝑄3 ≥ 3 (40
4)
𝐹𝑄1 ≥ 30
Luego, tenemos los valores 𝑄1 = 23 𝑀𝑒 = 24 y 𝑄3 = 28 𝐹𝑄1
𝐹𝑚
Figura 8.22 Ubicación de la caja en la distribución. Se calculan los límites admisibles inferior y superior.
Límite inferior= 23 − 1.5(28 − 23) = 15.5 Límite superior= 28 + 1.5(28 − 23) = 35.5
Figura 8.23 Diagrama de cajas con la información completa.
Se grafican los segmentos que van desde los extremos del rectángulo hasta los límites inferior y superior, luego se resalta el valor atípico. Observe que en la distribución solo existe un valor que es mayor que el límite superior. Este valor atípico es el 45, es decir, en la distribución de edades existe una persona cuya edad es muy superior a las edades de los demás integrantes del grupo.
La presentación del diagrama de cajas sobre un eje horizontal no es la única forma en que se puede utilizar este esquema. También se puede utilizar un diagrama de cajas vertical como se muestra en el siguiente gráfico:
D i a g r a m a d e c a j a s | 187
Figura 8.24 Diagrama de cajas con orientación vertical.
Observe que en el gráfico 8.24 se muestra un solo valor atípico señalado con el número 3. Este valor atípico es el 45, el número 3 indica la posición en que se encuentra este valor en el cuadro inicial de datos.
El diagrama de cajas es muy útil cuando se quiere hacer comparaciones entre grupos de datos, permite hacer una comparación visual y aporta otros elementos específicos como los cuartiles y la concentración de datos entre el primero y tercero de ellos.
Ejemplo: Un docente evalúa a sus estudiantes por medio de una prueba de conocimientos. Pero quiere hacer una comparación entre los resultados de dos aulas distintas. Los resultados de la prueba de conocimientos fueron los siguientes:
Tabla 8.9 Calificaciones de los estudiantes del aula “A” y el aula “B”.
Aula A Aula B
Estudiante Calificación Estudiante Calificación
1 18 1 12 2 14 2 14 3 15 3 17 4 18 4 16 5 15 5 15 6 17 6 15 7 13 7 14 8 11 8 15 9 11 9 11 10 14 10 16 11 13 11 16 12 14 12 17 13 13 13 15 14 14 14 18 15 14 15 16 16 12 16 17 17 14 17 18 18 12 18 16 19 11 20 10
Utilizando el programa estadístico SPSS se obtiene el gráfico con los diagramas de cajas para hacer la comparación entre las distribuciones de datos.
D i a g r a m a d e c a j a s | 189
Figura 8.25 Gráfico comparativo de dos distribuciones. Interpretaciones:
En la figura 8.25 se puede apreciar que la mediana de las calificaciones en el grupo A es menor que la mediana de las calificaciones en el grupo B. Es decir, la mitad de los estudiantes del Aula A tienen como mínimo 14 de calificación mientras que la mitad de los estudiantes del grupo B tienen como mínimo 16 de calificación.
Si analizamos el tercer cuartil se observa que el 25% de los estudiantes del grupo A tiene por lo menos 15 de calificación mientras que el 25% de los estudiantes del grupo B tienen por lo menos 17 de calificación. Además, se puede ver que en el grupo A los valores son más homogéneos, es decir, no se observan valores atípicos, en cambio en el grupo B si se registra un valor atípico en la posición 9 de los datos de la tabla inicial. Este valor atípico es el 11.