MEDIDAS DE DISPERSIÓN
Varianza
Desviación estándar
Coeficiente de variación
Prof. Sissy Pando M.
MEDIDAS DE DISPERSIÓN
En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o de posición, ya que, por ejemplo, cuando pretendemos representar toda una información con la media aritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y superiores a la media aritmética.
La dispersión se refiere a la variabilidad entre los valores, es decir, qué tan grandes son las diferencias entre los valores. La idea de dispersión se relaciona con la mayor o menor concentración de los datos en torno a un valor central, generalmente la media aritmética.
Ejemplos:
A continuación se muestran dos figuras. La primera presenta una distribución con datos más concentrados alrededor de su promedio (400) que la otra figura con respecto a su promedio (1000). Es decir, la primera figura es una distribución con menor dispersión.
400 1000
Las figuras siguientes muestran a tres distribuciones con promedio 70, sin embargo las tres difieren en cuanto a su variabilidad alrededor de la media.
x A x B
Ejemplo:
Un enlatador de refrescos indica que cada lata contiene 12 onzas. ¿Cuánto refresco tiene en realidad cada lata?
Es poco probable que todas las latas contengan exactamente 12 onzas.
Existe variabilidad en el proceso de llenar las latas.
Algunas latas contienen un poco más de 12 onzas, otras contienen un poco menos.
En promedio las latas tienen 12 onzas.
El empacador espera que haya poca variabilidad en el proceso de tal forma que las latas estén lo más cerca posible a las 12 onzas de refresco.
Ejemplo:
Se tienen dos grupos de estudiantes que sometidos a una prueba arrojaron los siguientes puntajes:
SECCION A SECCION B
Al calcular el promedio aritmético para ambos grupos se obtiene: 12
Este resultado puede conducir a conclusiones equivocadas cuando se está comparando distribuciones, pues se podría pensar que ambas secciones son idénticas en su rendimiento, siendo esto falso ya que observando los datos se aprecia que la sección B es más homogénea. En este caso el promedio no tiene suficiente grado de representatividad por lo tanto poco podrá decirnos acerca de los datos en estudio.
Puntaje Nº Estudiantes 9 2 10 4 11 6 13 4 15 2 17 2 Total 20 Puntaje Nº Estudiantes 11 5 12 10 13 5 Total 20
Prof. Sissy Pando M.
Es necesario entonces calcular otras medidas estadísticas para mostrar cómo varían los datos alrededor del promedio y esto se logra mediante las medidas de dispersión. Es necesario estudiar las medidas de dispersion:
1. Para evaluar la confiabilidad del promedio que se está utilizando:
Una dispersión pequeña indica que los datos se encuentran acumulados cercanamente, alrededor de la medida de tendencia central establecida. Por tanto, la medida de tendencia central se considera confiable o bastante representativa de los datos. Por el contrario, una dispersión grande indica que la medida escogida para representar los datos no es muy confiable, es decir, no es muy representativa de los datos.
2. Para apreciar cuán dispersas están dos o más distribuciones:
Para poder comparar dos distribuciones de frecuencias entre sí, no sólo necesitamos la medida de tendencia central, sino también la dispersión entre las observaciones para no elaborar conclusiones erróneas.
A mayor medida de dispersión el grupo es más heterogéneo.
A menor medida de dispersión el grupo es más homogéneo o uniforme.
Entre las medidas de dispersión tenemos:
La Varianza
La Desviación Estándar El Coeficiente de Variación
VARIANZA
Es un valor numérico que cuantifica el grado de dispersión de los valores de una variable respecto a su media aritmética. Es el promedio de los cuadrados de las desviaciones de la variable respecto a su media aritmética.
Notación:
Nota:
La varianza nunca es negativa.
Cuando la variable toma un único valor; es decir cuando es constante entonces la
varianza es cero.
Mientras más se aproxima a cero, más concentrados están los valores de la serie
alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
S2 para datos no agrupados:
Ejemplo:
Calcular e interpretar la varianza de los pesos de un grupo de personas. Los datos son los siguientes: 56 65 68 70 72 76 78 80 S2
S2
Prof. Sissy Pando M.
En promedio, los pesos del grupo de personas se alejan con respecto al promedio aritmético en aproximadamente 53.235 kilos al cuadrado.
S2 para datos agrupados:
Calcular e interpretar la varianza para la siguiente tabla de frecuencias.
Ejemplo: Edad Ii Nº de personas fi 4 - 6 4 6 - 10 5 10 - 16 7 16 - 20 3 20 - 30 1 Total n = 20 (xi-x) -14.625 213.890625 -5.625 31.640625 -2.625 6.890625 -0.625 0.390625 1.375 1.890625 5.375 28.890625 7.375 54.390625 9.375 87.890625 =425.875 X =
=
70.625
S2
S2
Primero deberá calcularse las marcas de clase para cada uno de los intervalos.
Edad xi fi xifi xi-x (xi-x)^2 ((xi-x)^2)fi
4-6 5 4 20 -7 25 100 6-10 8 5 40 -4 64 320 10-16 13 7 91 2 169 1183 16-20 18 3 54 7 324 972 20-30 25 1 25 14 625 625 Total n = 20 230 3200
Calculando la media aritmética:
Reemplazando en la fórmula:
En promedio la edad de estas personas se aleja con respecto a su promedio aritmético en aproximadamente 27.75 años al cuadrado.
Propiedades de la Varianza
Si Xi es una variable cualquiera y además c y b son constantes, entonces se tiene:
1.- V ( c ) = 0 2.- V ( Xi c ) = V ( X ) 3.- V ( c Xi ) =
c
2 V ( X ) 4.- V ( c Xi b ) = c2 V ( X ) X ==
11.5 S2
Prof. Sissy Pando M.
DESVIACIÓN ESTÁNDAR
Es la raíz cuadrada positiva de la varianza y posee las mismas unidades que la media aritmética, las mismas que ya no están elevadas al cuadrado como en la varianza.
La desviación estándar o desviación típica aparece para simplificar la interpretación de la varianza. Cuando calculamos la varianza, nos basamos en datos elevados al cuadrado, por lo que, el resultado obtenido debe interpretarse en unidades al cuadrado; por esta razón aparece la desviación estándar como la raíz cuadrada de la variancia.
Distribuciones con igual promedio aritmético y diferente desviación estándar
Ejemplo:
Calcular la desviación estándar de las notas obtenidas por un grupo de alumnos del tercer ciclo de la Facultad de Ingeniería de Sistemas de la UAP en la primera evaluación de estadística. 12 07 14 11 16 18 09 14 10 S = 3.5 puntos. S V ( X)
Nota:
La varianza y la desviación estándar se utilizan para comparar grupos cuya
variable está expresada en las mismas unidades. Así, el grupo más homogéneo, el más uniforme o aquel en el que la media aritmética es más representativa, será aquel en el cual la varianza o la desviación estándar es menor.
Prof. Sissy Pando M.
MEDIDAS DE DISPERSIÓN RELATIVA
La varianza y la desviación típica también tienen sus limitaciones. Similar a la media aritmética es vulnerable a la influencia de casos extremos. Además, cuando las medias aritméticas no son iguales o cuando las unidades de medición son distintas, la comparación de desviaciones típicas puede no ser significativa. La medida de dispersión relativa más utilizada es el coeficiente de variación.
COEFICIENTE DE VARIACIÓN
Es la desviación estándar dividida sobre la media aritmética multiplicada por 100. El mismo nos permite comparar desviaciones típicas de variables con unidades de medición distintas.
CV S 100 x
En la práctica, se acostumbra considerar que un coeficiente de variación superior a 25% indica alto grado de dispersión y por lo tanto poca representatividad de la media aritmética.
Ejemplo:
Se desea comparar los sueldos de los trabajadores de dos empresas, A y B. Para tal efecto se tienen los siguientes datos:
Empresa A Empresa B
¿Se puede afirmar que los sueldos de los trabajadores de la empresa A son más uniformes? ¿Por qué?
Sueldos ( $ ) Nº trabajadores 380 10 410 9 450 12 480 8 500 7 Sueldos ( S/. ) Nº trabajadores 600-650 7 650-700 9 700-750 14 750-800 6 800-850 4
A B x 439.78 x 713.75 S 43.02 A S B 60.43 CVA 43.02 439.78 100 9.78% CVA 60.43 713.75 100 8.47%
Prof. Sissy Pando M.
Las medidas de tendencia central tienen como objetivo sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de tendencia central son representativas como síntesis de la información. Por su parte, las medidas de dispersión cuantifican la variabilidad de los valores de la distribución respecto al valor central.
El conocimiento de la forma de la distribución y del respectivo promedio de un conjunto de datos correspondientes a una variable sirve para tener una idea bastante clara acerca de las propiedades de la muestra en estudio.