La desviación estándar tiene todavía el problema que no permite comparaciones de la dispersión de dos o más distribuciones, especialmente cuando las variables de estas distribuciones tienen distintas unidad de medida.
Por ejemplo, para la variable “x” expresada en $ que representa los salarios de un grupo de obreros, podemos tener un S que es igual a $260 y para una variable “w” expresada en kilogramos, (kg), que representa la producción de carne de un determinado establecimiento ganadero, su S es igual a 2.500 Kg. La comparación directa de ambos desvíos no es posible y no podríamos afirmar que los salarios tienen menor dispersión que la producción de carne porque posee un menor S.
Para posibilitar la comparación, se define el Coeficiente de Variación que es el cociente entre: s . 100 _ x Por lo tanto: C.V. = D.S . 100 _ x
El coeficiente de variación expresa la desviación estándar como un porcentaje de la media aritmética.
Es una medida de dispersión relativa y, dado que surge como el cociente
entre dos cantidades expresadas en la misma unidad de medida, es independiente de ella.
51 Se debe hacer notar aquí que a medida que el coeficiente de variación disminuye, se observa una mayor homogeneidad de los datos o, lo que es lo mismo, los datos están más concentrados alrededor del promedio.
En el ejemplo mencionado anteriormente, si el salario medio fuese de $400 y la producción media fuese 10.000Kg, la distribución de la producción de carne tendría menor dispersión que la de salarios a pesar de su mayor desvío estándar, dado que:
C.V ( x ) = 260 $ . 100 = 65% 400 $
C.V.(x) = 2.500 Kg. 100 = 25% 10.000Kg
Siempre se verifica que:
0 C.V.
Además el coeficiente de variación es útil también al comparar dos o más conjuntos de datos, (distribuciones), que se miden en las mismas unidades de medida pero difieren a un grado tal que las comparaciones directas de las respectivas desviaciones estándar no es muy útil. Por ejemplo: si estuviéramos comparando la dispersión de los pesos de los animales recién nacidos y la de los pesos de otro grupo de animales adultos.
Ahora veremos algunos ejemplos a fin de clarificar los pasos a seguir para obtener éstas que denominamos principales medidas de dispersión y su aplicación práctica.
Ejemplos:
Los siguientes datos corresponden al número de días en que faltaron al trabajo 15 personas empleadas en un aserradero, en un determinado período:
52 a) Obtenga el rango, la desviación mediana y la desviación media
b) Obtenga variancia, desvío estándar y coeficiente de variación
R = XMax - X min R = 9 – 1 = 8 días _ _ _ _ _ Xi fi Fi xi.fi xi - Med xi – Medfi xi - x xi- xfi (xi-x) (xi- x)² (xi – x)² fi 1 1 1 1 3 3 3,66 3,66 -3,66 13,1052 13,1052 2 4 5 8 2 8 2,66 10,64 -2,66 6,7852 27,1408 3 2 7 6 1 2 1,66 3,32 -1,66 2,4652 4,9304 4 1 8 4 0 0 0,66 0,66 -0,66 0,1452 0,1452 5 2 10 10 1 2 0,34 0,68 0,34 0,1166 0,2332 6 0 10 0 2 0 1,34 0 1,34 1,7956 0 7 1 11 7 3 3 2,34 2,34 2,34 5,47 56 5,4756 8 2 13 16 4 8 3,34 6,68 3,34 11,1556 22,2112 9 2 15 18 5 10 4,34 8,68 4.34 18,8356 37,6712 • 15 -- 70 -- 36 -- 36,66 -- -- 110,9128 ---
D.Med. = xi - Med fi = 36 = 2,4 días N 15
_
D. M. = xi - x fi = 36,66 = 2,444 días N 15 _ V (x) = (xi - x )² fi = 110,9128 = 7,394 días2 N 15 _ __________ D. S. (x) = ( xi - x )² fi = 7,394 días2 = 2,72 días N
53 C. V. = D. S. . 100 = 58,37 %
_ X
A un grupo de operarios que participaron de un experimento se les pidió que realizaran diez actividades diferentes. Más tarde se evaluaron las mismas. El número de actividades bien realizadas fueron las siguientes:
_ _ _ Nº ACT. fi Fi xi xi. fi (xi - x) (xi - x)² (xi - x)² fi 0 - 2 1 1 1 1 4,8 23,04 23,04 2 - 4 2 3 3 6 -2,8 7,84 15,68 4 - 6 7 10 5 35 -0,8 0,64 4,48 6 - 8 8 18 7 56 1,2 1,44 11,52 8 - 10 2 20 9 18 3,2 10,24 20,48 ---- 20 -- -- 116 -- -- 75,20 _ x = 5,8 actividades V(x) = 75,20 = 3,76 actividades ² 20 D. S (x) = 3,76 act2 = 1,94 actividades C. V. = 1,94 . 100 = 33,43 % 5,8
54
ANÁLISIS DE REGRESIÓN
Hasta ahora hemos estudiado metodologías estadísticas para analizar la información de una variable, proporcionada por una o más muestras, utilizando las herramientas que nos brinda la estadística descriptiva.
En la práctica observamos muchas veces que existe una relación entre dos o más variables. Por ejemplo entre la cantidad de alimento consumido y los litros de leche producidos, entre el peso de los animales y su edad, la edad de los árboles y su diámetro, etc.
Ahora nos abocaremos a estudiar que pasa cuando tenemos dos variables y deseamos efectuar inferencias acerca de los cambios que se producen en una de ellas cuando cambia la otra.
Para describir la forma de la relación que liga a estas dos variables utilizaremos los llamados modelos de regresión.
Por ejemplo, supongamos que la variable x, (llamada independiente), define el precio de la carne, y la variable y, (llamada dependiente), los kilogramos de carne consumidos en nuestra provincia.
Si descubrimos la relación que liga al precio de la carne con los kilogramos consumidos en el mercado podremos predecir la cantidad de carne que se venderá cuando se producen variaciones en los precios del bien.
Asimismo cuando hablemos del grado de la relación que liga a dos variables también utilizaremos complementariamente el análisis de correlación, a través de un indicador del grado de intensidad de la relación entre las dos variables que es independiente de sus respectivas escalas de medición, llamado coeficiente de
correlación lineal entre x e y, o coeficiente de correlación de Pearson.
O sea: el análisis de regresión se utiliza en la predicción. Para el caso de dos variables se desarrolla un modelo que utiliza la variable independiente x, para obtener una mejor predicción de la otra variable: la variable dependiente y.
Por ejemplo: cuánta pastura deberá consumir cada animal para obtener determinado peso; que cantidad de fertilizante se necesitará para obtener determinado rendimiento; la humedad relativa que habrá que mantener para evitar el desarrollo de pulgones.
El análisis de correlación, por contraste con el de regresión, se utiliza para medir la fuerza de la asociación entre las variables. Por ejemplo: peso -
55
SIGNIFICADO DEL TÉRMINO REGRESIÓN
Por los años 1800 surge el término “regresión” a partir de estudios realizados por Sir Francis Galton, un experto inglés en estudios de herencia, que fue uno de los primeros investigadores que estudió relaciones entre variables. El investigó la relación existente entre la altura de los hijos con respecto a la de sus padres.
Observó que padres altos tenían hijos cuya altura era mayor a la altura promedio, pero no eran mas altos que sus padres. De la misma manera, padres bajos tenían hijos bajos pero no tan bajos como ellos. Las tendencias de las alturas de los hijos eran más hacia un cierto promedio de la población que hacia las alturas de sus respectivos padres. Galton expresó que las alturas de los hijos regresaban a un promedio y de allí surgió el término regresión.
En la actualidad, la palabra regresión se utiliza para definir la naturaleza de la relación entre dos o más variables. A partir del concepto de que para cada
valor de la variable x se genera una distribución de valores de la variable y, el modelo
de regresión estima una recta promedio que denominaremos recta de regresión