Curso de Estadística Unidad de Medidas Descriptivas Lección 6: Medidas de Dispersión para Datos Agrupados por Clases - Lecc 6-Dispersión Agrupados por Clases

22  28  Descargar (0)

Texto completo

(1)

Curso de Estadística

Unidad de Medidas Descriptivas

Lección 6:

Medidas de Dispersión para Datos

Agrupados por Clases

Creado por: Dra. Noemí L. Ruiz Limardo,

EdD

(2)

Objetivos

1. Calcular las medidas de dispersión (amplitud, varianza,

desviación estándar y coeficiente de variación) para datos

agrupados por clases.

2. Realizar análisis estadístico con medidas de dispersión para

datos agrupados por clases.

(3)

Introducción

Medidas de Dispersión para Datos Agrupados por Clases

Cuando los datos están agrupados por clases no tenemos acceso directo a ellos. Al calcular las medidas de dispersión hay que considerar un valor que represente el intervalo de valores que hay en una clase. Este valor es la Marca de Clase o Punto Medio del intervalo definido por las clases, según se estudió en lecciones anteriores. En esta lección se discutirá la manera de obtener las medidas de dispersión (amplitud, varianza, desviación estándar y coeficiente de variación) cuando los datos están agrupados por clases.

A. AMPLITUD, RANGO O RECORRIDO

Los estadísticos utilizan diferentes técnicas para agrupar los datos por clases. Cuando los datos están agrupados por clases, como se ha mencionado en lecciones anteriores, se pierde información. En las clases no se refleja cuál es el dato menor como tampoco se refleja el dato mayor. Por lo tanto, en estos casos es imposible obtener la amplitud ya que la amplitud, como se ha definido anteriormente, es la diferencia entre el valor mayor y el menor.

En algunas ocasiones, cuando se construye la distribución de frecuencias se utiliza el dato menor como límite inferior en la primera clase y el dato mayor como límite superior de la última clase. En este caso se puede obtener la amplitud de la forma usual y acostumbrada ya que observando los límites se puede conocer el dato mayor y el menor. Entonces se puede aplicar la fórmula:

Amplitud = Dato Mayor - Dato Menor

B. VARIANZA

Cuando los datos están agrupados por valor simple, como se estudió en la lección anterior, la varianza se determina con la fórmula siguiente:

1

)

(

1

2

2

n

f

x

x

s

n

i

i i

Cuando los datos están agrupados en clases la fórmula que se utiliza es similar a la fórmula anterior, con la diferencia de que ahora se sustituye el componente que se refiere al dato xi por la marca de clasemi. La fórmula anterior se

(4)

1

)

(

1

2

2

n

f

x

m

s

n

i

i i

2

s

x

- Representa la media aritmética.

n

- Es la cantidad total de datos que haya en el conjunto.

i

m

-Representa cada marca de clase.

(

m

1 es la marca de la primera clase,

m

2 es la marca de la segunda clase,

hasta

m

nque es la marca de la última clase).

i

f

-Representa la frecuencia que corresponde a la marca de clase

m

i

-Este es el símbolo de sumatoria y significa que se suma la serie de valores que están definidos por el símbolo. En este caso, como

i

comienza en 1 (

i

1

) y termina en

n

, se suman los resultados

correspondientes, desde el valor

[

1

]

2

1

x

f

m

hasta el valor

]

[

m

n

x

2

f

n .

La fórmula anterior podría resultar muy trabajosa ya que para poder utilizarla habría que determinar primero la media aritmética, luego las diferencias de cada valor respecto a la media de la muestra. Después, habría que cuadrar ese resultado. Luego habría que multiplicar el resultado anterior por la frecuencia correspondiente a cada dato. Finalmente, sumar los resultados anteriores y dividir ese total por (n – 1). Esto podría ser muy trabajoso. En la lección anterior se presentó otra fórmula para hallar la varianza que resulta más fácil de aplicar: fórmula del atrecho. La fórmula del atrecho para calcular la varianza es la siguiente:

(5)

2

1

1 2

2

1

)

(

n

n

f

x

f

x

s

n

i

n

i

i i i

i

Para usar esta fórmula no se necesita hallar la media aritmética. Solo se necesita tener los valores xi representados por las marcas de clase, o sea, por

mi, las frecuencias fi, y n. Al usar las marcas de clase representando a los

valores mi, la fórmula se convierte en:

2

1

1 2

2

1

)

(

n

n

f

m

f

m

s

n

i

n

i

i i i

i

A continuación, con el Ejemplo – 1 se demuestra la aplicación de ambas fórmula para calcular la varianza, la fórmula que utiliza la media y la fórmula de atrecho. Se demostrará primero la fórmula que utiliza la media y luego la fórmula de atrecho.

Ejemplo - 1

(6)

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2

TOTAL 13

1. El primer paso para hallar la varianza con la primera fórmula es calcular la media para datos agrupados por clase según se explicó en la Lección – 12 con la siguiente fórmula:

n

f

m

x

n

i

i i

1

(Recuerde que m significa la marca de clase, f es la frecuencia,

x

es la media aritmética, y n es el total de datos en la muestra)

Para poder usar esta fórmula se necesita añadir a la Tabla 1 la columna que corresponde al producto de mi . fi , como se ilustra en la Tabla 2 a

continuación.

Tabla 2: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIA (fi)

mi . fi

20-29 24.5 1 24.50 30-39 34.5 3 103.50 40-49 44.5 2 89.00 50-59 54.5 3 163.5 60-69 64.5 2 129.00 70-79 74.5 2 149.00

(7)

Ahora se puede sustituir en la fórmula de media aritmética:

65

.

50

13

5

.

658

1

n

f

m

x

n i i i

Se obtuvo una media aproximada de 50.65 años.

2. Después de calcular la media, ahora se necesita añadir tres columnas más a la tabla anterior, como se ilustra en la Tabla 3 y obtener los totales que se muestran con una flecha.

Tabla 3: Edades de Personas Diabéticas

CLASES mi fi mi . fi mi x (mi x)2 (mi x)2 . fi

20-29 24.5 1 24.50 -26.15 683.82 683.82 30-39 34.5 3 103.50 -16.15 260.82 782.46 40-49 44.5 2 89.00 -6.15 37.82 75.64 50-59 54.5 3 163.5 3.85 14.82 44.46 60-69 64.5 2 129.00 13.85 191.82 383.64 70-79 74.5 2 149.00 23.85 568.82 1137.64

TOTAL 13 3107.66

3. Ahora se puede sustituir en la fórmula de varianza:

97

.

258

12

66

.

3107

1

)

(

1 2 2

n

f

x

m

s

n i i i

n

i

i

i

x

f

(8)

Se obtuvo una varianza aproximada a 258.97 unidades cuadradas. (Recuerde que esta medida no se interpreta ya que representa una unidad cuadrada-en este caso sería edad al cuadrado)

Ejemplo – 2

Calcule la varianza usando la fórmula de atrecho con los datos del ejemplo Ejemplo – 1. (Se usarán los datos del ejemplo anterior para ilustrar la aplicación de la fórmula de atrecho con los mismos datos y de esa manera poder comparar ambos resultados.)

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2

TOTAL 13

La fórmula de atrecho es;

2

1

1 2

2

1

)

(

n

n

f

m

f

m

s

n

i

n

i

i i i

i

(9)

Tabla 4: Edades de Personas Diabéticas

CLASES mi fi mi . fi 2

i

m mi2 fi

20-29 24.5 1 24.50 600.25 600.25 30-39 34.5 3 103.50 1190.25 3570.75 40-49 44.5 2 89.00 1980.25 3960.5 50-59 54.5 3 163.5 2970.25 8910.75 60-69 64.5 2 129.00 4160.25 8320.5 70-79 74.5 2 149.00 5550.25 11100.5

TOTAL 13 658.5 36463.25

2. Ahora se puede sustituir en la fórmula de atrecho:

(10)

La varianza que se obtuvo en este grupo fue de 258.97 unidades cuadradas. Si se comparan los resultados obtenidos con ambas fórmulas (la de atrecho y la fórmula de varianza anterior), se verá que se obtienen los mismos resultados.

C. DESVIACIÓN ESTÁNDAR

La desviación estándar, como se ha presentado en las lecciones anteriores, es la raíz cuadrada de la varianza. La desviación estándar es un valor que

representa los promedios de todas las diferencias individuales de las

observaciones con respecto a la media aritmética. Esta medida se interpreta ya que está en la misma unidad de medida que los datos. Su interpretación refleja, en promedio, cuánto se desvían todos los datos en relación a la media aritmética de la muestra.

Al igual que todas las medidas de dispersión, se entiende que mientras menor sea este valor más homogéneo es el conjunto de datos. Mientras más grande sea esta medida más variación hay en el grupo, por tanto, más heterogéneo es el conjunto de datos.

La desviación estándar de una muestra se obtiene mediante la siguiente fórmula.

2

s

s

O sea, sacando la raíz cuadrada de la varianza. A continuación se muestra la fórmula de desviación estándar sacando la raíz cuadrada de la fórmula de varianza mostrada anteriormente-la fórmula de atrecho.

1

)

(

1

2

1 2

n

n

f

m

f

m

s

n

i

n

i

i i i

i

s

n

- Es la cantidad total de datos que haya en el conjunto.

i

m

-Representa cada marca de clase.

(

m

1 es la marca de la primera clase,

m

2 es la marca de la segunda clase,

hasta

m

nque es la marca de la última clase).

(11)

i

f

-Representa la frecuencia que corresponde a la marca de clase

m

i

-Este es el símbolo de sumatoria y significa que se suma la serie de valores que están definidos por el símbolo.

Ejemplo – 3

Calcule la desviación estándar con los datos del Ejemplo – 1 a continuación:

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2

TOTAL 13

En el ejemplo anterior se utilizó el mismo conjunto de datos para demostrar cómo se calcula varianza. Para calcular la desviación estándar, se saca la raíz cuadrada de la varianza obtenida anteriormente, que fue 258.97 unidades cuadradas aproximadamente.

09

.

16

97

.

258

2

s

s

Esto significa que este grupo se desvía de su media aritmética un promedio aproximado de 16.09 unidades.

D. COEFICIENTE DE VARIACIÓN

(12)

media aritmética. El coeficiente de variación dice cuál es el por ciento de variación de un grupo respecto a su media aritmética.

El coeficiente de variación es un valor que no depende de la unidad de medición y siempre se encuentra entre cero y uno, inclusive, (0 ≤ cv ≤ 1), si se expresa como decimal, o entre 0% y 100%, inclusive, (0% ≤ cv ≤ 100%), si se expresa como por ciento. Mientras más cerca el coeficiente de variación se encuentre de cero, menos variación tendrá la muestra. Mientras más cerca el coeficiente de variación se encuentre de uno (o 100%) mayor variabilidad tendrá la muestra. El coeficiente de variación cuando los datos están agrupados por clases se obtiene de la misma manera que para datos crudos y que para datos agrupados por valor simple. Para calcular el coeficiente de variación se divide la desviación estándar de una muestra por su media aritmética, o sea, la fórmula es:

x

s

cv

cv

Coeficiente de Variación

s

Desviación estándar de la muestra

x

Cuando el coeficiente de variación se expresa como por ciento la fórmula para determinarlo se convierte en:

%

100

x

s

cv

Ejemplo – 4

Calcule el coeficiente de variación del grupo representado en el Ejemplo – 1.

En el ejemplo 1 se obtuvo una desviación estándar aproximada de 16.09 unidades y una media aritmética aproximada de 50.65. Se sustituye estos

valores en la fórmula de coeficiente de variación, como se ilustra a continuación.

3176

.

0

65

.

50

09

.

16

x

s

cv

(13)

Se obtuvo un coeficiente aproximado de 0.3176. Se puede convertir este decimal a por ciento multiplicando por 100 (esto equivale a rodar el punto dos lugares a la derecha), y se obtiene 31.76%.

Este coeficiente indica que este grupo tiene un 31.76% de variación. Este grupo reflejó poca variación ya que el por ciento es bajo.

Si en vez de usar la fórmula anterior se desea usar la fórmula convertida a por ciento, se usaría la fórmula siguiente:

%

76

.

31

%

100

)

3176

.

0

(

%

100

5065

09

.

16

%

100

x

s

cv

Observe que se obtiene el mismo resultado que con la fórmula anterior.

EJERCICIOS

EJERCICIO – 1

Considere la siguiente tabla para hallar: a. Amplitud

b. Varianza

c. Desviación estándar d. Coeficiente de variación

Asuma que el límite inferior de la primera clase es el dato menor en la muestra y que el límite superior de la última clase es el dato mayor en la muestra.

Tabla 5: Salario Mensual por Familia en una comunidad

CLASES MARCA DE CLASE

FRECUENCIA

1001- 1500 1250.50 2 1501 - 2000 1750.50 4 2001 - 2500 2250.50 3 2501 - 3000 2750.50 1

(14)

EJERCICIO – 2

Una empresa que fabrica bombillas desea conocer las horas de vida que duran sus bombillas. Selecciona al azar 80 bombillas para probar su duración

dejándolas encendidas todo el tiempo necesario hasta fundirse. Registran las horas de duración de la muestra. Se muestran los resultados en la tabla a continuación. Determine la varianza y la desviación estándar.

Tabla 6: Durabilidad de la muestra de bombillas

FRONTERAS FRECUENCIA

52.5-63.5 6 63.5-74.5 12 74.5-85.5 25 85.5-96.5 18 96.5-107.5 14 107.5-118.5 5

TOTAL 80

EJERCICIO – 3

La puntuación media de un grupo de estudiantes de Cálculo es 110 y la

desviación estándar de 5. La puntuación media de un grupo de estudiantes de estadística es 106 y la desviación estándar es 4. ¿Qué clase es más variable en términos de las puntuaciones que obtienen los estudiantes?

EJERCICIO – 4

Los datos a continuación representan el total de palabras por minuto que una muestra de 25 taquígrafos reflejaron en una prueba de velocidad. Use esta información para contestar las preguntas que aparecen más abajo.

Tabla 7: Total de palabras por minuto que escriben los taquígrafos

CLASES FRECUENCIA

54-58 2 59-63 5 64-68 8 69-73 0 74-78 4 79-83 5 84-88 1

(15)
(16)

B. ¿Qué medida estadística se está calculando en Excel en la pantalla a continuación?

(17)

ASIGNACION ESPECIAL

(18)

RESPUESTAS A EJERCICIOS

EJERCICIO – 1

Amplitud = 1,999 Varianza ≈ 225,000

Desviación estándar ≈ 474.34 Coeficiente de variación ≈ 0.2496

A continuación se muestra el proceso para calcular varianza, desviación estándar y coeficiente de variación:

Tabla 5: Salario Mensual por Familia en una comunidad

CLASES MARCA DE CLASE

(mi)

FRECUENCIAS (fi)

mi . fi 2

i

m mi2 fi

1001- 1500 1250.50 2 2,501 1,563,750.25 3,127,500.5 1501 - 2000 1750.50 4 7,002 3,064,250.25 12,257,001 2001 - 2500 2250.50 3 6,751.5 5,064,750.25 15,194,250.75 2501 - 3000 2750.50 1 2,750.5 7,565,250.25 7,565,250.25

(19)
(20)

Coeficiente de variación:

x

s

cv

1

,

900

.

5

10

005

,

19

1

n

f

m

x

n

i

i i

2496

.

0

5

.

900

,

1

34

.

474

x

s

cv

EJERCICIO – 2

Varianza ≈ 211.2

Desviación estándar ≈ 14.5

Tabla 6: Durabilidad de la muestra de bombillas

FRONTERAS FRECUENCIA fi

mi mi . fi 2

i

m mi2 fi

52.5-63.5 6 58 348 3,364 20,184 63.5-74.5 12 69 828 4,761 57,132 74.5-85.5 25 80 2,000 6,400 160,000 85.5-96.5 18 91 1,638 8,281 149,058 96.5-107.5 14 102 1,428 10,404 145,656 107.5-118.5 5 113 565 12,769 63,845

(21)

79

80

)

807

,

6

(

875

,

595

1

)

(

2 2 1 1 2 2

n

n

f

m

f

m

s

n i n i i i i i

2

.

211

79

39

.

16684

79

61

.

190

,

579

875

,

595

79

80

249

,

35

,

463

875

,

595

Fórmula de desviación estándar

5

.

14

2

.

211

s

EJERCICIO – 3

(22)

%

5

045

.

0

110

5

x

s

CV

cálculo

%

4

038

.

0

106

4

x

s

CV

estadística

EJERCICIO – 4

A. Media aritmética

B. Coeficiente de variación

C. Los taquígrafos de esta muestra escriben un promedio de 69.6 palabras por minutos. Este grupo se desvía de su media aritmética un promedio de 9 palabras por minuto. El grupo tiene aproximadamente un 13% de

Figure

Tabla 1: Edades de Personas Diabéticas  CLASES  MARCAS DE  CLASE        (m i )  FRECUENCIAS (fi)  20- 29  24.5  1  30 - 39  34.5  3  40 - 49  44.5  2  50 - 59  54.5  3  60 - 69  64.5  2  70 - 79  74.5  2  TOTAL  13

Tabla 1:

Edades de Personas Diabéticas CLASES MARCAS DE CLASE (m i ) FRECUENCIAS (fi) 20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2 TOTAL 13 p.6
Tabla 2: Edades de Personas Diabéticas  CLASES  MARCAS  DE CLASE  (m i )  FRECUENCIA (fi)  m i

Tabla 2:

Edades de Personas Diabéticas CLASES MARCAS DE CLASE (m i ) FRECUENCIA (fi) m i p.6
Tabla 1: Edades de Personas Diabéticas  CLASES  MARCAS DE  CLASE        (m i )  FRECUENCIAS (fi)  20- 29  24.5  1  30 - 39  34.5  3  40 - 49  44.5  2  50 - 59  54.5  3  60 - 69  64.5  2  70 - 79  74.5  2  TOTAL  13

Tabla 1:

Edades de Personas Diabéticas CLASES MARCAS DE CLASE (m i ) FRECUENCIAS (fi) 20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2 TOTAL 13 p.8
Tabla 4: Edades de Personas Diabéticas  CLASES   m i f i m i    .   f i 2 i m   m i 2 f i 20-29  24.5  1   24.50  600.25  600.25  30-39  34.5  3  103.50  1190.25  3570.75  40-49  44.5  2    89.00  1980.25  3960.5  50-59  54.5  3  163.5  2970.25  8910.75  6

Tabla 4:

Edades de Personas Diabéticas CLASES m i f i m i . f i 2 i m m i 2 f i 20-29 24.5 1 24.50 600.25 600.25 30-39 34.5 3 103.50 1190.25 3570.75 40-49 44.5 2 89.00 1980.25 3960.5 50-59 54.5 3 163.5 2970.25 8910.75 6 p.9
Tabla 1: Edades de Personas Diabéticas  CLASES  MARCAS DE  CLASE        (m i )  FRECUENCIAS (fi)  20- 29  24.5  1  30 - 39  34.5  3  40 - 49  44.5  2  50 - 59  54.5  3  60 - 69  64.5  2  70 - 79  74.5  2  TOTAL  13

Tabla 1:

Edades de Personas Diabéticas CLASES MARCAS DE CLASE (m i ) FRECUENCIAS (fi) 20- 29 24.5 1 30 - 39 34.5 3 40 - 49 44.5 2 50 - 59 54.5 3 60 - 69 64.5 2 70 - 79 74.5 2 TOTAL 13 p.11
Tabla  6: Durabilidad de la muestra de bombillas  FRONTERAS  FRECUENCIA  52.5-63.5  6  63.5-74.5  12  74.5-85.5  25  85.5-96.5  18  96.5-107.5  14  107.5-118.5  5  TOTAL  80  EJERCICIO – 3

Tabla 6:

Durabilidad de la muestra de bombillas FRONTERAS FRECUENCIA 52.5-63.5 6 63.5-74.5 12 74.5-85.5 25 85.5-96.5 18 96.5-107.5 14 107.5-118.5 5 TOTAL 80 EJERCICIO – 3 p.14
Tabla  7: Total de palabras por minuto que escriben los taquígrafos  CLASES  FRECUENCIA  54-58  2  59-63  5  64-68  8  69-73  0  74-78  4  79-83  5  84-88  1  TOTAL  25

Tabla 7:

Total de palabras por minuto que escriben los taquígrafos CLASES FRECUENCIA 54-58 2 59-63 5 64-68 8 69-73 0 74-78 4 79-83 5 84-88 1 TOTAL 25 p.14
Tabla  5: Salario Mensual por Familia en una comunidad  CLASES  MARCA  DE  CLASE  (m i )  FRECUENCIAS (fi)  m i

Tabla 5:

Salario Mensual por Familia en una comunidad CLASES MARCA DE CLASE (m i ) FRECUENCIAS (fi) m i p.18
Tabla  6: Durabilidad de la muestra de bombillas  FRONTERAS  FRECUENCIA  f i m i    m i

Tabla 6:

Durabilidad de la muestra de bombillas FRONTERAS FRECUENCIA f i m i m i p.20

Referencias

Actualización...