• No se han encontrado resultados

Estadística Apuntes Unidad 1 (parte final) (1)

N/A
N/A
Protected

Academic year: 2020

Share "Estadística Apuntes Unidad 1 (parte final) (1)"

Copied!
10
0
0

Texto completo

(1)

La desviación típica y otras medidas

de dispersión

DISPERSIÓN O VARIACIÓN

La dispersión o variación de los datos intenta dar una idea de cuan esparcidos se encuentran éstos. Hay varias medidas de tal dispersión, siendo las más comunes el rango, la desviación media, el rango semi-intercuartilar, el rango percentilar 10-90 y la desviación típica o estándar.

EL RANGO

El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos.

EJEMPLO 1. El rango del conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12 es 12 - 2 = 10. A veces el rango se

indica dando el par de valores extremos; así, en este ejemplo, seria 2-12.

LA DESVIACIÓN MEDIA

1 2 N

La desviación media o desviación promedio, de un conjunto de N números X , X , …, X es

abreviada por DM y se define como

(19)

j j

donde es la media aritmética de los números y |X – | es el valor absoluto de la desviación de X

respecto de (E l valor absoluto de un número es el número sin signo y se denota con dos barras

verticales; así |-4| = 4, |+3| = 3, |6| = 6 y |-0.84| = 0.84.)

EJEMPLO 2. Hallar la desviación media del conjunto 2, 3, 6, 8, 11.

1 2 K 1 2 K

Si X , X , ..., X ocurren con frecuencias f , f , ... , f , respectivamente, la desviación media se puede

escribir como

(20)

j j

Esta forma es útil para datos agrupados, donde los X representan las marcas de clase y los f son las

correspondientes frecuencias de clase.

Ocasionalmente se define la desviación media en términos de desviaciones absolutas respecto de la

(2)

es que es mínima cuando a es la mediana (o sea, la desviación media respecto de la mediana es mínima).

Nótese que sería más apropiado usar la terminología desviación media absoluta que desviación media.

EL RANGO SEMI-INTERCUARTILAR

El rango semi-intercuartilar, o desviación cuartilar, de un conjunto de datos se denota por Q y se define como

(21)

1 3 3 1

donde Q y Q son el primer y tercer cuartil de esos datos. El rango intercuartilar Q – Q también

se usa a veces, pero menos que el rango semi-intercuartilar, como medida de dispersión.

EL RANGO PERCENTILAR 10-90

El rango percentilar 10-90 de un conjunto de datos se define por

90 10

Rango percentilar 10-90 = P - P (22)

l0 90

donde P y P son los décimo y nonagésimo percentiles de esos datos. Puede usarse también el

90 10

Rango Semipercentilar 10-90 = ½(P - P ). Pero no es frecuente.

LA DESVIACIÓN TÍPICA O ESTÁNDAR

1 2 N

La desviación estándar de un conjunto de N números X , X , ..., X se denota por s y se define

como

(23)

j

donde x representa las desviaciones de cada uno de los números X respecto de la media . Así que

s es la raíz cuadrada de la media de las desviaciones cuadráticas, o como se le llama en ocasiones, la desviación raiz-media-cuadrado.

1 2 K 1 2 K

Si X , X , ..., X ocurren con frecuencias f , f , …, f , respectivamente, la desviación estándar puede

expresarse

(24)

(3)

estimación, siempre podemos obtenerla multiplicando la aquí definida por . Por tanto, nos quedaremos con la elección (23) y (24).

LA VARIANZA

La varianza de un conjunto de datos se define como el cuadrado de la desviación estándar y viene

dada en consecuencia por s 2en las ecuaciones (23) y (24).

Cuando sea necesario distinguir la desviación estándar de una población de la de una muestra de

dicha población, usaremos el símbolo s para esta última y ó (sigma griega minúscula) para la

primera. De modo que s y 2 ó2 representarían la varianza de la muestra y la varianza de la

población, respectivamente.

MÉTODOS CORTOS PARA CALCULAR LA DESVIACIÓN ESTÁNDAR

Las ecuaciones (5) y (6) se pueden escribir, respectivamente, en las formas equivalentes

(25)

(26)

donde denota la media de los cuadros de los diversos valores de X, mientras d e n o t a e l

cuadrado de la media de los valores de X.

j j j

Si d = X – A son las desviaciones de X respecto de alguna constante arbitraria A, los resultados

(25) y (26) se convierten, respectivamente, en

(27)

(28)

Cuando se tienen los datos agrupados en una distribución de frecuencias cuyos intervalos de clase

j j j j

(4)

(29)

Esta última fórmula proporciona un método muy breve para calcular la desviación estándar y debe usarse para datos agrupados con igual anchura en sus intervalos de clase. Se llama método de

compilación y es similar al utilizado para el cálculo de la media aritmética de datos agrupados.

PROPIEDADES DE LA DESVIACIÓN ESTÁNDAR

1. La desviación estándar puede definirse .como

donde a es cualquier valor presuntivo de promedio. De tales desviaciones estándares, la

mínima es aquella para la cual a = , debido a la Propiedad 2 de la media aritmética. Esta propiedad da una buena razón para adoptar la definición del comienzo.

2. Para distribuciones normales, resulta (ver figura 1.17):

(a) 68,27% de los casos están entre X& – s y X& + s (o sea, una desviación

estándar a cada lado de la media).

(b) 95,45% de los casos están entre X& – 2s y X& + 2s (o sea, dos desviaciones

estándares a cada lado de la media).

(c) 99,73% de los casos entre X& – 3s y X& + 3s (o sea, tres desviaciones

estándares a cada lado de la media).

Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.

1 2

3. Supongamos que dos conjuntos de N y N números (o dos distribuciones de frecuencias

1 2 1 2

con frecuencias totales N y N tienen varianza dadas por s y s2 2, respectivamente, y

tienen la misma media X&. Entonces la varianza combinada de ambos conjuntos (o de

(5)

Nótese que esto es una medida aritmética ponderada de las varianzas. El resultado admite generalización a más conjuntos.

COMPROBACIÓN DE CHARLIER

La comprobación de Charlier en cálculos de la media y de la desviación típica por el método de compilación hace uso de las identidades

CORRECCIÓN DE SHEPPARD PARA LA VARIANZA

El cálculo de la desviación estándar es algo erróneo como resultado del agrupamiento de datos en clases (error de agrupamiento). Para corregirlo, se usa la fórmula

(31)

donde c es la anchura del intervalo de clase. La corrección c /12 (que se resta) se llama corrección2

de Sheppard. Se usa para distribuciones de variables continuas donde las «colas» van gradualmente hacia cero en ambas direcciones.

Los estadísticos difieren respecto de cuándo y dónde debe aplicarse la corrección. Ciertamente no debe aplicarse antes de examinar cuidadosamente la situación, pues a menudo tiende a

sobrecorregir, con lo que sustituye un error por otro. En nuestro curso, salvo indicación expresa,

no la usaremos.

RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN

Para distribuciones poco sesgadas, se tienen las fórmulas empíricas

(32)

donde:

DM = Desviación media

s = desviación estándar

y

(33)

donde:

RSQ = Rango Semiintercuartilar

s = desviación estándar

(6)

DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN

La variación o dispersión real, tal como se determina en la desviación estándar u otra medida de dispersión, se llama la dispersión absoluta. Sin embargo, una dispersión (o variación) de 25 centímetros en la medida de 350 metros es muy diferente de esa misma dispersión al medir una distancia de 10 metros. Una medida de este efecto la da la dispersión relativa, a saber

(34)

Si la dispersión absoluta es la desviación estándar s y el promedio es la media X& , entonces la

dispersión relativa se denomina coeficiente de variación, o coeficiente de dispersión; se denotará por V y se define como

(35)

y se expresa en general en forma de porcentaje.

Nótese que el coeficiente de variación es independiente de las unidades usadas. Por esa razón es útil al comparar distribuciones con unidades diferentes. Una desventaja del coeficiente de

variación es que pierde su utilidad cuando X& es próxima a cero.

VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR

La variable que mide la desviación de la medida en unidades de la desviación estándar se llama una variable tipificada o estandarizada, es adimensional (independiente de las unidades usadas) y viene dada por

(36)

(7)

PROBLEMAS PROPUESTOS

EL RANGO

1.125 Hallar el rango de los conjuntos (a) 12, 6, 7, 3, 15, 10, 18, 5 y (b) 9, 3, 8, 8, 9, 8, 9, 18.

1.126 Hallar el rango de las alturas de los estudiantes de la Tabla 1.1.

1.127 Hallar el rango de los conjuntos de números (a) 5, 3, 8, 4, 7, 6, 12, 4, 3 y (b) 8,772, 6,453, 10,624, 8,628, 9,434, 6,351.

1.128 Hallar el rango de las cargas máximas del Problema 1.52, Tabla 1.17.

1.129 Hallar el rango de los diámetros de remaches del Problema 1.54, Tabla 1.19.

1.130 La mayor de 50 medidas es 8,34 kilogramos (Kg). Si el rango es 0,46 Kg, hallar la menor de esas medidas.

1.131 Determinar el rango de los datos en (a) Problema 1.55, (b) Problema 1.78 y (c) Problema 1.20.

LA DESVIACIÓN MEDIA

1.132 Hallar la desviación media de los conjuntos de números del Problema 1.125.

1.133 Hallar la desviación media de las alturas de los 100 estudiantes de la Universidad XYZ (Tabla 1.1)

1.134 Hallar los valores absolutos de (a) -18,2, (b) +3,58, (c) 6,21, (d) 0, (e) - y (f) 4,00 – 2,36 – 3,52.

1.135 Hallar la desviación media del conjunto (a) 3, 7, 9, 5 y (b) 2,4, 1,6, 3,8, 4,1, 3,4.

1.136 Hallar la desviación media de los conjuntos de números del Problema 1.125.

1.137 Hallar la desviación media de las cargas máximas del Problema 1.52, Tabla 1.17.

1.138 (a) Hallar la desviación media de los diámetros del Problema 1.54, Tabla 1.19.

(b) ¿Qué porcentaje de ellos está entre ( ± DM), ( ± 2 DM) y ( ± 3 DM)?

1.139 Para el conjunto de números 8, 10, 9, 12, 4, 8, 2, hallar la desviación media respecto de (a) la media y (b) la mediana. Verificar que la desviación media de la mediana no es mayor que la de la media.

1.140 Para la distribución de la Tabla 1.18, Problema 1.53, hallar la desviación media respecto de (a) la media y (b) la mediana.

1.141 Para la distribución de la Tabla 1.20, Problema 1.55, hallar la desviación media respecto de (a) la media y (b) la mediana.

(8)

1.143 Deducir fórmulas de compilación para calcular la desviación media respecto de (a) la media y (¿>) la mediana, de una distribución de frecuencias. Aplicar estas fórmulas a la verificación de los resultados de los Problemas 1.140 y 1.141.

EL RANGO SEMI-INTERCUARTILAR

1.144 Hallar el rango semi-intercuartilar para la distribución de alturas de la Universidad XYZ (Tabla 1.1)

1.145 Hallar el rango semi-intercuartilar para los salarios de los 65 empleados de la empresa P&R (Tabla 1.6) del Problema 1.7).

1.146 Hallar el rango semi-intercuartilar para la distribución del (a) Problema 1.52, (b) Problema 1.53 y (c) Problema 1.116. Interpretar los resultados claramente en cada caso.

1.147 Hallar el rango semi-intercuartilar para la distribución de (a) Problema 1.31 y (b) Problema 1.78, interpretando los resultados en cada caso. Comparando con otras medidas de dispersión, explicar las ventajas del rango semi-intercuartilar para este tipo de distribuciones.

1.148 Probar que para cualquier distribución de frecuencias el porcentaje total de casos que caen

2

en el intervalo es 50%. ¿Es eso cierto para el intervalo Q ±

? Explicar la respuesta.

1.149 (a) ¿Cómo representaría el rango semi-intercuartilar de una distribución de frecuencias dada?

(b) ¿Cuál es la relación del rango semi-intercuartilar con la ojiva de la distribución?

EL RANGO PERCENTILAR 10-90

1.150 Hallar el rango percentil 10-90 de las alturas de la Tabla 1.1.

1.151 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.52 y (b) Problema 1.116. Interpretar cada resultado.

1.152 Hallar el rango percentil 10-90 para las distribuciones de (a) Problema 1.31 y (b) Problema 1.78. Interpretar los resultados. ¿Qué ventajas y desventajas ofrece el rango percentil 10-90 frente a otras medidas de dispersión?

1.153 ¿Qué ventajas y desventajas tendría un rango percentil 20-80 comparado con el rango percentil 10-90?

LA DESVIACIÓN ESTÁNDAR

(9)

1.157 Hallar la desviación estándar de los conjuntos de números (a) 3, 6, 2, 1, 7, 5; (b) 3,2, 4,6, 2,8, 5,2, 4,4 y (c) 0, 0, 0, 0, 0, 1, 1, 1.

1.158 (a) Sumando 5 a cada número del conjunto 3, 6, 2, 1, 7, 5, obtenemos 8, 11, 7, 6, 12, 10. Probar que ambos conjuntos de números tienen la misma desviación estándar pero diferentes medias. ¿Cómo están relacionadas las medias?

(b) Multiplicando cada número en 3, 6, 2, 1, 7, y 5 por 2 y sumando entonces 5,

obtenemos el conjunto 11, 17, 9, 7, 19, 15. ¿Cuál es la relación entre la desviación estándar y las medias de ambos conjuntos?

(c) ¿Qué propiedades de la media y de la desviación estándar quedan ilustradas por

los conjuntos particulares elegidos en las partes (a) y (b)?

1.159 Hallar la desviación estándar del conjunto de números de la progresión aritmética 4, 10, 16, 22,..., 154.

CALCULO DE LA DESVIACIÓN ESTÁNDAR PARA DATOS AGRUPADOS

1.160 Hallar la desviación estándar del conjunto de números 12, 6, 7, 3, 15, 10, 18, 5.

1.161 Hallar la desviación estándar de las alturas de estudiantes de la Universidad XYZ (Tabla 1.1) mediante (a) la fórmula corta y (b) con el método de compilación.

1.162 Por métodos de compilación, hallar (a) la media y (b) la desviación estándar para la distribución de salarios del Problema 1.7.

1.163 La Tabla 1.24 muestra los IQ (coeficientes de inteligencia) de 480 niños de una escuela elemental. Mediante el método de compilación, hallar (a) la media y (b) la desviación estándar.

Tabla 1.24

j

M arca de clase X 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126

j

Frecuencia f 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2

COMPROBACIÓN DE CHARLIER

1.164 Usar la comprobación de Charlier para verificar los cálculos de (a) la media y (b) la desviación estándar, efectuados en el Problema 1.163.

CORRECCIONES DE SHEPPARD PARA LA VARIANZA

1.165 Aplicar la corrección de Sheppard para determinar la desviación estándar de los datos del (a) Problema 1.161, (b) Problema 1.162 y (c) Problema 1.163.

1.166 Hallar, para la distribución de frecuencias del Problema 1.12, (a) la media, (b) la desviación estándar, (c) la desviación estándar usando la corrección de Sheppard y (d) la verdadera desviación estándar para los datos sin agrupar.

RELACIONES EMPÍRICAS ENTRE MEDIDAS DE DISPERSIÓN

(10)

PROPIEDADES DE LA DESVIACIÓN Estándar

1.168 Determinar el porcentaje de los IQ del Problema 1.163 que caen en los rangos

(a) ± s,

(b) ± 2s y

(c) ± 3s.

1.169 Dados los conjuntos de números 2, 5, 8, 11, 14 y 2, 8, 14, hallar (a) la media de cada uno, (b) la varianza de cada uno, (c) la media combinada y (d) la varianza combinada.

1.170 Resolver el Problema 1.169 para los conjuntos 2, 5, 8, 11, 14 y 10, 16, 22.

DISPERSIÓN ABSOLUTA Y RELATIVA: COEFICIENTE DE VARIACIÓN

1.171 Un fabricante de tubos de televisión produce dos tipos de tubos, A y B, que tienen vidas

A B A

medias respectivas = 1.495 horas y = 1.875 horas, y desviación estándar de s =

B

280 horas y s = 310 horas. ¿Qué tubo tiene (a) mayor dispersión absoluta y (b) mayor

dispersión relativa?

1.172 En un examen final de Estadística, la puntuación media de 150 estudiantes fue de 78, y la desviación estándar 8,0. En Álgebra, la media fue 73 y la desviación estándar 7,6. ¿En qué materia fue mayor (a) la dispersión absoluta y (b) la dispersión relativa?

1.173 Hallar el coeficiente de variación para los datos de (a) Problema 1.52 y (b) Problema 1.116.

1.174 (a) Definir una medida de la dispersión relativa que pueda utilizarse para un conjunto de datos cuyos cuartiles son conocidos.

(b) Ilustrar el cálculo de la medida definida en (a) mediante los datos del Problema

1.144

VARIABLES TIPIFICADAS: UNIDADES ESTÁNDAR

1.175 Un estudiante obtuvo 84 puntos en el examen final de Matemáticas, en el que la nota media fue 76, y la desviación estándar 10. En el examen final de Física obtuvo 90 puntos, siendo la media 82 y la desviación estándar 16. ¿En qué examen sobresalió más?

1.176 (a) Convertir los IQ del Problema 1.163 en un recuento estándar y (b) construir una gráfica de frecuencias relativas versus recuento estándar.

1.177 En los exámenes a que se refiere el Problema 1.172, un alumno obtuvo 75 en Estadística y 71 en Álgebra. ¿En qué examen sobresalió más?

1.178 Convertir el conjunto 6, 2, 8, 7, 5 en un recuento estándar (o referencias tipificadas).

Referencias

Documento similar

CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión

Actividades de carácter práctico mediante la utilización de las tecnologías de la información y las comunicaciones. Las TIC suponen un excelente soporte y canal para el tratamiento

Tal y como se hace constar en el artículo 29 del Real Decreto 412/2014, las solicitudes de plazas de estudiantes con estudios universitarios oficiales españoles parciales que deseen

Emisión de informe sobre la adecuación entre las competencias y conocimientos adquiridos de acuerdo con el plan de estu- dios del título de origen, o la experiencia laboral

Por otra parte, tal como se recoge en el reglamento interno de la Escuela de Doctorado de la Universidad de Málaga, para corregir desequilibrios entre líneas y profesores se

En aula docente: Resolución de problemas, actividades de diseño, ejercicios de simulación y/o demostración, realización de informes profesionales y/o técnicos, realización

Las solicitudes de reconocimiento presentadas, en las que se aleguen créditos obtenidos en títulos universitarios oficiales de Graduado, para la convalidación de asignaturas o

Algunos ejemplos fueron el caso de los Temas Transversales relacionados con la Educación Ambiental que comenzaron a aparecer en la cultura escolar con la LOGSE