• No se han encontrado resultados

Media ponderada y medidas de datos agrupados

Capítulo 21. Teoría estadística de la decisión

3.3. Media ponderada y medidas de datos agrupados

3.5. Obtención de relaciones lineales

Introducción

En el Capítulo 2 hemos descrito los datos gráficamente. En éste, los describimos numé- ricamente con medidas de la tendencia central, medidas de la variabilidad, medidas de datos agrupados y medidas del sentido y del grado de relación entre dos variables.

3.1. Medidas de la tendencia central

A menudo podemos averiguar si los datos tienden a estar centrados o a agruparse en torno a algún valor construyendo un histograma. Las medidas de la tendencia central suministran información numérica sobre una observación «típica» de los datos. En este apartado anali- zamos la media, la mediana, la moda y la simetría de los datos (para la media geométrica, véase el apéndice de este capítulo).

Media, mediana, moda

En el Capítulo 1 presentamos los términos parámetro y estadístico. Un parámetro se refie- re a una característica poblacional específica; un estadístico se refiere a una característica muestral específica. Las medidas de la tendencia central normalmente se calculan a partir de datos muestrales más que a partir de datos poblacionales. Una de las medidas de la ten- dencia central que nos viene rápidamente a la mente es la media.

Media aritmética

La media aritmética (o media simplemente) de un conjunto de datos es la suma de los valores de los datos dividida por el número de observaciones. Si el conjunto de datos es toda la pobla- ción de datos, la media poblacional, k, es un parámetro que viene dado por

k % N ; i%1 xi N % x1!x2!ñ !xN N (3.1)

donde N % tamaño de la población y G significa «la suma de».

Si el conjunto de datos procede de una muestra, entonces la media muestral, x6, es un esta-

dístico que viene dado por

x6 % n ; i%1 xi n % x1!x2!ñ !xn n (3.2)

donde n % tamaño de la muestra y G significa «la suma de».

Para localizar la mediana, debemos reordenar los datos en sentido ascendente o des- cendente.

Mediana

La mediana es la observación que ocupa el lugar central de un conjunto de observaciones or- denadas en sentido ascendente (o descendente). Si el tamaño de la muestra, n, es un número impar, la mediana es la observación que se encuentra en el medio. Si el tamaño de la muestra,

n, es un número par, la mediana es la media de las dos observaciones que se encuentran en el

medio. La mediana se encontrará en la

0,50(n ! 1) primera posición ordenada (3.3)

Moda

E

JEMPLO

3.1.

Ejemplo 3.1 Tiempos realizados en una carrera de 5.000 metros (medidas de la tendencia central)

La Komen Race for the Cure6Series es la serie de carreras de 5.000 metros más multi-

tudinaria del mundo. La Susan G. Komen Breast Cancer Foundation recauda fondos pa- ra financiar la lucha contra el cáncer de mama y para darla a conocer; apoya los proyec- tos de educación, selección y tratamiento en comunidades de todo el mundo; alaba a las mujeres que han sobrevivido y honra a las que han perdido la batalla contra la enferme- dad (véase la referencia bibliográfica 3). Halle las medidas de la tendencia central de una muestra de cinco tiempos (en minutos) que hicieron los participantes en una recien- te Race for the Cure6:

45 53 45 50 48

Solución

El tiempo medio muestral es

x6 % n ; i%1 xi n % 45 ! 53 ! 45 ! 50 ! 48 5 %48,2

Cuando ordenamos los datos en sentido ascendente:

45 45 48 50 53

la mediana es 48; dos números son inferiores a 48 minutos y dos son superiores a 48 minutos. Como la media y la mediana son muy parecidas, no importa mucho el valor que utilicemos para describir el centro de los datos. La moda es 45 minutos, ya que apa- rece dos veces y todos los demás tiempos sólo aparecen una vez. Sin embargo, en este caso, la moda es el valor más bajo y no es el mejor indicador de la tendencia central. Si la muestra incluyera el tiempo de 53 minutos del sexto participante,

45 45 48 50 53 53

la mediana se encontraría situada en la 0,5(n ! 1) primera posición, o sea, la 3,5.a ob-

servación ordenada, que sería 49 minutos. Ahora vemos que los datos son bimodales y que las modas son 45 y 53.

¿Cuál es la mejor medida para describir la tendencia central de los datos: la media, la mediana o la moda? Depende del contexto. Uno de los factores que influyen en la decisión es el tipo de datos, categóricos o numéricos, definidos en el Capítulo 2. La media general- mente es la medida preferida para describir datos numéricos, pero no datos categóricos. Si una persona está totalmente de acuerdo con una afirmación (código 5) y otra está total- mente en desacuerdo (código 1), ¿es la media «ninguna opinión»? Por poner otro ejemplo, supongamos que un comité está formado por dos hombres (cada uno responde 1) y tres mujeres (cada una responde 2). La media aritmética [(1 ! 1 ! 2 ! 2 ! 2)/5 % 1,6] no tie- ne sentido. Pero la moda de 2 indica que hay más mujeres que hombres en este comité. Es evidente que los datos categóricos se describen mejor por medio de la moda o de la mediana. Quizá el uso más obvio de la mediana y la moda sea el de los fabricantes que producen bienes, como prendas de vestir, de varias tallas. La talla de los artículos que se venden más a menudo, la moda, es, pues, la más demandada. Saber que la talla media de

las camisas de los hombres europeos es 41,13 o que el número medio del calzado de las mujeres estadounidenses es 8,24 no sirve de nada, pero saber que la talla modal de las ca- misas es 40 o que el número modal del calzado es 7 es valioso para tomar decisiones sobre las existencias. Sin embargo, la moda puede no representar el verdadero centro de los datos numéricos. Por este motivo, se utiliza menos que la media o la mediana en las aplicaciones empresariales.

E

JEMPLO

3.2.

Variación porcentual de los beneficios por acción (medidas de la tendencia central)

En una muestra aleatoria de ocho empresas estadounidenses, los beneficios por acción han experimentado este año las siguientes variaciones porcentuales en comparación con el año pasado:

0% 0% 8,1% 13,6% 19,4% 20,7% 10,0% 14,2%

Solución

La variación porcentual media de los beneficios por acción de esta muestra es

x6 % n ; i%1 xi n % 0 ! 0 ! 8,1 ! 13,6 ! ñ ! 14,2 8 %10,75, o sea, 10,75%

y la variación porcentual mediana de los beneficios por acción es 11,8 por ciento. La moda es 0 por ciento, ya que aparece dos veces y los otros porcentajes sólo aparecen una vez. Pero esta tasa porcentual modal no representa el centro de estos datos mues- trales.

Otro factor que debe considerarse es la presencia de casos atípicos. Siempre que hay casos atípicos en los datos, hay que buscar las causas posibles. En primer lugar, hay que averiguar si se ha cometido un error en la introducción de los datos. La media será mayor si hay grandes casos atípicos y será menor cuando los datos contienen pequeños casos atí- picos. La mediana es la medida preferida para describir la distribución de la renta en una ciudad, una región o un país. Como la renta normalmente contiene una pequeña proporción de valores muy altos, la renta media será más alta. Sin embargo, la renta mediana es el nivel de renta o de riqueza por encima del cual se encuentra la mitad de los hogares de la población. Aunque los casos atípicos influyan en la media, en el Capítulo 8 veremos que en muchas situaciones la media tiene algunas propiedades por las que es más atractiva que la mediana.

La mediana, a pesar de su ventaja para descontar las observaciones extremas, se utiliza menos a menudo que la media. La razón se halla en que el desarrollo teórico de los méto- dos de inferencia basados en la media y las medidas relacionadas con ella es considerable- mente más sencillo que el desarrollo de métodos basados en la mediana.

Forma de la distribución

En la Figura 2.10 del Capítulo 2 presentamos histogramas que eran simétricos, estaban

sesgados positivamente y sesgados negativamente. La media y la mediana de una distribu-

ción simétrica son iguales, ya que las observaciones están equilibradas, o sea, están distri- buidas uniformemente en torno al centro. La media de una distribución sesgada positiva-

mente es mayor que su mediana. La media de una distribución sesgada negativamente es menor que su mediana.

Las distribuciones de la renta o de la riqueza de los hogares de una ciudad, una región o un país tienden a contener una proporción relativamente pequeña de valores altos. Una elevada proporción de la población tiene una renta relativamente modesta, pero, por ejem- plo, la renta del 10 por ciento superior de todos los perceptores de renta se extiende a lo largo de un considerable intervalo de valores. Como consecuencia, la media de esas distri- buciones normalmente es mucho más alta que la mediana. La media, que es inflada por las personas muy ricas, da una visión demasiado optimista del bienestar económico de la co- munidad. Se prefiere, pues, la mediana a la media.

Una de las causas posibles del sesgo es la presencia de casos atípicos. Las observacio- nes excepcionalmente grandes tienden a aumentar la media, lo que provoca posiblemente un sesgo positivo. Asimismo, si hay observaciones excepcionalmente pequeñas en los da- tos, el valor de la media disminuye, lo que provoca posiblemente un sesgo negativo. A ve- ces el sesgo es simplemente inherente a la distribución. Si es cero o cercano a cero, la dis- tribución es simétrica o aproximadamente simétrica. Si el valor del sesgo es negativo, la distribución está sesgada hacia la izquierda y, si es positivo, la distribución está sesgada hacia la derecha.

El cálculo manual del sesgo requiere medidas descriptivas que se presentan más ade- lante en este capítulo. En el ejemplo 3.3 haremos uso de la tecnología, dejando el análisis más extenso del sesgo para el apéndice de este capítulo.

E

JEMPLO

3.3.

El sueldo anual (sesgo)

Los sueldos anuales de una muestra de cinco empleados son

39.000 $ 37.500 $ 35.200 $ 40.400 $ 100.000 $ Describa la tendencia central y la simetría de los datos.

Solución

En primer lugar, verificamos la exactitud de los datos. No encontrando ningún error (el caso atípico de 100.000 es un sueldo correcto), calculamos el sueldo anual medio, 50.420, un valor que no parece que sea un sueldo «representativo». El sueldo mediano de 39.000 es la medida preferida de la tendencia central. Estos datos no tienen moda. Como la media es mucho mayor que la mediana, es de suponer que los datos están ses- gados positivamente, lo que se confirma en la Figura 3.1, en la que el sesgo es aproxi- madamente igual a 2,21.

Queremos insistir en que la elección de la medida de la tendencia central depende del contexto o del problema. Con eso no queremos decir que siempre deba preferirse la media- na a la media cuando la población o la muestra está sesgada. Hay veces en las que la media seguiría siendo la medida preferida aunque la distribución estuviera sesgada. Consi- deremos el caso de una compañía de seguros que es muy probable que se enfrente a una distribución de las reclamaciones sesgada hacia la derecha. Si quiere saber cuál es la cuan- tía de las reclamaciones más representativa, se prefiere la mediana. Pero supongamos que quiere saber cuánto dinero necesita presupuestar para cubrir las reclamaciones. En ese caso, se prefiere la media.

EJERCICIOS Ejercicios básicos

3.1. En una muestra aleatoria de 5 semanas se observó que una agencia de cruceros recibía el siguiente número de programas semanales especiales de cruceros al Caribe:

20 73 75 80 82

a) Calcule la media, la mediana y la moda. b) ¿Qué medida de la tendencia central describe

mejor los datos?

3.2. El director de unos grandes almacenes tiene inte- rés en saber cuántas reclamaciones recibe el de- partamento de atención al cliente sobre la calidad de los aparatos eléctricos que venden los almace- nes. Los registros de un periodo de 5 semanas muestran el siguiente número de reclamaciones se- manales:

13 15 8 16 8

a) Calcule el número medio de reclamaciones se- manales.

b) Calcule el número mediano de reclamaciones semanales.

c) Halle la moda.

3.3. Diez economistas recibieron el encargo de prede- cir el crecimiento porcentual que experimentará el índice de precios de consumo el próximo año. Sus predicciones fueron

3,6 3,1 3,9 3,7 3,5

3,7 3,4 3,0 3,7 3,4

a) Calcule la media muestral. b) Calcule la mediana muestral. c) ¿Cuál es la moda?

3.4. Una cadena de grandes almacenes eligió aleatoria- mente 10 establecimientos situados en una región. Tras examinar los datos de ventas, observó que ese año se habían conseguido en las Navidades los

siguientes aumentos porcentuales de las ventas en dólares con respecto al año anterior:

10,2 3,1 5,9 7,0 3,7

2,9 6,8 7,3 8,2 4,3

a) Calcule el aumento porcentual medio de las ventas en dólares.

b) Calcule la mediana. c) Comente la simetría.

3.5. Los porcentajes de la remuneración total corres- pondientes al pago de pluses de una muestra de 12 altos ejecutivos son los siguientes:

15,8 17,3 28,4 18,2 15,0 24,7

13,1 10,2 29,3 34,7 16,9 25,3

a) Calcule la mediana muestral. b) Calcule la media muestral.

3.6. La demanda de agua embotellada aumenta durante la temporada de huracanes en Florida. En una muestra aleatoria de 7 horas, se observó que en una tienda se vendió el siguiente número de bote- llas de 1 galón:

40 55 62 43 50 60 65

a) Describa la tendencia central de los datos. b) Comente la simetría o el sesgo.

3.7. Un fabricante de radios portátiles obtuvo una muestra de 50 radios de la producción de una se- mana. Las radios se examinaron minuciosamente y el número de defectos encontrados fue el si- guiente:

Número de defectos 0 1 2 3

Número de radios 12 15 17 6

Halle las medidas de la tendencia central.

3.8. Las edades de una muestra de 12 estudiantes ma- triculados en un curso de macroeconomía en lí- nea son

21 22 27 36 18 19

a) ¿Cuál es la edad media de esta muestra? b) Halle la edad mediana.

c) ¿Cuál es la edad modal? Ejercicios aplicados

3.9. El fichero de datos Rates contiene las tasa- ciones (en porcentaje) que se hicieron en 2005 de una muestra aleatoria de 40 solares de una zona comercial.

a) Calcule la tasa porcentual de tasación media, la mediana y la modal.

b) Describa la asimetría o el sesgo de los datos.

3.10. Una muestra de 33 estudiantes de contabili- dad anotó el número de horas dedicadas a estu- diar la materia de la asignatura durante la semana anterior al examen final. Los datos se encuentran en el fichero de datos Study.

a) Calcule la media muestral. b) Calcule la mediana muestral. c) Comente la simetría o el sesgo.

3.11. El fichero de datos Sun contiene los volúme- nes de una muestra aleatoria de 100 envases (de 237 ml) de una nueva crema bronceadora. a) Halle e interprete el volumen medio. b) Halle el volumen mediano.

c) ¿Son simétricos los datos o están sesgados? Explique su respuesta.

3.2. Medidas de la variabilidad

La media no es por sí sola una descripción completa o suficiente de los datos. En este apartado presentamos números descriptivos que miden la variabilidad o dispersión de las observaciones con respecto a la media. En concreto, incluimos el rango, el rango intercuar- tílico, la varianza, la desviación típica y el coeficiente de variación. También describimos los datos numéricamente por medio del resumen de cinco números, con un breve análisis de las reglas básicas para ayudarnos a hallar el porcentaje de observaciones que se encuen- tran a diversas distancias de la media.

No existen dos cosas exactamente iguales. Éste es uno de los principios básicos del control de calidad estadístico. En todas las áreas hay variaciones. En los deportes, el juga- dor estrella de baloncesto puede anotar cinco canastas de 3 puntos en un partido y ninguna en el siguiente o puede jugar 40 minutos en un partido y sólo 24 en el siguiente. La varia- ción es obvia en el sector de la música; el tiempo meteorológico varía mucho de un día a otro e incluso de una hora a otra; las calificaciones de un examen varían de unos alumnos a otros dentro de un mismo curso con un mismo profesor; la presión sanguínea, el pulso, el nivel de colesterol y la ingesta de calorías de una persona varían diariamente.

Aunque dos conjuntos de datos tuvieran la misma media, las observaciones individua- les de uno de ellos podrían variar con respecto a la media más que las del segundo. Consi- deremos los dos conjuntos siguientes de datos muestrales:

Muestra A 1 2 1 36 Muestra B 8 9 10 13

Aunque la media es 10 en ambas muestras, es evidente que los datos de la muestra A están más alejados de 10 que los de la muestra B. Necesitamos números descriptivos para medir esta dispersión.

Rango y rango intercuartílico

Rango

Cuanto mayor es la dispersión de los datos con respecto al centro de la distribución, mayor es el rango. Como el rango sólo tiene en cuenta la observación mayor y la menor,

puede estar muy distorsionado si hay una observación excepcionalmente extrema. Aunque el rango mide la dispersión total de los datos, puede ser una medida insatisfactoria de la variabilidad (dispersión) debido a que los casos atípicos, o bien muy altos o bien muy ba- jos, influyen en él. Una manera de evitar esta dificultad es ordenar los datos en sentido as- cendente o descendente, descartar algunos de los números más altos y algunos de los más bajos y hallar el rango del resto. El rango intercuartílico mide la dispersión del 50 por ciento intermedio de los datos.

Rango intercuartílico

El rango intercuartílico (RIC) mide la dispersión que hay en el 50 por ciento central de los

datos; es la diferencia entre la observación de Q3, el tercer cuartil (o sea, el 75.opercentil) y la observación de Q1, el primer cuartil (o sea, el 2.opercentil ). Por lo tanto,

RIC % Q3.Q1 (3.4)

donde Q3se encuentra situado en la 0,75(n ! 1) primera posición cuando los datos están orde- nados en sentido ascendente y Q1está situado en la 0,25(n ! 1) primera posición cuando los datos están ordenados en sentido ascendente.

En la ecuación 3.3 ya hemos visto que la mediana es el 50.o percentil, o sea el segundo

cuartil (Q2), y se encuentra situada en la 0,50(n ! 1) primera posición ordenada.

Resumen de cinco números

El resumen de cinco números se refiere a las cinco medidas descriptivas: mínimo, primer cuartil, mediana, tercer cuartil y máximo. Es evidente que

Mínimo a Q1aMediana a Q3aMáximo

E

JEMPLO

3.4.

Tiempos de espera en Comestibles Gilera (resumen de cinco números)

Comestibles Gilera anuncia que los clientes tienen que esperar menos de 1 minuto para pagar si utilizan la Caja rápida. La Figura 3.2 es un diagrama de tallo y hojas de una muestra de 25 tiempos de espera (en segundos). Calcule el resumen de cinco números.

Stem-and-leaf Minutes N = 25 Leaf Unit = 1.0 9 1 1 2 4 6 7 8 8 9 9 (9) 2 1 2 2 2 4 6 8 9 9 7 3 0 1 2 3 4 2 4 0 2

Solución

En el diagrama de tallo y hojas vemos que el tiempo mínimo es de 11 segundos y el máximo es de 42. El primer cuartil, Q1, se encuentra en la 0,25(25 ! 1) primera posi- ción ordenada % 6,5 primera posición ordenada. El valor es de 18 segundos. El tercer cuartil, Q3, se encuentra en la 0,75(25 ! 1) primera posición ordenada % 19,5 primera posición ordenada. El valor es de 30,5 segundos. El tiempo mediano es de 22 segundos. El rango es 42 . 11 % 31 segundos; el rango intercuartílico es 30,5 . 18 % 12,5 segun- dos; es decir, el 50 por ciento central de los datos tiene una dispersión de 12,5 segundos solamente.

Varianza y desviación típica

Aunque el rango y el rango intercuartílico miden la dispersión de los datos, ambas medidas sólo tienen en cuenta dos de los valores de los datos. Necesitamos una medida que consi- dere cada uno de los valores de los datos. Esa medida promediaría la distancia total (G) entre cada observación y la media. Esta distancia sería negativa en el caso de los valores menores que la media (y la distancia no es negativa). Si se eleva al cuadrado cada una de estas diferencias, (xi.x6)2, cada observación (tanto por encima como por debajo de la me- dia) contribuye a la suma de los términos al cuadrado. La media de la suma de los térmi- nos al cuadrado se llama varianza.