2.3 Estadística descriptiva: medidas de tendencia central
En el caso de datos categóricos, la distribución de frecuencias proporciona un resumen conciso y completo de una muestra. En el caso de variables numéricas, la distribución de frecuencias se puede complementar de forma útil con algunas medidas numéricas. Una medida numérica calculada a partir de los datos de una muestra se denomina es-
tadístico*. Los estadísticos descriptivos son estadísticos que describen un conjunto de datos. Generalmente, los estadís-
ticos descriptivos de una muestra se calculan para proporcionar información sobre una población de interés (véase la Sección 2.8). En esta sección estudiaremos medidas de tendencia central de los datos. Existen varias formas diferentes de definir el «centro» o «valor típico» de las observaciones de una muestra. Consideraremos las dos medidas de tendencia central más ampliamente utilizadas: la mediana y la media.
La mediana
Quizá la medida más simple del centro de un conjunto de datos sea lamediana muestral. La mediana muestral es el valor que está más cerca de la mitad de la muestra; es el valor de los datos que divide a dichos datos ordenados en dos mitades iguales. Para obtener la mediana, se ordenan primero las observaciones en orden creciente. En la secuencia de observaciones ordenadas, la mediana es el valor central (si n es impar) o el punto medio entre los dos valores del centro (si n es par). Denotaremos la mediana de la muestra mediante el símbolo y˜ (léase «y tilde»). El Ejemplo 2.3.1 ilustra estas definiciones.
Ejemplo 2.3.1 Ganancia de peso de corderos
Se presentan a continuación las ganancias de peso (lb) durante dos semanas de seis corderos jóvenes de la mis- ma raza que habían seguido la misma dieta19:
11 13 19 2 10 1
Las observaciones ordenadas son
1 2 10 11 13 19
* Las medidas numéricas basadas en la población completa se denominan parámetros, que se comentan con más detalle en la Sección 2.8.
La mediana de la ganancia de peso es
y˜ %10 ! 11
2 %10,5 lb
La mediana divide los datos ordenados en dos partes iguales (con el mismo número de observaciones por enci- ma y por debajo de la mediana). La Figura 2.3.1 muestra un diagrama de puntos de los datos de ganancia de peso de
corderos, junto con la posición de y˜. %
0 5 10
Ganancia de peso (lb)
15 20
~ y
Figura 2.3.1 Diagrama de los datos de la ganancia de peso en corderos
Ejemplo 2.3.2 Ganancia de peso de corderos
Supongamos que la muestra contuviera un cordero más, y las siete observaciones ordenadas fueran como sigue:
1 2 10 10 11 13 19
Para esta muestra, la mediana de la ganancia de peso es
y˜ % 10 lb
(Nótese que en este ejemplo hay dos corderos cuya ganancia de peso es igual a la mediana. La cuarta observación,
es decir, el segundo 10, es la mediana). %
Una manera más formal de definir la mediana es en función de la posición en la secuencia ordenada (indicando la observación más pequeña como posición 1, la siguiente como 2, y así sucesivamente). La posición de la mediana es igual a
(0,5)(n ! 1)
Es decir, si n % 7, calculamos (0,5)(n ! 1) % 4, de forma que la mediana es la cuarta observación empezando a contar desde la más pequeña. Si n % 6, tenemos que (0,5)(n ! 1) % 3,5, por lo que la mediana está en la mitad de las observaciones tercera y cuarta empezando a contar desde la más pequeña. Nótese que la fórmula (0,5)(n ! 1) no da el valor de la mediana, sino su posición en la lista ordenada de datos.
La media
La medida más familiar de tendencia central es el promedio ordinario omedia (denominada algunas veces media aritmética). La media de una muestra (o «media muestral») es la suma de las observaciones dividida por el núme- ro de observaciones. Si denotamos por Y a una variable, entonces denotaremos las observaciones de la muestra por
y1, y2, ..., yn, e indicaremos la media de la muestra como y6 (leído «y barra»). El Ejemplo 2.3.3 ilustra esta notación.
Ejemplo 2.3.3 Ganancia de peso de corderos
A continuación se muestran los datos del Ejemplo 2.3.1:
11 13 19 2 10 1
En este caso, y1%11, y así sucesivamente hasta y6%1. La suma de las observaciones es 11 ! 13 ! ñ ! 1 % 56. Podemos expresar esa suma utilizando la «notación de sumatorio», como Gni%1 yi%56. El símbolo Gni%1 yi
significa «sumar los yi». Así, cuando n % 6, Gn
i%1 yi%y1!y2!y3!y4!y5!y6. En este caso tenemos Gni%1yi%11!13!19!2!10!1%56.
Mientras que la mediana divide los datos en dos partes iguales (es decir, el mismo número de observaciones por encima y por debajo), la media es el «punto de equilibrio» de los datos. La Figura 2.3.2 muestra el diagrama de puntos de los datos de ganancia de peso en corderos, junto con la posición de y˜. Si los puntos de datos fueran niños en un columpio sin peso, entonces el columpio se inclinaría si el punto de apoyo se situara en y˜, independientemente de que haya el mismo número de niños en cada lado. Los niños del lado izquierdo (por debajo de y˜) se sientan más lejos de y˜ que los niños de la derecha (por encima de y˜), por lo que el columpio se inclina. Sin embargo, si el punto de apoyo se sitúa en y6, el columpio quedaría en equilibrio, como muestra la Figura 2.3.3. %
0 5 10 Ganancia de peso (lb) 15 20 y ~
Figura 2.3.2 Diagrama de los datos de la ganancia
de peso en corderos con la mediana muestral como el punto de apoyo de la balanza
La ganancia media de peso de los seis corderos de esta muestra es
y6 %11 ! 13 ! 19 ! 2 ! 10 ! 1
6 %
56
6 %9,33 lb
La media muestral La definición general de media muestral es
y6 % n ; i%1 yi n
donde los valores yison las observaciones de la muestra y n es el tamaño de la muestra (es decir, el número de yi).
0 5 10
Ganancia de peso (lb)
15 20
y
Figura 2.3.3 Diagrama de los datos de la ganancia
de peso en corderos con la media muestral como el punto de apoyo de la balanza
La diferencia entre un punto de datos y la media se denominadesviación: desviacióni%yi.y6. La media tiene la
propiedad de que la suma de las desviaciones respecto a la media es cero, es decir Gni%0 (yi.y6) % 0. En este sentido,
la media es el centro de la distribución: las desviaciones positivas equilibran a las desviaciones negativas.
Ejemplo 2.3.4 Ganancia de peso de corderos
En el ejemplo de la ganancia de peso de los corderos, las desviaciones son las siguientes: desviación1%y1.y6 % 11 . 9,33 % 1,67 desviación2%y2.y6 % 13 . 9,33 % 3,67 desviación3%y3.y6 % 19 . 9,33 % 9,67 desviación4%y4.y6 % 2 . 9,33 %.7,33 desviación5%y5.y6 % 10 . 9,33 % 0,67 desviación6%y6.y6 % 1 . 9,33 %.8,33 La suma de las desviaciones es Gn
i%1(yi.y6) % 1,67 ! 3,67 ! 9,67 . 7,33 ! 0,67 . 8,33 % 0. %
Robustez Se dice que un estadístico esrobusto o resistente si el valor de dicho estadístico es afectado relativamente poco por cambios en una parte pequeña de los datos, incluso si dichos cambios son importantes. La mediana es un esta- dístico robusto, pero la media no lo es, ya que se puede desplazar mucho por cambios incluso en una sola observación. El Ejemplo 2.3.5 ilustra este comportamiento.
Ejemplo 2.3.5 Ganancia de peso de corderos
Recuérdese que para los datos de ganancia de peso de corderos
1 2 10 11 13 19
obtuvimos
y6 % 9,3 y y˜ % 10,5
Supongamos ahora que la observación 19 se cambia, o incluso se omite. ¿Cómo quedarían afectadas la media y la mediana? Podemos visualizar el efecto si imaginamos que el punto más a la derecha de la Figura 2.3.3 se mueve o se elimina. Claramente, la media puede cambiar bastante, mientras que la mediana en general será menos afectada. Por ejemplo:
Si el 19 se cambia por 12, la media resulta ser 8,2 y la mediana no cambia. Si el 19 se elimina, la media pasa a valer 7,4 y la mediana pasa a valer 10.
Estos cambios no son exagerados, es decir, podrían haber surgido a partir del mismo experimento. Por supuesto, un cambio enorme, como cambiar el 19 por 100, desplazaría drásticamente la media. Nótese que, sin embargo, la me-
diana no cambiaría. %
Visualización de la media y la mediana
Podemos visualizar la media y la mediana en relación con el histograma de una distribución. La mediana divide el área bajo el histograma aproximadamente por la mitad, ya que divide a las observaciones aproximadamente por la mitad [«aproximadamente», porque varias observaciones pueden coincidir con la mediana, como en el Ejemplo 2.3.3(b), y porque las observaciones dentro de cada clase pueden no estar uniformemente distribuidas dentro de la clase]. La media se puede visualizar como el punto de equilibrio del histograma. Si el histograma estuviera hecho de contrachapado, esta- ría en equilibrio si se apoyara en la media.
Si la distribución de frecuencias es simétrica, la media y la mediana son iguales y están situadas en el centro de la distribución. Si la distribución de frecuencias está sesgada, ambas medidas se desplazan hacia la cola más larga, pero la media en general se desplaza más que la mediana. El efecto de sesgo se ilustra mediante el ejemplo siguiente.
Ejemplo 2.3.6 Tiempos de canto de grillos
Los grillos Mormon machos (Anabrus simplex) cantan para aparearse. Un investigador de campo midió la dura- ción de 51 cantos sin éxito, es decir, el tiempo transcurrido hasta que el macho que cantaba renunciaba y abandona- ba su posición20. La Figura 2.3.4 muestra el histograma de los 51 tiempos de canto. La Tabla 2.3.1 muestra todos los datos. La mediana es 3,7 min y la media es 4,3 min. La discrepancia entre estas medidas es debida en gran parte a la cola larga e irregular de la distribución. Los pocos tiempos de canto inusualmente largos influyen en la media, pero
no en la mediana. %
Tabla 2.3.1 51 tiempos de canto
de grillos (min) 4,3 3,9 17,4 2,3 0,8 1,5 0,7 3,7 24,1 9,4 5,6 3,7 5,2 3,9 4,2 3,5 6,6 6,2 2,0 0,8 2,0 3,7 4,7 7,3 1,6 3,8 0,5 0,7 4,5 2,2 4,0 6,5 1,2 4,5 1,7 1,8 1,4 2,6 0,2 0,7 11,5 5,0 1,2 14,1 4,0 2,7 1,6 3,5 2,8 0,7 8,6 0 0 5 10 Frecuencia 15 10
Tiempo de cantos (min) 20
y y
~
Media versus mediana
Tanto la media como la mediana son en general medidas razonables de la tendencia central de un conjunto de datos. La media está relacionada con la suma. Por ejemplo, si la media de la ganancia de peso de 100 corderos es de 9 lb, entonces la ganancia total de peso fue de 900 lb, y este total puede ser de interés si se traduce más o menos directamente en beneficio para el granjero. En algunas situaciones la media tiene muy poco sentido. Supongamos, por ejemplo, que las observaciones son tiempos de supervivencia de pacientes de cáncer con un cierto protocolo de tratamiento, y que la mayoría de los pacientes sobrevive menos de un año, mientras que unos pocos responden bien y sobreviven 5 o incluso 10 años. En este caso, el tiempo medio de supervivencia sería mayor que el tiempo de supervivencia de la mayoría de los pacientes. La mediana representaría de forma más precisa la experiencia de un paciente «típico». Nótese también que el tiempo medio de supervivencia no se puede calcular hasta que el último paciente ha fallecido. La mediana no tiene esta desventaja. Situaciones en las que la mediana se puede calcular fácilmente pero la media no, no son raras en bioensayos, y en estudios de supervivencia y de toxicidad.
Hemos visto que la mediana es más resistente que la media. Si un conjunto de datos contiene unas pocas observacio- nes que están lejos del cuerpo principal de los datos (es decir, una cola larga e «irregular»), entonces la media estará excesivamente influida por esas pocas observaciones inusuales. Entonces la «cola» puede «mover al perro», una situa- ción no deseable. En esos casos, la resistencia de la mediana puede ser ventajosa.
Una ventaja de la media es que en algunas circunstancias es más eficiente que la mediana. La eficiencia es una noción técnica de teoría estadística. De forma simple, un método es eficiente si aprovecha completamente toda la infor- mación de los datos. En parte debido a esta eficiencia, la media ha tenido un papel principal en los métodos clásicos de estadística.
Ejercicios 2.3.1-2.3.16
2.3.1 Invente una muestra de tamaño 5 tal que su media muestral sea 20 y tal que no todas las observaciones sean iguales.
2.3.2 Invente una muestra de tamaño 5 tal que su media muestral sea 20 y su mediana muestral sea 15.
2.3.3 Un investigador aplicó el componente carcinógeno (causante de cáncer) benzo(a)pireno en la piel de cinco rato- nes, y midió la concentración en el tejido del hígado después
de 48 horas. Los resultados (nmol/g) fueron como sigue21:
6,3 5,9 7,0 6,9 5,9
Determine la media y la mediana.
2.3.4 Considere los datos del Ejercicio 2.3.3. ¿Permiten la media y la mediana calculadas deducir que, en general, la con- centración en el tejido del hígado después de 48 horas es di- ferente de 6,3 nmol/g?
2.3.5 Seis hombres con colesterol alto en el suero partici- paron en un estudio para evaluar los efectos de la dieta en los niveles de colesterol. Al comenzar el estudio sus niveles
de colesterol en suero (mg/dl) eran los siguientes22:
366 327 274 292 274 230
Determine la media y la mediana.
2.3.6 Considere los datos del Ejercicio 2.3.5. Suponga que se añade a la muestra una observación adicional igual a 400. ¿Cuáles serían ahora la media y la mediana de las siete ob- servaciones?
2.3.7 Se midió la ganancia de peso de siete novillos duran- te un periodo de prueba de 140 días. Las ganancias prome-
dio diarias (lb/dia) de nueve novillos con la misma dieta fue-
ron las siguientes23:
3,89 3,51 3,97 3,31 3,21
3,36 3,67 3,24 3,27
Determine la media y la mediana.
2.3.8 Considere los datos del Ejercicio 2.3.7. ¿Permiten la media y la mediana calculadas deducir que, en general, los novillos ganaron 3,5 lb/día? ¿Son consistentes con una ga- nancia de 4 lb/día?
2.3.9 Considere los datos del Ejercicio 2.3.7. Suponga una observación adicional de valor 2,46 que se añade a la muestra. ¿Cuáles serían la media y la mediana de las 10 observaciones?
2.3.10 Como parte de un experimento clásico sobre muta- ciones, se tomaron 10 conjuntos de idéntico tamaño del mis- mo cultivo de la bacteria E. coli. En cada conjunto se deter- minó el número de bacterias resistentes a un cierto virus.
Los resultados fueron los siguientes24:
14 15 13 21 15
14 26 16 20 13
(a) Construya la distribución de frecuencias de estos datos y presente la forma del histograma.
(b) Determine la mediana de los datos y marque sus posi- ciones en el histograma.
2.3.11 La tabla que sigue muestra el tamaño de la camada (número de cochinillos supervivientes después de 21 días) en 36 cerdas (como en el Ejemplo 2.2.4). Determine la mediana de la camada. (Sugerencia: nótese que solo hay un 5, pero hay dos 7, tres 8, etc.).
Número de cochinillos Frecuencia (número de cerdas) 5 1 6 0 7 2 8 3 9 3 10 9 11 8 12 5 13 3 14 2 Total 36
2.3.12 Considere los datos del Ejercicio 2.3.11. Determine la media de las 36 observaciones. (Sugerencia: nótese que hay un 5 pero hay dos 7, tres 8, etc. Por tanto,
Gyi%5! 7!7!8!8!8!ñ%5!2(7)!3(8)!ñ).
2.3.13 Se presenta a continuación un histograma.
20 30 40 50 60 70 80 90
(a) Estime la mediana de la distribución. (b) Estime la media de la distribución.