Perspectiva - Fundamentos de Estadistica Para Las Ciencias de La Vida Medilibros.com

86,6#100 % % 0,033 # 100 % % 3,3 %

El promedio del peso a la edad de dos años fue de 12,6 kg y la DT fue de 1,4 kg. Por tanto, el coeficiente de variación del peso a la edad de dos años es

y6#100 % %

1,4

12,6#100 % % 0,111 # 100 % % 11,1 %

Hay considerablemente más variabilidad en el peso que en la altura, cuando expresamos cada medida de variabilidad como un porcentaje de la media. La DT del peso es un porcentaje bastante grande del peso medio, pero la DT

de la altura es un porcentaje más bien pequeño de la altura media. %

Representación de medidas de dispersión

El rango y el intervalo intercuartílico son fáciles de interpretar. El rango es la dispersión de todas las observaciones y el intervalo intercuartílico es la dispersión de (aproximadamente) el 50 % central de las observaciones. En términos del histograma de un conjunto de datos, el rango se puede ver como (aproximadamente) la anchura del histograma. Los cuartiles son (aproximadamente) los valores que dividen el área en cuatro partes iguales y el intervalo intercuartílico es la distancia entre los cuartiles primero y tercero. El ejemplo siguiente ilustra estas ideas.

Ejemplo 2.6.8 Ganancia diaria de ganado

Se evaluó el rendimiento del ganado vacuno midiendo su ganancia de peso durante un periodo de prueba de 140 días con una dieta estándar. La Tabla 2.6.2 muestra las ganancias diarias promedio (kg/día) de 39 toros de la misma raza (Charolais). Las observaciones se presentan en orden creciente36. Los valores van desde 1,18 kg/día hasta 1,92 kg/día. La Figura 2.6.3 muestra un histograma de los datos, el rango, los cuartiles y el intervalo intercuar- tílico (IQR). El área sombreada representa (aproximadamente) el 50 % central de las observaciones. %

Tabla 2.6.2 Ganancia diaria promedio (kg/día) de 39 toros Charolais

1,18 1,24 1,29 1,37 1,41 1,51 1,58 1,72 1,20 1,26 1,33 1,37 1,41 1,53 1,59 1,76 1,23 1,27 1,34 1,38 1,44 1,55 1,64 1,83 1,23 1,29 1,36 1,40 1,48 1,57 1,64 1,92 1,23 1,29 1,36 1,41 1,50 1,58 1,65 0,8 1,0 1,2 1,4 Q₁ 1,6 1,8

Rango Ganancia (kg/día)

2,0 2,2

Q₃

IQR 50 %

Figura 2.6.3 Histograma suavizado de 39 medidas de ganancia diarias, indicando el rango,

los cuartiles y el intervalo intercuartílico (IQR). El área sombreada representa aproximadamente el 50 % de las observaciones

Representación de la desviación típica

Hemos visto que la DT es una medida combinada de las distancias de las observaciones a su media. Es natural pre- guntarse cuántas observaciones están dentro de un intervalo de u1 DT alrededor de la media, cuántas están dentro de un intervalo de u2 DT alrededor de la media, y así sucesivamente. El siguiente ejemplo explora esta cuestión.

Ejemplo 2.6.9 Ganancia diaria de ganado

Para los datos de ganancia diaria del Ejemplo 2.6.8, la media es y6 % 1,445 kg/día y la DT es s % 0,183 kg/día. En la Figura 2.6.4 se han marcado sobre un histograma de los datos los intervalos y6 u s, y6 u 2s e y6 u 3s. El interva- lo y6 u s es

1,445 u 0,183 o 1,262 hasta 1,628

Observando la Tabla 2.6.2 se puede verificar que este intervalo contiene 25 de las 39 observaciones. Por tanto, 25

39o el 64 % de las observaciones están dentro de un intervalo de u1 DT alrededor de la media. El área correspon- diente está sombreada en la Figura 2.6.4. El intervalo y6 u 2s es

1,445 u 0,366 o 1,079 hasta 1,811

Este intervalo contiene37₃₉o el 95 % de las observaciones. Se puede verificar que el intervalo y6 u 3s contiene todas

las observaciones. % 0,895 y − 3s 1,078 y − 2s 1,261 y − s 1,628 y + s 1,811 y + 2s 1,994 y + 3s 1,445 y Ganancia (kg/día) ≈ 64 % 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2

Figura 2.6.4 Histograma de los datos de ganancia diaria que muestra los intervalos de 1, 2 y 3 desviaciones

típicas alrededor de la media. El área sombreada representa aproximadamente el 64 % de las observaciones Los porcentajes del Ejemplo 2.6.9 resultan ser bastante típicos de distribuciones observadas en ciencias.

Porcentajes típicos: la regla empírica

Para distribuciones con «forma buena», es decir, distribuciones unimodales que no estén demasiado sesgadas y cuyas colas no sean demasiado largas y cortas, en general podemos esperar encontrar:

Aproximadamente 68 % de las observaciones dentro de una distancia de u1 DT de la media. Aproximadamente el 95 % de las observaciones dentro de una distancia de u2 DT de la media. b99 % de las observaciones dentro de una distancia de u3 DT de la media.

Los porcentajes típicos nos permiten construir una imagen mental aproximada de una distribución de frecuencias sabiendo solo la media y la DT. (El valor de 68 % parece haber aparecido de la nada. Su origen quedará claro en el Capítulo 4).

Estimación de la DT a partir de un histograma

La regla empírica nos proporciona una forma de construir una imagen mental aproximada de una distribución de frecuencias conociendo solo la media y la DT. Podemos visualizar un histograma centrado en la media y extendiéndose un poco más de 2 DT en cada dirección. Por supuesto, la distribución real podría no ser simétrica, pero nuestra imagen mental aproximada a menudo será bastante exacta.

Pensando sobre esto a la inversa, podemos ver un histograma y estimar la DT. Para ello, necesitamos estimar los extremos del intervalo que esté centrado en la media y que contenga aproximadamente el 95 % de los datos. La regla empírica implica que este intervalo es aproximadamente el mismo que ( y6 . 2s, y6 ! 2s), por lo que la longitud del inter- valo debería ser aproximadamente cuatro veces la DT:

( y6 . 2s, y6 ! 2s) tiene una longitud de 2s ! 2s % 4s Esto significa que

longitud del intervalo % 4s Por lo que

estimación de s %longitud del intervalo 4

Por supuesto, nuestra estimación visual del intervalo que abarca el 95 % de los datos alrededor de la mitad de la distribu- ción podría ser errónea. Es más, la regla empírica trabaja mejor con distribuciones que son simétricas. Por tanto, este método de estimar la DT producirá únicamente una estimación general. El método funciona mejor cuando la distribución es bastante simétrica, pero funciona razonablemente bien incluso si la distribución es algo sesgada.

Ejemplo 2.6.10 Pulsaciones después de hacer ejercicio

Un grupo de 28 adultos realizó un ejercicio moderado durante cinco minutos y después se midieron sus pulsaciones. La Figura 2.6.5 muestra la distribución de los datos37. Podemos ver que aproximadamente el 95 % de las observaciones están entre 75 y 125*. Por tanto, un intervalo de longitud 50 (50 % 125 . 75) comprende el 95 % de los datos situados en la mitad. Teniendo esto en cuenta, podemos estimar que la DT es50

4%12,5. La DT real es 13,4,

que no está muy lejos de nuestra estimación. %

10 8 6 4 2 0 70 Frecuencia 80 90 100

Pulso (latidos/min)

110 120 130

Figura 2.6.5 Pulsaciones después de un ejercicio moderado en un grupo de adultos

Los porcentajes típicos dados por la regla empírica pueden tener bastante error si la muestra es pequeña o si la forma de la distribución de frecuencias no es «buena». Por ejemplo, los datos de tiempos de canto de grillos (Tabla 2.3.1 y Figura 2.3.4) tienen s % 4,4 mm y el intervalo y6 u s contiene el 90 % de las observaciones. Esto es un valor mucho más alto que el «típico» del 68 %, ya que la DT ha aumentado por la cola larga e irregular de la distribución.

Comparación de medidas de dispersión

La dispersión de los datos en una muestra se puede describir mediante la desviación típica, el rango o el intervalo intercuartílico. El rango es fácil de entender, pero puede ser una medida descriptiva pobre debido a que depende solo de * Es difícil ver de forma exacta utilizando un histograma dónde está el 95 % de los datos situados en la mitad, pero se trata no solo de una estimación visual, sin el objetivo de producir un valor exacto. Nuestras estimaciones visuales de la DT podrían diferir entre sí, pero todas tendrían valores relativamente cercanos.

las colas extremas de la distribución. Por el contrario, el intervalo intercuartílico describe la dispersión del «cuerpo» central de la distribución. La desviación típica tiene en cuenta todas las observaciones y se puede interpretar aproximadamente en términos de la dispersión de las observaciones alrededor de su media. Sin embargo, la DT puede estar sobreva- lorada por observaciones en los extremos de las colas. El intervalo intercuartílico es una medida resistente, mientras que la DT no es resistente. Por supuesto, el rango es extremadamente no resistente.

La interpretación descriptiva de la DT es menos directa que la del rango o el intervalo intercuartílico. No obstante, la DT es la base de la mayoría de los métodos estadísticos clásicos estándar. La DT goza de este status por varias razones técnicas, entre las que se encuentra su eficiencia en ciertas situaciones.

Los desarrollos de los capítulos posteriores harán énfasis en métodos estadísticos clásicos en los que la media y la DT juegan un papel central. En consecuencia, en este libro nos basaremos primordialmente en la media y la DT más que en otras medidas descriptivas.

Ejercicios 2.6.1-2.6.16

2.6.1 Calcule la desviación típica de cada una de estas muestras ficticias:

(a) 16, 13, 18, 13. (b) 38, 30, 34, 38, 35. (c) 1, .1, 5, .1. (d) 4, 6, .1, 4, 2.

2.6.2 Calcule la desviación típica de cada una de estas muestras ficticias:

(a) 8, 6, 9, 48. (b) 4, 7, 5, 4. (c) 9, 2, 6, 7, 6.

2.6.3

(a) Invente una muestra de tamaño 5 en la que las desvia-

ciones ( y_i.y6) sean .3, .1, 0, 2, 2.

(b) Calcule la desviación típica de su muestra.

2.6.4 Cuatro parcelas de tierra, cada una de ellas de 346 pies cuadrados, fueron sembradas con la misma variedad de trigo («Beau»). Las cosechas de las parcelas (lb) fueron las

siguientes38_:

35,1 30,6 36,9 29,8

(a) Calcule la media y la desviación típica. (b) Calcule el coeficiente de variación.

2.6.5 Un fisiólogo de plantas hizo crecer semilleros de abe- dul en un invernadero y midió el contenido de ATP de sus raíces. (Véase el Ejemplo 1.1.3). Los resultados (nmol de ATP/mg de tejido) se presentan a continuación para los cua-

tro semilleros que se habían cuidado de la misma forma39_:

1,45 1,19 1,05 1,07

(a) Calcule la media y la desviación típica. (b) Calcule el coeficiente de variación.

2.6.6 10 pacientes con la presión sanguínea alta participa- ron en un estudio para evaluar la efectividad del medica- mento Timolol para reducir su presión sanguínea. La tabla

que sigue muestra las medidas de presión sanguínea sistólica tomadas antes y después de dos semanas de tratamiento con

Timolol40_{. Calcule la media y la desviación típica del cam-}

bio en la presión sanguínea (nótese que algunos valores son negativos).

Presión sanguínea

Paciente Antes Después Cambio

1 172 159 .13 2 186 157 .29 3 170 163 .7 4 205 207 2 5 174 164 .10 6 184 141 .43 7 178 182 4 8 156 171 15 9 190 177 .13 10 168 138 .30

2.6.7 La dopamina es un compuesto químico que participa en la transmisión de señales en el cerebro. Un farmacólogo midió la cantidad de dopamina en el cerebro de siete ratas.

Los niveles de dopamina (nmoles/g) fueron los siguientes41_:

6,8 5,3 6,0 5,9 6,8 7,4 6,2

(a) Calcule la media y la desviación típica.

(b) Determine la mediana y el intervalo intercuartílico. (c) Calcule el coeficiente de variación.

(d) Sustituya la observación 7,4 por 10,4 y repita los aparta- dos (a) y (b). ¿Qué medidas descriptivas muestran resis- tencia y cuáles no?

2.6.8 En un estudio sobre el lagarto Sceloporus occidenta- lis, unos biólogos midieron la distancia (m) recorrida en dos minutos por 15 animales. Los resultados (dispuestos en or-

den creciente) fueron los siguientes42_:

18,4 22,2 24,5 26,4 27,5 28,7 30,6 32,9

32,9 34,0 34,8 37,5 42,1 45,5 45,5

(a) Determine los cuartiles y el intervalo intercuartílico. (b) Determine el rango.

2.6.9 Haciendo referencia a los datos de distancia recorrida del Ejercicio 2.6.8, la media muestral es 32,23 m y la DT es 8,07 m. ¿Qué porcentaje de observaciones están dentro de (a) 1 DT alrededor de la media?

(b) 2 DT alrededor de la media?

2.6.10 Compare los resultados del Ejercicio 2.6.9 con las predicciones de la regla empírica.

2.6.11 Se presentan en orden creciente los niveles en suero (U/l) de creatina fosfoquinasa (CFK) de 36 hombres saluda- bles (son los datos del Ejemplo 2.2.6):

25 62 82 95 110 139 42 64 83 95 113 145 48 67 84 100 118 151 57 68 92 101 119 163 58 70 93 104 121 201 60 78 94 110 123 203

La media muestral del nivel de CFK es 98,3 U/l y la DT es 40,4 U/l. ¿Qué porcentaje de las observaciones están dentro de

(a) 1 DT alrededor de la media? (b) 2 DT alrededor de la media? (c) 3 DT alrededor de la media?

2.6.12 Compare los resultados del Ejercicio 2.6.11 con las predicciones de la regla empírica.

2.6.13 Las niñas del Berkeley Guidance Study (Ejemplo 2.6.7), que fueron medidas a la edad de dos años, fueron medidas de nuevo a la edad de nueve años. Por supuesto la altura y el peso medios eran mucho mayores a la edad de nueve años que a la edad de dos. Asimismo, las DT de la altura y del

2.7 Efectos de transformación de variables (opcional)

Algunas veces, cuando estamos trabajando con un conjunto de datos, podemos encontrar conveniente transformar una variable. Por ejemplo, podríamos convertir de pulgadas a centímetros o de grados Fahrenheit a grados centígrados. La transformación o reexpresión de una variable Y significa sustituir Y por una nueva variable, por ejemplo Y ñ. Para trabajar más cómodamente con los datos, es útil conocer cómo son afectadas las características de una distribución si se transforma la variable observada.

Las transformaciones más simples son las transformacioneslineales, que se denominan así porque la gráfica de Y con respecto a Y ñ es una línea recta. Una razón familiar para utilizar una transformación lineal es un cambio en la escala de medida, como se ilustra en los dos ejemplos siguientes.

peso eran mucho mayores a la edad de nueve años que a la edad de dos. ¿Pero qué ocurrió con el coeficiente de varia- ción de la altura y el coeficiente de variación del peso? Su- cedió que uno de ellos aumentó una cantidad moderada de la edad de dos a la edad de nueve, pero en la otra variable el incremento del coeficiente de variación fue bastante grande. ¿De qué variable, peso o altura, se podría esperar que el coeficiente de variación cambiará más entre la edad de dos y la edad de nueve? ¿Por qué? (Sugerencia: piense en cómo los factores genéticos influyen en la altura y el peso y en cómo los factores ambientales influyen en la altura y el peso).

2.6.14 Considere las 13 niñas mencionadas en el Ejem- plo 2.6.7. A la edad de 18 su altura media era de 166,3 cm y la DT de sus alturas era de 6,8 cm. Calcule el coeficiente de variación.

2.6.15 Se presenta a continuación un histograma. Estime la media y la DT de la distribución.

10 20 30 40 50 60 70 80

2.6.16 Se presenta a continuación un histograma. Estime la media y la DT de la distribución.

Ejemplo 2.7.1 Peso

Supongamos que Y representa el peso de un animal en kg, y decidimos expresar el peso en lb. Entonces

Y % peso en kg Y ñ % peso en lb

por tanto,

Y ñ % 2,2Y

Esto es una transformaciónmultiplicativa, ya que Y ñ se calcula a partir de Y multiplicándola por el valor constante

en 2,2. %

Ejemplo 2.7.2 Temperatura corporal

Se realizaron medidas de la temperatura del cuerpo (temperatura caminando) en 47 mujeres43. Algunas observaciones típicas Y , enoC, fueron

Y : 36,23, 36,41, 36,77, 36,15, ...

Supongamos que convertimos esos datos deoC aoF, y denominamos Y ñ a la nueva variable:

Y ñ: 97,21, 97,54, 98,19, 97,07, ... La relación entre Y e Y ñ es

Y ñ % 1,8Y ! 32

La combinación de cambiosaditiva (!32) y multiplicativa (#1,8) indica una relación lineal. % Otra razón para utilizar transformaciones lineales es lacodificación, que significa transformar los datos por comodi- dad al manejar los números. Se presenta a continuación un ejemplo.

Ejemplo 2.7.3 Temperatura corporal

Consideremos los datos de temperatura del Ejemplo 2.7.2. Si restamos 36 a cada observación, los datos se con- vierten en

0,23, 0,41, 0,77, 0,15, ...

Esto es una codificación aditiva, ya que hemos añadido un valor constante (.36) a cada observación. Supongamos que ahora transformamos los datos en la forma

23, 41, 77, 15, ...

Este paso de la codificación es multiplicativo, ya que cada observación se multiplica por un valor constante (100). % Como ilustran los ejemplos anteriores, una transformación lineal consiste en (1) multiplicar todas las observaciones por una constante o (2) sumar una constante a todas las observaciones o (3) ambas cosas.

Como afectan las transformaciones lineales a la distribución de frecuencias

Una transformación lineal de los datos no cambia la forma esencial de su distribución de frecuencias. Modificando adecuadamente la escala del eje horizontal, puede hacerse que el histograma transformado sea idéntico al histograma original. El Ejemplo 2.7.4 ilustra esta idea.

Ejemplo 2.7.4 Temperatura corporal

La Figura 2.7.1 muestra la distribución de 47 medidas de temperatura que se han transformado restando primero 36 a cada observación y multiplicando después las observaciones por 100 (como en los Ejemplos 2.7.2 y 2.7.3). Es decir, Y ñ % (Y . 36) # 100. La figura muestra que las dos distribuciones se pueden representar mediante el mismo

histograma con diferentes escalas horizontales. %

0 36,0 36,2 36,4 36,6 36,8 37,0 Y Y 0 20 40 60 80 100 5 Frecuencia 10 15

Figura 2.7.1 Distribución de 47 medidas de temperatura donde se muestran

la escala original y la escala transformada linealmente

Cómo afectan las transformaciones lineales a y6 y a s

El efecto de una transformación lineal sobre y6 es «natural». Es decir,bajo una transformación lineal, y6 cambia como Y. Por ejemplo, si las temperaturas se transforman deoC aoF, entonces la media se transforma de forma similar:

Y ñ % 1,8Y ! 32; por tanto y6ñ % 1,8y6ñ ! 32

El efecto sobre s de multiplicar Y por una constante positiva es «natural». Si Y ñ % c # Y, con c b 0, entonces

sñ % c # s. Por ejemplo, si se transforman pesos de kg a lb, la DT se convierte de forma similar: sñ % 2,2s. Si Y ñ % c # Y,

con c a 0, entonces sñ %.c # s. En general, Y ñ % c # Y, entonces sñ %8c8 # s.

Sin embargo, una transformación aditiva no afecta a s. Si sumamos o restamos una constante, no cambiamos la dis- persión de la distribución, y por lo tanto s no cambia. Así, por ejemplo, no transformaríamos la DT de los datos de temperatura deo_{C en}o_{F de la misma forma en la que se transforma cada observación. La DT se multiplicaría por 1,8,} pero no se sumaría 32. El hecho de que la DT no cambie con transformaciones aditivas parecerá menos sorprendente si se recuerda (de la definición) que s depende solo de las desviaciones (yi.y6), y esas desviaciones no cambian con transfor-

maciones aditivas. El siguiente ejemplo ilustra esta idea.

Ejemplo 2.7.5 Transformación aditiva

Considere un conjunto simple de datos ficticios, codificados restando 20 a cada observación. Las observaciones originales y transformadas se muestran en la Tabla 2.7.1.

Tabla 2.7.1 Efecto de una transformación aditiva

Observaciones originales (y) Desviaciones (yi.y6) Observaciones transformadas (yñ) Desviaciones (yñi.y6 ) 25 .1 5 .1 26 0 6 0 28 2 8 2 25 .1 5 .1 Media 26 6

La DT de las observaciones originales es

s %

J

(.1)

!(0)2!(2)2!(.1)2

3 %1,4

Como las desviaciones no son afectadas por la transformación, la DT de las observaciones transformadas es la misma:

sñ % 1,4 %

Una transformación aditiva desplaza el histograma de una distribución y lo mueve a la izquierda o a la derecha en la recta numérica. La forma del histograma no cambia y las desviaciones tampoco cambian, por lo que la DT no se modifi- ca. Una transformación multiplicativa, por otra parte, ensancha o estrecha la distribución, por lo que la DT aumenta o disminuye en consecuencia.

Otros estadísticos Bajo transformaciones lineales, otras medidas de tendencia central (por ejemplo, la mediana) cam- bian como y6, y otras medidas de dispersión (por ejemplo, el intervalo intercuartílico), cambian como s. Los cuartiles cambian como y6.

Transformaciones no lineales

Algunas veces los datos se reexpresan de una forma no lineal. Algunos ejemplos de transformaciones no lineales son

Y ñ % ∂Y Y ñ % log(Y ) Y ñ %1

Y Y ñ % Y2

Esas transformaciones se denominan «no lineales» porque una gráfica de Y ñ con respecto a Y sería una curva en vez de una recta. Los computadores facilitan el uso de transformaciones no lineales. La transformación logarítmica es especial- mente común en biología debido a que muchas relaciones importantes se pueden expresar de forma sencilla en función de logaritmos. Por ejemplo, hay una fase en el crecimiento de una colonia bacteriana en la que el logaritmo del tamaño de la colonia crece a una velocidad constante con el tiempo. [Nótese que los logaritmos se utilizan en algunas escalas familia- res de medida, como la medida del pH o de la magnitud de terremotos (escala de Richter)].

Las transformaciones no lineales pueden afectar a los datos de forma compleja. Por ejemplo, la media puede no cam- biar «naturalmente» bajo una transformación logarítmica. El logaritmo de la media no es lo mismo que la media de los logaritmos. Además, las transformaciones no lineales (a diferencia de las lineales) sí cambian la forma esencial de una distribución de frecuencias.

En capítulos posteriores veremos que si la distribución está sesgada hacia la derecha, como en el caso de la distribu- ción del tiempo de canto de grillos que se muestra en la Figura 2.7.2, entonces puede ser conveniente aplicar una transfor- mación que haga la distribución más simétrica, haciendo disminuir la cola derecha. Utilizando la transformación

Y ñ % ∂Y disminuye la cola derecha la distribución y aumenta su cola izquierda. La transformación Y ñ % log (Y ) produce

el mismo efecto pero de forma más severa que ∂Y. El ejemplo siguiente muestra el efecto de estas transformaciones.

Ejemplo 2.7.6 Tiempos de canto de grillos

La Figura 2.7.2(a) muestra la distribución de los datos de tiempos de canto de grillos de la Tabla 2.3.1. Si se transforman estos datos tomando raíces cuadradas, los datos transformados tienen la distribución que se muestra en la Figura 2.7.2(b). Tomando logaritmos (en base 10) resulta la distribución que se muestra en la Figura 2.7.2(c). Nótese que las transformaciones tienen el efecto de hacer disminuir la cola superior irregular «encogiendo» los valo-

In document Fundamentos de Estadistica Para Las Ciencias de La Vida Medilibros.com (página 75-98)