1.1 Distribuciones especiales de variable aleatoria continua
1.1.1 Distribución normal.
La distribución normal es la más importante y más utilizada de las distribuciones continuas. Muchas de las distribuciones de frecuencia observadas de mediciones naturales y físicas suelen coincidir con este patrón; además, se puede utilizar para aproximar probabilidades binomiales cuando n es grande. También las distribuciones de medias muestrales y proporciones muestrales tienden a distribuirse normalmente, lo que tiene gran impacto en la inferencia estadística, como lo afirma el teorema central del límite abordado más adelante.
Las distribuciones normales fueron estudiadas por primera vez en el siglo XVIII. Los astrónomos y otros hombres de ciencia se maravillaron, al observar que al repetir mediciones sobre un mismo tipo o cantidad; por ejemplo, la distancia de la tierra a la luna, la masa o volumen de un cuerpo; variaban, y que al tener una gran cantidad de esas mediciones y presentarlas en lo que llamamos ahora una distribución de frecuencias, aparecía siempre una gráfica con un perfil similar al de una campana (ver gráfica 1). A la distribución se le asoció con errores de medición y por tal motivo se le llamó ‘la distribución normal de los errores’ o de manera más simple “distribución normal’. A la distribución normal también se le conoce como ‘distribución de Gauss’, debido al aporte de Karl F. Gauss (1777 - 1785) a la teoría matemática de la distribución normal presentada por vez primera en 1773.
0 1 2 3 4 5 6 7 8 9 10
Grafico 1
Este diagrama se refiere a una variable aleatoria continua que puede tomar cualquier valor del intervalo [0;10]. Existen muchas distribuciones continuas pero la más importante y la más utilizada en estadística es la llamada distribución normal o curva normal.
La importancia de esta curva se debe a que muchas distribuciones de variables continuas, o de datos observados, con mucha frecuencia tienen el mismo comportamiento.
Grafico 1
Además, la misma distribución binomial se aproxima a la distribución normal cuando el número de ensayos es suficientemente grande (n ≥30).
Una de las variables que se distribuyen normalmente es el Coeficiente Intelectual (CI) de las personas que pertenecen a una población determinada. Tomemos es siguiente ejemplo para el CI de cierto grupo poblacional:
- el 68.26% de ellas tienen un C.I entre 106 y 118
- el 95.44% de ellas tienen un C.I entre 100 y 124
- el 99.74% de ellas tienen un C.I entre 94 y 130
Características principales de la distribución normal
1. La curva normal tiene forma de campana. 2. En teoría, extiende de -
∞ + ∞
a
3. Una distribución normal es definida por su media µ y por su desviación típica σ. Cuando se encuentran distribuciones que tienen la misma media pero diferentes desviaciones típicas, las curvas tendrán igual centro y a menor desviación típica más alto será el ápice de la curva.
4. Es simétrica respecto a la media de la distribución. 5. El máximo de la curva corresponde a la media (µ)
6. El área total bajo la curva normal se considera que es del 100%. Otras consideraciones:
o El área bajo la curva entre dos puntos es la probabilidad de que una variable distribuida normalmente asuma un valor entre ellos.
o Dado que existe un número ilimitado de valores que puede tomar una variable aleatoria continua, la probabilidad de que una variable normal sea exactamente igual a cierto valor es prácticamente cero. Entonces, para distribuciones normales, las probabilidades serán referidas a un intervalo de valores.
probabilidades de que cualquier observación quede a una, dos o tres desviaciones típicas de la media son 68.27%, 95.4% y 99.73% respectivamente
La gráfica en forma de campana (Campana de Gauss), que se extiende indefinidamente en ambos sentidos. La curva se acerca cada vez más al eje horizontal sin llegar a tocarlo (asíntota horizontal).
El área bajo la curva que se halla a más de tres desviaciones típicas es prácticamente insignificante.
Distribución normal estándar
Sabemos que hay una cantidad considerable de variables aleatorias continuas que siguen el modelo normal, basta echar un vistazo a varios histogramas y se observará que la forma de su silueta se asemeja a una campana. En este sentido, la distribución normal es una gran familia de distribuciones. Hay una para cada combinación posible de la media y de la desviación estándar. Por tanto, resulta poco práctico desarrollar una distribución probabilística para cada combinación y satisfacer las necesidades de los posibles usuarios. Además, la fórmula para la distribución normal es demasiada compleja y fuera del contexto matemático a este nivel1. Afortunadamente, se tiene
una distribución probabilística que puede aplicarse a cualquier variable normal, la cual es llamada distribución normal estándar. Se trata de la distribución probabilística de la variable normal estándar Z, que se define así:
Z =
X
−
µ
σ
en donde X es la variable aleatoria normal que tiene media
µ
y desviación típicaσ
.Z es el número de desviaciones estándar a partir de la media1.1.2 La variable normal estándar Z indica a cuántas desviaciones típicas se encuentra un valor x de la variable normal, respecto de su media
µ
.Nótese que Z tiene signo menos en el caso de valores de X menores que la media y signo mas para valores mayores que la media.
1
La expresión de densidad de probabilidad de una variable normal es
La media de Z es 0 y su desviación estándar es 1. Como los datos estandarizados siempre tendrán media 0 y desviación estándar 1, sólo será necesario tabular una sola distribución y con el uso de la fórmula de transformación de Z, siempre se podrá convertir cualquier grupo de datos con distribución normal y determinar las probabilidades.
Con los siguientes ejemplos se ilustra la transformación de una variable normal ordinaria X a la variable normal estándar Z, con el propósito de obtener probabilidades.
Ejemplo1. El propietario de un taller estaba investigando el tiempo que necesitaban los operarios para ensamblar una pieza particular y determinó que los datos tenían una distribución normal con media de 70 segundos y desviación estándar de 8 segundos. ¿Cuál es la probabilidad de que una observación seleccionada al azar sea mayor a 78 segundos.?
Solución.
Sea X el tiempo empleado en ensamblar la pieza por cualquier operario. X tiene una media
µ
de 70 segundos y desviación típicaσ
de 8 segundos. Aplicando la ecuaciónZ =
X
−
µ
σ
se transforma X en Z , resultando
Z =
78
70
8
8
8
1
−
= =
Ahora la pregunta es ‘cuál es la probabilidad de que cualquier tiempo seleccionado al azar sea mayor de una desviación típica por encima de la media?’ .
Ya se indicó que el área bajo la curva normal a una desviación típica a partir de la media es 68.27% por lo que las dos colas más allá de dos desviaciones estándar incluyen solamente a 1 - 0.6827 = 0.3173, del área bajo la curva. Por la simetría, la mitad de 0.3173 es 0.15865 redondeado a 0.1587 es el área de la curva a la derecha de una desviación estándar medida a partir de la media, o la probabilidad de que cualquier tiempo seleccionado sea mayor de 78 segundos.
Para este caso particular P(X > 78) = P(Z > 1) = 0.1587. Realmente la puntuación Z ha hecho sencillo la determinación de probabilidades para cualquier variable aleatoria normal.
Es lógico sostener que Z puede tomar cualquier valor diferente de -1, -2, -3, 1, 2, 3 para los cuales se han dado las áreas comprendidas bajo la curva normal. Por ello es indispensable el uso de la tabla de la distribución normal estándar o hacer uso de la informática (calculadora, Excel, etc).
Área bajo la curva normal estándar. Uso de la tabla.
¿Cómo se emplea la tabla para obtener áreas bajo la curva normal?
La tabla a utilizar nos proporciona el área o probabilidad, comprendida entre 0 (la media) y un valor cualquiera de Z.
En el margen izquierdo, en la primera columna, encontramos la puntuación de ‘z’ con un digito unitario y una décima, y el margen superior encontramos el segundo decimal correspondiente a las centésimas. En el cuerpo central de la tabla aparecen las áreas respectivas.
Dado que la distribución normal es simétrica respecto a su media, el lado izquierdo de la curva es imagen del lado derecho, en consecuencia no es necesario brindar toda la distribución. Basta con el lado derecho de la misma. Por ejemplo, el área bajo la curva entre z = 0 y z = 1 es igual al área comprendida entre z = -1 y z =0.
Ejemplo 1. Hallar el área bajo de la curva a la derecha de z = 1.52
Se busca en la tabla z = 1.52 (fila 1.5 columna 0.02) y se encuentra el área que buscamos 0.0643.
Ejemplo 2: Obtener el área entre z = 0 y z = 1.52. Solución.
Localizamos en al columna de la izquierda el valor de 1.5, y el margen superior vamos al número ‘2’. Hacemos coincidir la lectura de la línea horizontal de 1.5 con la línea vertical del ‘2’ y nos da como resultado 0.4357.
Este dato nos da la medida del área bajo la curva entre z= 0 y z= 1.52, también lo podemos leer como probabilidad en el mismo intervalo, es decir,
Ejemplo 3: Hallar el área a la izquierda de z = 1.52 Para z = 1.52, el área es 0.0643
Como el área bajo la curva es 1.0, el área que buscamos será: 1.0 – 0.0643 = 0.9357
Ejemplo 4: Hallar el área comprendida entre z = 0 y z = 2
El área a la derecha de z = 2.00, es 0.0228 y el área a la derecha de z = 0 es 0.5, entonces entre z = 0 y z = 2 el área es 4772
Ejemplo 5: Encuentre P (-1≤ z ≤ 0)
Ejemplo 6: Hallar área comprendida a la derecha de z = - 0.65
Para z = 0.65 el área a su derecha es 0.2578. Por lo tanto, el área que buscamos será: 1-02578 = 0.7422
Ejemplo 7: Hallar el área que esta a la izquierda de z= -0.75
Para z = 0.75 el área a su derecha es 0.2266. Por la simetría, el área a la izquierda de z = -0.75 es 0.2266
Ejemplo 8: Hallar el área ente z = 0.63 y z = 1.58
Para z = 1.58 el área es 0.0582 y para z= 0.63 el área es 0.2643. Por lo tanto, el área que buscamos es 0.2643 -0.0582 = 0.2072.
Ejemplo 9: Hallar el área entre z= -0.27 y z= 0.82
Ejemplo 10: Calcular la P(-1.79 ≤ z ≤ -0.54)
Para z = 1.79 el área es 0.0367 y para z = 0.54 el área es 0.2946. Por lo tanto, el área que buscamos es: 0.2964 - 0.0367= 0.2579.
Probabilidades de Variables con Distribución Normal
Las probabilidades de cualquier variable aleatoria que tenga un comportamiento ‘normal’ se pueden calcular si la transformamos en variable normal estándar (estandarizar x). Para ello usaremos la fórmula ya enunciada anteriormente:
σ
µ
−
=
x
z
Se aconseja hacer un gráfico de la curva normal para ubicar el área que nos interesa. Ejemplo 1: Se cree que los CI de los niños/as de escuelas primarias se distribuyen normalmente con media de 90 y desviación típica de 14. Si se selecciona al azar un alumno/a, cuál es la probabilidad de que tenga un CI
a) Superior a 83? b) entre 76 y 111? Solución.
a) Sea X el CI de cualquier estudiante. La probabilidad de que cualquier alumno/a tenga un CI superior a 86, P(X > 83), se obtiene transformando la variable X a la variable normal estándar Z.
P(X > 83) = P(Z >
14 90 83−
) = P(Z > - 0.5)
= 1- 0.3085 = 0.6915.
b) La probabilidad de que cualquier alumno/a tenga un CI entre 76 y 111 es
P(76 < X < 111) = P (
76
90
196
111 90
196
−
< <
−
Z
)= P( -1 < Z < 1.5) = 1- (0.1587 + 0.0668) = 0.7745
Ejemplo 2: Las longitudes de los camarones que recibe un restaurante tienen una media de 11.55 cm y una desviación estándar de 0.58 cm. ¿Qué porcentaje de los camarones miden entre 10.8 y 12 cm?
Solución.
Nos interesa obtener P(10.8 <x< 12.0)
Hay que estandarizar los valores de referencia 10.8 y 12.0.
29
.
1
58
.
0
55
.
11
8
.
10
−
=
−
=
Z
, a lo cual corresponde un área de 0.098578
.
0
58
.
0
55
.
11
12
−
=
=
Z
, a lo cual corresponde un área de 0.2173P(10.8 <x< 12.0) = 1 – (0.0985 + 0.2177) = 0.6838
En porcentaje = 68.38%
Ejemplo 3: En una pastelería saben que la demanda diaria de ciertos pasteles de chocolates es una variable aleatoria con distribución normal con una media µ = 43.3 y una desviación estándar σ = 4.6. ¿Cuál es la probabilidad de que la demanda de esos pasteles sea mayor que 50 en un día determinado?
Solución
57
.
1
6
.
4
3
.
43
5
.
50
−
=
=
Z
, a lo cual corresponde un área derecha de 0.0582 Por lo tanto, la probabilidad es 0.0582Ejemplo 4. La cantidad de bebida gaseosa que una máquina llenadora vierte en vasos de “12 onzas” varia de un vaso a otro y se puede considerar como una variable aleatoria distribuida normalmente con media de 11.92 onzas y desviación típica de 0.08 onzas.
a) Qué porcentaje de los vasos llenados por la maquina contendrán menos de 12 onzas de bebida?
b) Si durante una semana la maquina sirvió 10 000 vasos con bebida, cuántos de ellos fueron llenados con no más de 12.1 onzas de gaseosa?
Solución.
Sea X la variable aleatoria que indica el contenido de bebida vertida por la maquina. X se distribuye normalmente con media de 11.92 onzas y desviación típica de 0.08 onzas.
a) Este porcentaje se determina por medio de P(X < 12) = P(Z <
12
11 92
0 08
−
.
.
)= P(Z < 1) = 1- 0.1587 = 0.8413 = 84.13%
b) Para conocer cuántos de los 10 000 vasos contenían más de 12.1 onzas de bebida; primero se obtiene el porcentaje de vasos llenados con más de 12.1 onzas y luego se obtiene la cantidad de vasos.
P(X > 12.1 ) = P(Z >
12 1 11 92
0 08
.
.
.
−
)
= P(Z > 2.25) = 0.0122
Como P(X > 12.1) = 0.0122 equivalente al 1.22%. En consecuencia, 122 de los 10 000 vasos son llenados con más de 12.2 onzas de bebida gaseosa.
estándar de 6 minutos. Cuál es el tiempo promedio diario que conducen los choferes de tal ruta, si sólo el 2.5% de las veces emplean menos de 6 horas diarias?
Solución:
Aquí se nos proporciona
σ
= 6 minutos (0.1 horas), x = 6.0 horas, 0.025 = el área a la izquierda de x = 6 horas y se pide el valor deµ
. Dado que se conoce un área lateral menor que 0.5, hay que buscar en la tabla el valor de z que le corresponde un área de 0.025, el cual es 1.96. Entonces tenemos que-1.96 =
6
0 1
−
µ
.
Despejando,