Distribuciones de probabilidad

(1)

Distribuciones de probabilidad

La variable x puede ser diversos tipos. En la medición del diámetro de un tornillo la x representa valores numéricos que pueden tener tantas cifras decimales como sea exacto el instrumento con que se realiza la medición. En cambio, si estamos contando el número de personas que asiste a un curso de capacitación, la x toma valores enteros, no puede existir 2.5 personas en un curso. Esto nos lleva a dos tipos de distribuciones: distribuciones discretas, cuando la variable mide números enteros, y distribuciones continuas, cuando la variable mide números decimales infinitos.



Distribuciones discretas

Distribución binomial. La más relevante es la distribución binomial, ésta se obtiene de eventos resultantes de un experimento binomial o proceso de Bernoulli, que tiene las siguientes características:

a) Cada ensayo tiene sólo dos resultados posibles: éxito o fracaso,

b) La probabilidad del resultado de cualquier ensayo permanece fija con el tiempo, y

c) Los ensayos son estadísticamente independientes.

Cada experimento binomial tiene una probabilidad característica de éxito denominada p, de manera que la probabilidad de fracaso es q = 1 – p. La probabilidad binomial busca predecir un número determinado de éxitos, que denotamos r, de un total de ensayos realizados, denotado n. Con esta simbología tenemos la función de probabilidad binomial:

r n r

q r p

n r r n

P

^

 

)!

(

!

) !

(

(2)

El uso de esta fórmula es un tanto tediosa y fácilmente puede ser mecanizada, por lo cual existen tablas de probabilidad acumulada para diferente número de ensayos. En este documento usamos las tablas de Levin:

Las medidas de tendencia central y dispersión para una distribución binomial se definen como:

a) Valor esperado o media:  = np, b) Desviación estándar:

Ejemplo. La empresa Patito S.A. elabora agujas para máquinas de coser, entre varios productos. Para realizar un control de los defectuosos que produce la línea, se retiran 9 agujas y se analizan para observar si están defectuosas o no. A lo largo de su historia, la Patito S.A. tiene 3% de defectuosos en su línea de producción de agujas.

a) ¿Cuál es la probabilidad de encontrar tres agujas defectuosas?

b) ¿Cuál es la probabilidad de encontrar más de 2 defectuosas?

El problema es de tipos binomial: las agujas están defectuosas o no están defectuosas. Si definimos la observación de un defectuoso como éxito, entonces tenemos: n = 9, p = .03. y por tanto q = .97.

Deseamos saber la P(r = 3), para lo cual usaremos la tabla de la distribución biniomial. Buscamos en la columna izquierda el valor de n = 9, y después el valor correspondiente a r = 3, ahora buscamos en el encabezado el valor de p

= .03 y encontramos .0019, esto es, P(r = 3) = .0019. Así, la probabilidad de encontrar tres agujas defectuosas en una muestra de 9 agujas es de 0.0019, cuando estadísticamente han existido 3% de desfectuosos.

Levin, R. y Rubin, D. 1996.

Estadística para Administradores.

Apéndice: Tablas. Prentice Hall.

Sexta Edición. México.

 npq



(3)

Para resolver el inciso b) deseamos la P(r >2), esto es, P(r = 3 ó r = 4 ó . . . ó r = 9) = P(r = 3) + P(r = 4) + . . . + P(r = 9). Usando el procedimiento descrito encontramos las siguientes probabilidades: P(r > 2) = .0019 + .0001 + .0000 + 0 + 0 + 0 + 0, por tanto P(r > 2) = .0020. La probabilidad de encontrar más de 2 agujas defectuosas en una muestra de 9 agujas es de 0.002.



Distribuciones continuas

Distribución normal. Los principales estudios de dicha distribución se deben al Matemático Karl Frederich Gauss, por lo cual, la curva obtenida de dicha distribución también se conoce como curva de Gauss. Una gran cantidad de fenómenos naturales, proceso físicos, inclusive características humanas y por tanto, muchas medidas de interés para los administradores, se ajustan a la distribución normal.

Las características de la distribución normal son:

a) Tiene un solo pico (forma de campana).

b) La media de una población distribuida normalmente cae en el centro de la curva normal.

c) Por su simetría, la mediana, la moda y media coinciden.

d) Los extremos de la curva se prolongan asintóticamente.

La función de probabilidad normal está definida por:











 



 



  





2

2 1

2 ) 1

( ^







x

e x

f

y para toda x real

Y la probabilidad puede interpretarse como el área bajo la curva normal:







^b

a

f x dx b

x a

P ( ) ( )

Sin embargo, los cálculos de probabilidad suelen realizarse con tablas y para ello se introduce un nuevo parámetro llamado estadístico de prueba z,

(4)







^o



o

z x

de manera que la probabilidad P(x > xo) p se convierte en la probabilidad P(z

> zo) que puede ser leída en tablas. Recordemos que la presentación de las tablas puede variar de un libro a otro, y por tal motivo usamos Levin.

Ejemplo. En la empresa Patito S.A. se lleva acabo un programa de autocapacitación para supervisores. Dicho programa tiene una duración diferente de acuerdo a cada supervisor, los asistentes han mostrado una media de 200 horas con una desviación de 40 horas. Con estos datos, determinar la probabilidad de que un supervisor elegido al azar complete el curso en: (a) más de 250 horas, (b) menos de 170 horas, y (c) más de 160 horas pero menos de 220 horas.

a) Deseamos saber P(x  250), para ello debemos calcular el estadístico zo

con los siguientes datos: xo = 250,  = 200 y  = 40:

 zo = 1.25

De manera que P(x > 250) = P(z > 1.25).

Buscamos en la columna de z el valor entero y el primer decimal, esto es 1.2;

el segundo decimal lo buscamos en el encabezado, 0.05 y al cruzar el renglón y columna correspondiente encontramos 0.3944. La tabla proporciona la

40 200 250

o

  z

(5)

probabilidad entre la media y el valor de z marcado, por tanto, la probabilidad que deseamos es:

P(x > 250) = 0.5  0.3944  P(x > 250) = 0.1056

Y nos indica que la probabilidad de que el supervisor tomado al azar tarde más de 250 horas es de 10.56%.

b) Ahora deseamos saber P(x  170), esto significa que 40

200 170



z  z =  0.75 P(z 0.75)

Dado que la curva es simétrica y las tablas sólo nos dan las áreas del lado derecho, buscamos

P(z  0.75) = 0.2734

Dada la simetría de la curva la región B también mide 0.2734. Finalmente, como la mitad izquierda mide 0.5 entonces:

P(x  170) = 0.5  0.2734  P(x  170) = 0.2266

Esto significa que la probabilidad de que un supervisor tarde menos de 170 horas es de 22.66%.

c) Deseamos saber P(160  x  220) esto es P(zo  z  z1) teniendo que B

(6)

40 200 160

o

 

z y 40

200 220

1

 

z  zo =  1 y z1 = 0.5

Dado que la tabla nos da las probabilidades entre z = 0 y el valor de zo o z1

tenemos que:

P(-1  z  0.5)  P(160  x  220) = 0.3413 + 0.1915

P(160  x  220) = 0.5328

Esto significa que la probabilidad de que un supervisor tarde entre 160 y 220 horas es de 05328.

Diseñó: Arturo Corona Pegueros. División Económico-Administrativa. Universidad Tecnológica de Querétaro Última actualización: Septiembre 2010