Modelos de distribuciones discretas
En este cap´ıtulo estudiaremos las distribuciones discretas m´as importantes. De nuevo, esa importancia es doble, por las aplicaciones y por su relevancia conceptual.
4.1
Distribuci´
on uniforme discreta
Ejercicio 4.1.1 Consideremos el conjunto E ={1,2, . . . , n}.
(a) Definid una variable discreta X que asigne a cada punto de E igual probabilidad. (b) Hallad su funci´on de masa y su funci´on de distribuci´on.
(c) Hallad E(X), 2, CV y la mediana.
Problema 4.1.2 Supongamos ahora que E ={x1, x2, . . . , xn}, un conjunto arbitrario, donde
xi 2R. Generalizad los resultados del problema anterior.
4.2
Procesos de Bernouilli
Definici´on 4.2.1 Procesos de Bernouilli Sea un experimento aleatorio que cumple las siguientes propiedades:
(a) El experimento solo puede dar dos resultados posibles, que llamaremos A y B. (b) La probabilidad pde obtener A no cambia con el tiempo.
Un proceso de Bernouilli es una variable aleatoria X definida sobre este experimento tal que X toma el valor 1 si sale A y 0 si saleB.
Si una variable aleatoria X modeliza un proceso de Bernouilli se escribe X ⇠B(1, p). Con frecuencia, los resultados del experimento se interpretan en un sentido muy general como ´exito y fracaso. Por ejemplo, en el contexto de control de calidad, A es una pieza que pasa los controles yB es una pieza defectuosa.
54 Modelos de distribuciones discretas
Ejercicio 4.2.2 Sea X ⇠B(1, p).
(a) Hallad la funci´on masa y la funci´on de distribuci´on de X. (b) Hallad E(X), 2 y CV .
Definici´on 4.2.3 Distribuci´on binomialConsideremos un conjuntos de variables aleatorias Xi ⇠ B(1, p), con i = 1, . . . , n. Si las variables Xi son independientes entre s´ı, la variable X =X1+. . .+Xn se llama distribuci´on binomial y se escribe X ⇠B(n, p).
En general, si tenemos dos variables aleatorias X ⇠ B(n1, p) e Y ⇠ B(n2, p), la variable
X+Y sigue una distribuci´on B(n1 +n2, p). El resultado es falso si la probabilidad p no es
com´un en ambas distribuciones binomiales.
Problema 4.2.4 Sea X ⇠B(n, p).
(a) Si interpretamos A como el suceso tener ´exito, ¿qu´e mide la variableX? (b) Hallad su funci´on de masa y probad que suma 1.
(c) Hallad E(X), 2 y CV .
(d) Sabiendo que el coeficiente de asimetr´ıa de Fisher es CAF =
1 2p p
np(1 p)
describid la asimetr´ıa de la distribuci´on binomial. Dibujad aproximadamente la funci´on de masa en cada caso.
Las probabilidades de la binomial son tediosas de calcular a mano. En la pr´actica se calculan por v´ıa del ordenador, con alg´un paquete estad´ıstico (Statgraphics, Matlab, SPSS), o bien mediante tablas. Las tablas se pueden encontrar en el Moodle (fichero Formularios y tablas). En la figura 4.1 se encuentra elementos de la tabla de la distribuci´on binomial. Por ejemplo, si en una binomial X ⇠B(4,0,15) queremos hallar la probabilidad de que X tome el valor 2, consultando la tabla encontramos que tal valor es 0,988.
Ejercicio 4.2.5 Un dado se tira 4 veces. ¿Cu´al es la probabilidad de obtener exactamente un 6? Resolved el problema usando una variable binomial.
Problema 4.2.6 Un examen, que consta de 10 preguntas, se aprueba si se contestan correctamente 6 o m´as. Cada pregunta tiene 3 apartados y la respuesta se considera correcta si se contestan bien 2 o m´as apartados. Sabiendo que la probabilidad de que un alumno estudioso conteste bien cada apartado es 007, independientemente de lo que conteste en el resto de los
apartados, calculad:
(a) La probabilidad de que dicho alumno apruebe el examen y la nota esperada.
(b) Sabiendo que este alumno ha aprobado el examen, calculad la probabilidad de que haya contestado correctamente 7 preguntas.
Figura 4.1: Tabla de la distribuci´on binomial
Problema 4.2.7 En un huerto con 100 calabazas, la probabilidad de recolectar una sin pipas es 0005.
(a) Calcular las probabilidades de los siguientes sucesos:
(i) Obtener m´as de 6 calabazas con pipas al recolectar las 10 primeras. (ii) Encontrar la primera calabaza sin pipas al recolectar la d´ecima. (iii) Recolectar en todo el huerto 10 calabazas sin pipas.
(iv) Recolectar en todo el huerto m´as de 7 calabazas sin pipas. (b) Hallar el n´umero esperado de calabazas sin pipas en el huerto.
4.3
Distribuci´
on geom´
etrica
Consideremos de nuevo un proceso de Bernouilli que se repite de modo independiente. Queremos medir el n´umero de veces que hay que repetir el experimentoantesde salir el primer ´exito o suceso A. La correspondiente variable aleatoria se llama geom´etrica y se escribe X ⇠G(p), donde p es la probabilidad de que salga A.
Problema 4.3.1 Sea X ⇠G(p).
(a) Hallad la funci´on de masa de X y probad que suma 1. (b) Hallad E(X).
(c) Sabiendo que el coeficiente de asimetr´ıa de Fisher es CAF =
2 p
p
1 p
describid la asimetr´ıa de la distribuci´on binomial. Dibujad aproximadamente la funci´on de masa.
56 Modelos de distribuciones discretas La varianza de la distribuci´on geom´etrica es
V(X) = 1 p p2
Otra variable asociada a los procesos de Bernouilli es el n´umero de veces que se repite el experimentohastaque sale el primer ´exito. Esta variable es similar a la anterior y sus momentos se calculan de modo an´alogo.
Ejercicio 4.3.2 Un dado se tira hasta que aparece un 4. ¿Cu´al es la probabilidad de tirar el dado 10 veces antes de sacar 4? ¿Cu´al es la probabilidad de sacar 4 en la d´ecima tirada? Resolved el problema usando una variable geom´etrica.
Teorema 4.3.3 Sea X una variable aleatoria G(p). La probabilidad de repetir el experimento k veces m´as antes de sacar el primer ´exito no depende del n´umero previo de veces que hayamos realizado el experimento.
Problema 4.3.4 Supongamos que en un juego de azar (que no sea hacer un examen de estad´ıstica), la probabilidad de ganar es p, con 0 < p < 1. ¿C´omo se interpreta el teorema anterior en el contexto de los juegos de azar?
Problema 4.3.5 En una red ATM los mensajes se env´ıan en r´afagas de celdas de 53 octetos. Un mensaje tendr´a tantas celdas como quiera y sabremos que hemos llegado al final del mensaje porque en los bits de control de la ´ultima celda as´ı se indica. Se sabe que la variable aleatoria X que cuenta el n´umero de celdas enviadas en la transmisi´on de un mensaje antes de la celda que marca el final del mensaje es geom´etrica de par´ametrop.
(a) Si sabemos que el n´umero medio de celdas por mensaje sin incluir la ´ultima celda es 7, calculad la probabilidad de que el n´umero de celdas enviadas en la transmisi´on de un mensaje, excluyendo la ´ultima, sea menor que 3.
(b) Calculad la probabilidad de que el n´umero de celdas enviadas en la transmisi´on de un mensaje, sin incluir la ´ultima celda, sea mayor que 7 si sabemos que es mayor que 4. (c) Se transmiten 10 mensajes de forma independiente. Obtened la probabilidad de que en
4 mensajes o m´as el n´umero total de celdas enviadas por mensaje, sin incluir la ´ultima celda, sea menor que 3.
4.4
Distribuci´
on de Poisson
La distribuci´on se cuenta entre la m´as importantes entre las discretas, principalmente por su ubicuidad. Es capaz de modelizar eficazmente un gran abanico de situaciones muy dispares entre s´ı. Sim´eon Poisson (1781–1840) la introdujo por primera vez como parte de su teor´ıa de la probabilidad en 1837. Apareci´o en una obra suya en que investigaba la probabilidad de ciertos hechos en juicios penales y civiles. Poisson se preguntaba sobre el n´umero de condenas injustas en un pa´ıs, variable que sigue ciertamente la distribuci´on que lleva su nombre.
¿Por qu´e es tan ubicua la distribuci´on de Poisson? Definamos primero qu´e es un
Definici´on 4.4.1 Experimento de Poisson. Consideremos un experimento con las siguientes propiedades:
(1) Los resultados del experimento se pueden clasificar en ´exito o fracaso, esto es, solo hay dos resultados posibles.
(2) Se observa el n´umero de ´exitos por unidad de cierta magnitud (tiempo, longitud, ´area, volumen, etc.).
(3) El n´umero medio de ´exitos en una regi´on dada es conocido; en otras palabras, se conoce la media de ´exitos por unidad de magnitud. Adem´as, este valor medio es constante en el tiempo.
(4) La probabilidad de ´exito es proporcional al tama˜no de la regi´on (aqu´ı regi´on se refiere a la magnitud en cuesti´on).
(5) La probabilidad de ´exito en intervalos extremadamente peque˜nos es cero. Esto asegura que la probabilidad de que dos sucesos ocurran a la vez es cero.
(6) Los sucesos ocurren de manera independiente.
Una objeci´on que se puede hacer a la definici´on anterior es que, en la pr´actica, esas condiciones son dif´ıciles de comprobar exhaustivamente. Ello es cierto en muchas ocasiones. De lo que se trata entonces es de suponer que son razonablemente ciertas las hip´otesis anteriores y ver c´omo el modelo explica los resultados de ulteriores experimentos.
Para que el lector tome consciencia de la importancia de la distribuci´on de Poisson, he aqu´ı una lista de modo alguno exhaustiva de situaciones en que aparece esta distribuci´on:
(a) El n´umero de coces dadas por los caballos del ej´ercito prusiano. Esta fue la primera aplicaci´on de la distribuci´on de Poisson de la que se tiene constancia hist´orica.
(b) El n´umero de part´ıculas alfa emitidas por una sustancia radioactiva por unidad de tiempo. (c) El n´umero de bombas lanzadas por bombarderos a´ereos en el sur de Londres durante la
Segunda Guerra Mundial.
(d) El n´umero de accidentes en cierto punto de una carretera por d´ıa. (e) El n´umero de erratas por p´agina.
(f) El n´umero de pasas por cent´ımetro c´ubico en unplumcake.
(g) El n´umero de cambios cromos´omicos en una c´elula como consecuencia de la exposici´on a los rayos X.
(h) El n´umero de alumnos con verdadera pasi´on por la inform´atica por grupo.
(i) El n´umero de pelos encontrados en las hamburguesas de McDonalds (o de cualquier otra cadena de comida basura).
(j) El n´umero de fallos en una m´aquina por mes.
58 Modelos de distribuciones discretas Si solo queremos centrarnos en ejemplos con sabor netamente inform´atica, aqu´ı va otra lista similar, m´as corta pero suficientemente representativa; el lector puede construir su propia lista:
(a) El n´umero de peticiones a un servidor por unidad de tiempo.
(b) El n´umero de errores de codificaci´on que comete un equipo de programadores por semana. (c) El n´umero de fallos de un disco duro por mes.
(d) El n´umero de mensajes que llegan a la unidad de proceso de un ordenador por segundo. (e) El n´umero de cuelgues de un sistema operativo por semana.
(f) El n´umero de mensajes de correo basura que llegan por semana. (g) El n´umero de programas compilados por un ordenador por d´ıa.
La funci´on de masa de la distribuci´on de Poisson est´a dada por la expresi´on de m´as abajo
P(X =k) =e k
k!
donde el rango de valores es k 2 N (el n´umero de sucesos por unidad de magnitud puede ser cualquier n´umero natural). La figura 4.2 muestra la funci´on de masa para distintos valores de
.
Figura 4.2: La funci´on de masa de la distribuci´on de Poisson
Problema 4.4.2 Comprobad que la funci´on de masa dada anteriormente lo es efectivamente. Usad la siguiente f´ormula, consecuencia del desarrollo de Taylor (¡ah, qu´e tiempo aquellos de AM!) y que es v´alida para todox2R:
ex = 1 X n=0 xn n!
El c´alculo efectivo de una probabilidad en una distribuci´on de Poisson se hace tambi´en a trav´es de la consulta de tablas o del ordenador.
Suponemos que el lector estar´a un tanto desorientado ante esa funci´on de masa. ¿De d´onde sale una expresi´on tan complicada? Obviamente, Poisson no se la invent´o de la nada ni tuvo un acceso de inspiraci´on y dijo “¡ah!, todos estos fen´omenos siguen esta distribuci´on con esta funci´on de masa tan intricada”. Poisson obtuvo esta distribuci´on a partir de la binomialB(n, p) imponiendo las condiciones de m´as arriba en el experimento y haciendo tender n a infinito y p a cero con ciertas restricciones. El siguiente teorema que, excepcionalmente damos con demostraci´on, muestra el trabajo original de Poisson y da, adem´as, una explicaci´on l´ogica y org´anica de d´onde sale la funci´on de masa.
Teorema 4.4.3 Sean X ⇠ B(n, p) una variable aleatoria binomial. Supongamos que se dan las siguientes condiciones:
(a) El par´ametro n tiende a infinito; (b) np permanece constante e igual a .
Entonces la funci´on de masa de la binomial tiende a la de una Poisson.
Prueba: : Teniendo en cuenta que en todo momentonp= , tenemos la siguiente demostraci´on (cons´ultese las explicaciones de los pasos de los c´alculos m´as abajo):
l´ım n!1P(X =k) = l´ımn!1 ✓ n k ◆ ·pk(1 p)n k (1)= l´ım n!1 n! k!(n k)! ·p k(1 p)n k (2) = l´ım n!1 n! k!(n k)! · ✓ n ◆k✓ 1 n ◆n k (3) = k k! nl´ım!1 n·(n 1)·. . .·(n (k 1)) nk · ✓ 1 n ◆n k (4) = k k! ✓ l´ım n!1 n·(n 1)·. . .·(n (k 1)) nk ◆ · l´ım n!1 ✓ 1 n ◆n k! (5) = k k! ✓ l´ım n!1 n·(n 1)·. . .·(n (k 1)) nk ◆ · l´ım n!1 ✓ 1 n ◆n · ✓ 1 n ◆ k! (6) = k k! ·1·e ·1 = k k!e
donde: en (1) se ha aplicado la definici´on de n´umero combinatorio; en (2) se ha sustituido p por /n; en (3) se ha sacado fuera del l´ımite el t´ermino
k
k! y reordenado el resto de t´erminos; en (4) se han separado en dos l´ımites el producto de (3); en (5) se ha separado el segundo l´ımite en dos productos para facilitar su c´alculo; en (6) se han calculado los l´ımites entre par´entesis. El primer l´ımite de (6) da 1 puesto que en el numerador y el denominador hayk factores en n. El siguiente l´ımite dae por la definici´on de n´umero e y el ´ultimo l´ımite tiende claramente a 1.
60 Modelos de distribuciones discretas
Problema 4.4.4 ¿C´omo se llega del teorema anterior a la definici´on de experimento de Poisson? Dad una explicaci´on conceptual de esa relaci´on.
Problema 4.4.5 Si X ⇠P( ), calculad E(X), V(X) y el coeficiente de variaci´on.
Ejercicio 4.4.6 El coeficiente de asimetr´ıa de la variable Poisson es p1 . Interpretad dicho coeficiente.
Teorema 4.4.7 Sean X1 ⇠ P( 1) y X2 ⇠ P( 2) dos variables aleatorias independientes con
distribuci´on de Poisson. Entonces la variable X = X1 +X2 sigue una distribuci´on X ⇠
P( 1 + 2).
Ejercicio 4.4.8 El n´umero de peticiones que llegan a un servidor sigue una distribuci´on de Poisson. Si la media de ese n´umero es de 10 mensajes por segundo, ¿cu´al es la probabilidad de que no haya ninguna petici´on en un segundo? ¿Y de que haya 15 o menos en un segundo?
Problema 4.4.9 Sabiendo que un ordenador compila, en promedio, 5 programas cada 10 minutos, calculad la probabilidad de que compile: (a) M´as de 2 programas y menos de 6 en 10 minutos. (b) 25 programas en una hora.
Problema 4.4.10 Una f´abrica suelta un vertido contaminante 2 veces al mes en promedio. La f´abrica se revisa cuando hay m´as de 8 vertidos contaminantes en un trimestre. La f´abrica se para si un trimestre hay m´as de 1 mes con al menos 4 vertidos. Calculad:
(a) La probabilidad de que un trimestre haya que revisar la f´abrica. (b) El n´umero esperado de vertidos contaminantes en un trimestre.
(c) La probabilidad de que la f´abrica funcione 5 trimestres antes de ser revisada.
(d) El n´umero medio de trimestres que tienen que transcurrir antes de que la f´abrica tenga que ser revisada.
(e) La probabilidad de que un mes haya al menos 4 vertidos contaminantes. (f) La probabilidad de que un trimestre haya que parar la f´abrica.