• No se han encontrado resultados

La distribución de Poisson

N/A
N/A
Protected

Academic year: 2021

Share "La distribución de Poisson"

Copied!
11
0
0

Texto completo

(1)

La distribución de Poisson

Matías Carrasco 10 de abril de 2018

1.

Introducción

La distribución de Poisson es sin duda la distribución discreta más importante. Como veremos en seguida, una gran variedad de observaciones se ajustan a ella. Juega un papel similar, para las variables discretas, al papel que juega la campana de Gauss para las medi-ciones continuas.

La definición es muy sencilla. Decimos que una varia-ble discreta X tiene distribución de Poisson de pará-metro1 µsi toma valores enteros mayores o iguales a cero con probabilidad

P(X = k)= µ k k!e

−µ

para k =0,1,2, . . . Esto lo escribimosX ∼Pois(µ).

Es fácil ver que la distribución está bien definida, pues la suma de estas probabilidades es igual a 1. Basta recordar la serie de Taylor de la función exponencial:

eµ = ∞ X k=0 µk k!,

de donde se deduce inmediatamente que ∞ X k=0 P(X = k)= e−µ ∞ X k=0 µk k! =e −µ eµ =1. Como veremos más adelante, el parámetroµindica el número promedio de observaciones, o de forma equi-valenteE(X)= µ.

Sin embargo, antes de empezar a estudiar esta distri-bución, veamos varios ejemplos de observaciones que se ajustan a ella.

2.

Poisson en la cerveza

En la producción de cerveza es importante conocer con precisión la cantidad de levadura utilizada para la 1También es muy común escribir el parámetro de una Poisson

porλen lugar deµ.

fermentación. Demasiada levadura produce una cer-veza amarga, y poca hace que la cercer-veza no fermente bien.

En 1904, la Guiness contrató al matemático Student2 (William Gosset) para mejorar la calidad de la cerve-za. Student ideó un modelo probabilístico para con-trolar la cantidad de levadura usada en la fermenta-ción.

El modelo de Student era el siguiente: supongamos que un líquido (un cultivo diluido de células de levadu-ra) es vertido y extendido sobre una placa, formando una capa delgada de 0,01 mm de espesor. Queremos estimar la cantidad promedio µde células de levadu-ra por unidad de área en la placa. La unidad de área es 1/400 mm2 y la placa tiene en total N unidades de área. Debemos imaginarnos la placa dividida enN cuadrados de área 1/400mm2.

Asumiendo que el líquido ha sido bien mezclado, una célula dada tendrá la misma probabilidad de caer en cualquier unidad de área. En total hay µN células. Student observó en el microscopio un área cuadrada de 1mm2de la placa, que estaba dividida en 400 cel-das cuadracel-das (esto se hace con un aparato llamado hemocitómetro), y contó el número de células en cada una de ellas. El resultado está en la Tabla 1.

Los valores de la tabla representan el número de célu-las en cada una de célu-las 400 celdas. Para comparar estos con la distribución de Poisson es mejor representar los valores de la tabla graficamente.

Lo que hacemos es observar cuántas celdas tienen, por ejemplo, 4 células. Al dividir este número por el total de celdas, es decir 400, tendremos la frecuencia relativa del valor 4, lo cual nos da una idea de la pro-babilidad de que caigan 4 células en una celda. La Figura 1 muestra las frecuencias relativas del

expe-2William Gosset usaba el seudónimo Student para publicar sus

investigaciones debido a que la compañía Guiness no autorizaba a sus empleados a revelar información importante sobre el proceso de producción de su cerveza.

(2)

2 2 4 4 4 5 2 4 7 7 4 7 5 2 8 6 7 4 3 4 3 3 2 4 2 5 4 2 8 6 3 6 6 10 8 3 5 6 4 4 7 9 5 2 7 4 4 2 4 4 4 3 5 6 5 4 1 4 2 6 4 1 4 7 3 2 3 5 8 2 9 5 3 9 5 5 2 4 3 4 4 1 5 9 3 4 4 6 6 5 4 6 5 5 4 3 5 9 6 4 4 4 5 10 4 4 3 8 3 2 1 4 1 5 6 4 2 3 3 3 3 7 4 5 1 8 5 7 9 5 8 9 5 6 6 4 3 7 4 4 7 5 6 3 6 7 4 5 8 6 3 3 4 3 7 4 4 4 5 3 8 10 6 3 3 6 5 2 5 3 11 3 7 4 7 3 5 5 3 4 1 3 7 2 5 5 5 3 3 4 6 5 6 1 6 4 4 4 6 4 4 2 5 4 8 6 3 4 6 5 2 6 6 1 2 2 2 5 2 2 5 9 3 5 6 4 6 5 7 1 3 6 5 4 2 8 9 5 4 3 2 2 11 4 6 6 4 6 2 5 3 5 7 2 6 5 5 1 2 7 5 12 5 8 2 4 2 1 6 4 5 1 2 9 1 3 4 7 3 6 5 6 5 4 4 5 2 7 6 2 7 3 5 4 4 5 4 7 5 4 8 4 6 6 5 3 3 5 7 4 5 5 5 6 10 2 3 8 3 5 6 6 4 2 6 6 7 5 4 5 8 6 7 6 4 2 6 1 1 4 7 2 5 7 4 6 4 5 1 5 10 8 7 5 4 6 4 4 7 5 4 3 1 6 2 5 3 3 3 7 4 3 7 8 4 7 3 1 4 4 7 6 7 2 4 5 1 3 12 4 2 2 8 7 6 7 6 3 5 4

Tabla 1 Distribución de células de levadura sobre 1 mm2 dividido en 400 cuadrados.

rimento realizado por Student. En la parte de abajo se compara con la función de probabilidad puntual de la distribución de Poisson de parámetro µ= 4,68. Más adelante veremos métodos para cuantificar cuán buena es la aproximación de Poisson, respecto a la evidencia empírica aportada por los datos.

1 2 3 4 5 6 7 8 9 10 11 12

Conteo realizado por Student

F re c. R el at iva 0.00 0.10 0.20 1 2 3 4 5 6 7 8 9 10 11 12

Distribucion Poisson mu=4.68

Pro ba bi lid ad 0.00 0.10

Figura 1 Comparación de la distribución de Poisson con µ = 4,68 y el conteo experimental realizado por Student.

El parámetro µdebe interpretarse como la cantidad media de células por unidad de área.

3.

Poisson en los mundiales

La Tabla 2 muestra la frecuencia de partidos según la cantidad de goles en el mundial de fútbol de Francia 98. En total se jugaron 64 partidos y se hicieron 170 goles. Por ejemplo, hubo 5 partidos en los que no hubo goles, y hubo un solo partido en los que se convirtie-ron 7 goles. El número promedio de goles por partido es µ= 170 64 ≈2,66. Número total de goles por partido 0 1 2 3 4 5 6 7 Total Frecuencia de partidos con esa cantidad de goles

5 11 12 18 11 6 0 1 64

Tabla 2 Goles en el mundial de Francia 98 En la Figura 2 se muestra la comparación con la dis-tribución de Poisson de parámetro µ = 2,66. Arriba de cada barra se muestra en rojo tanto la frecuencia relativa como la probabilidad teórica. La frecuencia relativa se obtiene dividiendo la cantidad de partidos en los que hubo k goles sobre 64 que es el total de partidos.

(3)

obser-Distribucion de partidos segun goles F re cu en ci a re la tiva 0.00 0.10 0.20 0.30 0.08 0.17 0.19 0.28 0.17 0.09 0 0.02 0 1 2 3 4 5 6 7

Distribucion de Poisson con mu=2.66

Pro ba bi lid ad 0.00 0.10 0.20 0.30 0.07 0.19 0.25 0.22 0.15 0.08 0.03 0.01 0 1 2 3 4 5 6 7

Figura 2 Arriba se muestra la distribución de parti-dos según goles en el mundial de Francia 98. Abajo se muestran las probabilidades teóricas de la distribu-ción de Poisson de parámetro µ=2,66.

vadas y las probabilidades teóricas están dentro de los rangos esperados para la cantidad de partidos es-tudiados. Dicho mal y pronto, 64 no es un número grande de datos para sacar conclusiones determinan-tes. Damos aquí simplemente una primera impresión, se podría estudiar si la distribución de partidos por goles se ajusta mejor en campeonatos más largos con más partidos. Es un trabajo que puede dar sus frutos, ¡nos puede ayudar a ganar algunos pesos en la próxi-ma penca del mundial!

4.

¡Poisson hasta en las galletitas!

En el curso de PyE del segundo semestre del 2016 se hizo el siguiente experimento: ¿Cuántas chips de chocolate hay en las galletitas de la marcaPepitos? Para esto se repartieron varios paquetes de Pepitos entre los estudiantes. En lugar de comerlas, los estu-diantes contaron cuántas chips de chocolate hay en cada galleta. Los datos obtenidos se muestran en la

Tabla 3. Esta tabla se debe leer igual que la anterior, por ejemplo, hubo 6 galletas con 4 chips de chocolate.

Número de chips de chocolate

por galleta

1 2 3 4 5 6 7 8 9 10 11 12 Total

Frecuencia de galletas con esa cantidad de chips

1 2 4 6 12 10 9 10 5 2 1 1 63

Tabla 3 Chips de chocolate en las galletas Pepitos. El número promedio de chips por galleta es

µ= 392

63 ≈6,2.

En la Figura 3 se muestra la comparación con la dis-tribución de Poisson. De nuevo, la cantidad de datos no permite sacar conclusiones determinantes, pero se puede apreciar que la aproximación es bastante bue-na.

Distribucion de galletas segun chips

F re cu en ci a re la tiva 0.00 0.05 0.10 0.15 0.20 0.02 0.03 0.06 0.1 0.19 0.16 0.14 0.16 0.08 0.03 0.02 0.02 1 2 3 4 5 6 7 8 9 10 11 12

Distribucion de Poisson con mu=6.2

Pro ba bi lid ad 0.00 0.05 0.10 0.15 0.01 0.04 0.08 0.12 0.15 0.16 0.14 0.11 0.08 0.05 0.03 0.01 1 2 3 4 5 6 7 8 9 10 11 12

Figura 3 Arriba se muestra la distribución de galle-tas según la cantidad de chips de chocolate. Abajo se muestran las probabilidades teóricas de la distribu-ción de Poisson de parámetro µ=6,2.

(4)

5.

Poisson en las lentejas

En el primer semestre del 2017 fuimos por las lentejas. El experimento consistió en lanzar de forma aleatoria un puñado de lentejas sobre un papel cuadriculado. El papel contenía 100 cuadrados de 1 cm de lado. La cantidad de lentejas lanzadas no coincide con las que al final quedan sobre el papel, así que el núme-ro pnúme-romedio de lentejas por cuadrado depende de la realización del experimento.

En la Tabla 4 se muestra los datos obtenidos por un grupo de estudiantes. Número de lentejas por cuadrado 0 1 2 3 4 5 Total Frecuencia de cuadrados con esa cantidad de lentejas

52 32 13 2 0 1 100

Tabla 4 Lentejas distribuidas al azar sobre un papel cuadriculado.

El número medio de lentejas por cuadrado es entonces

µ= 69

100 =0,69.

En la Figura 4 se muestra la comparación con la dis-tribución de Poisson de parámetro µ = 0,69. Notar que la aproximación es muy buena a pesar de la poca cantidad de datos.

6.

Poisson en la bolsa de valores

Cuando una empresa cotiza en la bolsa de valores, el precio de sus acciones suben y bajan de forma poco predecible. Decimos que hay unaumentoen el precio de las acciones de una empresa, si el precio de un determinado día es mayor al precio del día anterior. Aunque parezca bastante sorprendente, detrás del aparente azar que esconden los cambios de precios encontramos alguna regularidades.

Por ejemplo, en la Tabla 5 se muestra el número de aumentos de las acciones deGoogle durante el perío-do que va desde Enero del 2006 hasta Diciembre del 2010. Para ser más específicos, este período de tiempo se dividió en 60 meses. Para cada uno de estos meses, se contó cuántas veces hubo un aumento en el precio

Distribucion de cuadrados segun lentejas

F re cu en ci a re la tiva 0.0 0.2 0.4 0.6 0.52 0.32 0.13 0.02 0 0.01 0 1 2 3 4 5

Distribucion de Poisson con mu=0.69

Pro ba bi lid ad 0.0 0.2 0.4 0.6 0.5 0.35 0.12 0.03 0 0 0 1 2 3 4 5

Figura 4 Arriba se muestra la distribución de cuadra-dos según la cantidad de lentejas. Abajo se muestran las probabilidades teóricas de la distribución de Pois-son de parámetro µ=0,69.

de las acciones en dicho més. La tabla muestra enton-ces la cantidad de meses en los que hubok aumentos de precio. Número de aumentos por mes 5 6 7 8 9 10 11 12 13 14 15 16 Total Frecuencia de meses con esa cantidad

de aumentos

1 6 2 9 9 10 5 8 5 4 0 1 60

Tabla 5 Distribución de meses según aumentos de pre-cio en las acpre-ciones de Google.

El número medio de aumentos por mes es entonces

µ= 596

60 ≈9,93.

En la Figura 5 se muestra la comparación con la dis-tribución de Poisson de parámetro µ = 9,93. Notar que la aproximación es muy buena a pesar de la poca cantidad de datos.

Como una primera aproximación no está mal, tenien-do en cuenta que son solo 60 datos. ¿Seguirá sientenien-do buena la aproximación si observamos la bolsa durante un período más largo de tiempo?

(5)

Distribucion de meses segun aumentos F re cu en ci a re la tiva 0.00 0.05 0.10 0.15 0.20 0.02 0.1 0.03 0.15 0.15 0.17 0.08 0.13 0.08 0.07 0 0.02 5 6 7 8 9 10 11 12 13 14 15 16

Distribucion de Poisson con mu=9.93

Pro ba bi lid ad 0.00 0.05 0.10 0.15 0.04 0.06 0.09 0.11 0.13 0.13 0.11 0.09 0.07 0.05 0.03 0.02 5 6 7 8 9 10 11 12 13 14 15 16

Figura 5 Arriba se muestra la distribución de meses según la cantidad de aumentos. Abajo se muestran las probabilidades teóricas de la distribución de Poisson de parámetro µ=9,93.

7.

Esperanza y varianza

En la Figura 6 mostramos la función de probabilidad puntual de una variableX con distribución de Poisson para varios valores del parámetro µ. El valor de µ varía de 1 a 1 000. Notar como a medida queµcrece, la distribución de X se corre hacia la derecha y se concentra en valores cada vez mayores dek.

Es interesante notar la forma acampanada y simétri-ca de la distribución cuando µes grande. Esto no es casualidad y lo estudiaremos más adelante.

Veamos ahora que la esperanza de X es µ.

Proposición. Si X es una variable aleatoria con

distribución de Poisson de parámetro µ, entonces

E(X)= µ.

Figura 6 Distribución de Poisson para varios valores de µ. Para valores grandes de µla forma del gráfico de la distribución se parece a la campana de Gauss.

Demostración. De la definición de valor esperado:

E(X)= ∞ X k=0 kµ ke−µ k! = ∞ X k=1 kµ ke−µ k! ,

ya que el primer término (k =0) de la serie se anula. Entonces E(X)= ∞ X k=1 µke−µ (k−1)! = µ ∞ X k=1 µk−1e−µ (k−1)!. Poniendo j= k−1 obtenemos µ ∞ X k=1 µk−1e−µ (k−1)! = µ ∞ X j=0 µje−µ j! = µ.

Esto es lo que queríamos demostrar.

De forma análoga podemos calcular la varianza. Para esto calculemos primero la esperanza de X(X−1). De

la definición tenemos que

E(X(X−1))= ∞ X k=0 k(k−1)µ ke−µ k! = µ2 ∞ X k=2 µk−2e−µ (k−2)! = µ 2. Pero por otro lado,

E(X(X−1))=EX2−E(X),

de dondeE X2= µ2+µ. De aquí deducimos que

(6)

Resumimos en el cuadro siguiente el importante he-cho de que para una variable Poisson la esperanza y la varianza son iguales.

Si X ∼Pois(µ)⇒E(X)=var(X)= µ.

8.

Poisson y la binomial

¿Por qué es tan común la distribución de Poisson? En esta y en la próxima sección veremos que en muchas situaciones la distribución de Poisson es una buena aproximación a variables que son sumas de Bernoulli. Como el caso más simple de sumas de Bernoulli es cuando éstas son independientes, comenzaremos es-tudiando el caso de la distribución binomial. Este tipo de aproximación servirá para entender porqué los fe-nómenos como el de las céculas de levadura, las chips de chocolate, o las lentejas, se pueden aproximar por una Poisson. Todos ellos entran dentro del marco de los que se conoce comoproblemas de ocupación. Los problemas de ocupación ocurren cuando distri-buimos n bolas en r celdas. Nosotros supondremos que tanto las bolas como las celdas son distinguibles. Por ejemplo, en el caso de las células de levadura, las celdas son las unidades de área, por lo quer =400 y las bolas son las células yn= µr.

Fijemos C una celda cualquiera, y sea X el número de bolas que caen en C. Nuestro primer objetivo es determinar la distribución deX.

La variable X puede tomar cualquier valor entre 0 y

µr. Como la probabilidad de que una bola dada caiga en C es 1/r, si llamamos éxito al evento de caer en C, es claro que X cuenta el número de tales éxitos. Al ser las bolas independientes, vemos que X tiene distribución binomial de parámetrosn= µryp=1/r. Entonces, para cada k entre 0 yn, tenemos que

P(X = k)= n k ! 1 r !k 1− 1 r !n−k .

Notar que los parámetros de la distribución binomial deXsatisfacen la relaciónnp= µ. Además, el número de celdasr es grande, por lo que p es relativamente chico.

Para aproximar la distribución de X por una Poisson debemos tomar el límite cuandor tiende a infinito en

la fórmula de la función de probabilidad puntual de X. Esto es precisamente lo que establece el teorema siguiente.

Teorema(Aproximación de Poisson a la bino-mial). Para cada n ∈N, sea Xn una variable con

distribución binomial de parámetrosnypn.

Supon-gamos que

npn = µ

para un cierto parámetro fijo µ >0. Entonces, para

todok ∈N, tenemos que

lım

n→∞P(Xn = k)=

µk k!e

−µ.

Demostración. Fijemos k un natural cualquiera. Como

Xn tiene distribución binomial Bin(n,pn), y npn = µ, entonces P(Xn =k)= n k ! (1−pn)n−kpkn = n k ! 1− µ n n−k µ n k = n! k!(n−k)! 1− µ n n−kµ n k

Este último se puede reescribir como

µk k! " n(n−1)· · ·(n−k+1) # 1− µ n n 1 1− µnk 1 n !k

Estudiemos los términos de la última ecuación por separado. Primero, observar que cuando n → ∞ la productoria

n(n−1)· · ·(n−k+1)∼nk,

pues estamos multiplicando un número fijo, igual ak, de factores. A su vez, deben recordar de los cursos de Cálculo que 1− µ n n →e−µ, cuandon→ ∞. Por último, el factor

1− µ

n k

→1,

pues k está fijo ynes cada vez más grande. Luego P(Xn = k)∼ µk k!n k 1 µ n n 1 nk → µke−µ k! . Esto es exactamente lo que queríamos probar.

(7)

Ahora podemos usar este teorema y el teorema de Bernoulli para mostrar que la cantidad de céldas con k bolas es aproximadamente Poisson.

Para cada una de lasr celdas, denotemos Xi =      1 siitiene k bolas; 0 si no.

Entonces, Xi es una variable Bernoulli de parámetro qigual a la probabilidad de que una celda dada tenga k bolas.

El número total de celdas con k bolas es entonces no de celdas con k bolas=

r X

i=1 Xi.

La frecuencia relativa fk de celdas con k bolas es en-tonces

fk = n

o de celdas conk bolas

r .

Luego, por el teorema de Bernoulli sabemos que fr(k) converge a la probabilidad de éxitoqcuandor tiende a infinito3.

Pero la probabilidad de éxitoq es igual a la probabi-lidad P(X =k) de que una celda fija tenga k bolas. Como vimos antes, por el teorema que probamos sa-bemos queP(X = k)≈ µke−µ/k!. En definitiva: fr(k)≈ µk k!e −µ como queríamos demostrar.

9.

El método de Stein-Chen

En muchos casos podemos escribir la variable de in-terésX como una suma de variables Bernoulli

X =

n X

i=1 Xi.

Sin embargo, no siempre las Xi0s son independientes. Un primer indicio de que una suma de Bernoulli se puede aproximar por una Poisson es cuando la va-rianza y la esperanza son muy parecidas. Por ejemplo, 3Esto no es estrictamente lo que hemos probado, pues hay

una leve dependencia entre los ensayos. Sin embargo, es cierto y lo demostraremos más adelante en el curso.

cuando X es una binomial, la esperanza esnpy la va-rianza es np(1−p). Cuando p es chico, tenemos que np(1−p)≈nplo cual es un indicio para la aproxima-ción de Poisson4.

El método de Stein-Chen sirve para aproximar una suma de variables Bernoulli por una Poisson. No lo veremos en toda su generalidad, sino que veremos en algunos casos importantes cómo funciona.

El problema de los sobres

Recordar el problema de los sobres que vimos en el capítulo anterior: se tienen n sobres númerados, y n papeles también númerados que se colocan aleatoria-mente en los sobres. LlamemosX al número de pape-les que se colocan en el sobre correcto (los números del sobre y el papel coinciden).

Vamos a probar, por el método de Stein-Chen, que X se puede aproximar por una Poisson. Notar primero que como vimos en el capítulo anterior, la varianza y la esperanza deX son iguales a 1. Por lo que si quere-mos aproximar X por una Poisson, debemos utilizar una de parámetro µ=1.

De todos modos, empezaremos haciendo unos cálcu-los generales (cualquier µ) que nos servirán en otras aplicaciones también. Luego volveremos a poner µ= 1.

El punto de partida es una curiosa conexión entre la distribución de Poisson de parámetro µy la función

g(j)definida porg(0)=0 y

g(j)=

Z 1

0

e−µttj−1dt.

Notar que 0 ≤ g(j) ≤ 1 para todo j. También, inte-grando por partes se ve que

µg(j+1)= jg(j)−e−µ para j=0,1,2, . . . y un cálculo directo muestra queg(1)=1−e−µ. Podemos resumir los dos cálculos anteriores en

µg(j+1)−jg(j)=1{j=0}−e−µ para j=0,1. . .

Esta es la ecuación más importante sobre g que usa-remos.

4Recordar que para la Poisson, la esperanza y la varianza son

(8)

Supongamos que Y es una variable con distribución de Poisson de parámetro µ. Entonces

P(Y =0)=e−µ.

Si sustituimos X por j en la ecuación en recuadro, tenemos

µg(X +1)−Xg(X)=1{X=0}−e−µ

que es una igualdad entre variables aleatorias. Enton-ces, si tomamos esperanza en ambos lados, se ve que

µE(g(X+1))−E(Xg(X))=P(X =0)−e−µ, o lo que es lo mismo

P(X =0)−P(Y =0)= µE(g(X +1))−E(Xg(X)) Notar cuán interesante es esta ecuación: del lado iz-quierdo tenemos la diferencia de dos probabilidades, una es la que no conocemos con exactitud que involu-cra a X, y la otra involucra a la distribución de Pois-son. Si podemos probar que el lado derecho es chico en valor absoluto, habremos probado que X se puede aproximar por una Poisson. Esta ecuación es tan im-portante que le daremos un nombre, la llamaremos la ecuación de Stein-Chen (SC).

Volvamos ahora al problema de los sobres, y supon-gamos que µ=1.

Hay un truco probabilístico hermoso para estimar el lado derecho de la ecuación SC. Consideremos las va-riables Xi =     

1 si el papeliestá en el sobrei; 0 si no.

Podemos escribir la contribución de Xg(X)en SC co-mo E(Xg(X))=E* , n X i=1 Xig(X)+ -= n X i=1 E(Xig(X))=nE(X1g(X)). El truco consiste en asignar de una forma un poco peculiar las cartas en los sobres de forma aleatoria. Esta forma peculiar le da un rol distinto al primer sobre. Los pasos son los siguientes:

1. Ponemos la carta 1 en el sobre 1. Luego, distri-buimos las cartas 2,. . . ,nen los sobre 2, . . . ,n, de forma aleatoria. Llamemos Z al número de tas colocadas en el sobre correcto entre las car-tas númeradas del 2 al n. Es decir, Z es como

X pero para el problema de los sobres con n−1 sobres pues hemos forzado la colocación de la primer carta en el primer sobre. Notar entonces queE(Z)=1.

2. Elegimos un sobreRal azar entre todos los sobres (probabilidad 1/n para cada sobre), e intercam-biamos la carta del sobre R con la del sobre 1, que es la carta 1.

Obviamente, el resultado de hacer 1 y luego 2 es el mismo que el de meter las cartas en los sobres al azar. Pero, haciendo el paso 1, hemos logrado definir la va-riable Z que nos será de gran ayuda.

Observar primero que X1 es independiente de Z. Es decir, saber cuántas cartas (entre 2 yn) correctamen-te colocadas hay, no nos aporta información sobre si la primera será correctamente colocada. Esto es pre-cisamente pues en el paso 2, independientemente de lo que valgaZ en el 1, cambiamos la carta 1 de lugar. Notar además que X = Z si, y solo si, el sobre R elegido en el paso 2 no contiene su carta correcta. Entonces P(X , Z|Z = k)= k+1 n . Luego P(X , Z)= n−1 X k=0 k+1 n ·P(Z = k)= E(Z)+1 n = 2 n. Esto es, la construcción nos da X = Z con probabili-dad grande.

Cuando X1 = 1 (esto es cuando R = 1) tenemos que X = Z+1. Luego, si X1=1 se verifica

X1g(X)= X1g(Z+1).

Esta igualdad se verifica trivialmente cuando X1 = 0. Si tomamos esperanzas a ambos lados deducimos que

E(X1g(X))=E(X1g(Z+1))=E(X1)E(g(Z+1)). La probabilidad de que la carta 1 se coloque en el sobre 1 es 1/n, por lo que E(X1)=1/n. Entonces

E(Xg(X))=nE(X1g(X))

=nE(X1)E(g(Z+1))=E(g(Z+1)). Volviendo a la ecuación SC, hemos llegado a que

(9)

La variableg(X+1)−g(Z+1) vale cero en el evento X = Z, un evento de gran probabilidad, y es menor o igual a 1 en el evento X , Z. Entonces

E(|g(X +1)−g(Z+1)|)≤1·P(X , Z)= 2 n. Es síntesis, hemos probado que

lım

n→∞P(X =0)=P(Y =0).

Podemos usar este hecho para aproximar también la probabilidadP(X = k).

Fijemos unk entre 0 yn. El evento{X =k}especifica k cartas colocadas correctamente en sus sobres. Hay

n k

formas distintas de elegir cuáles son las k cartas. Por simetría, la probabilidad de que k cartas se colo-quen correctamente es la misma para todas las formas de elegir las k cartas. De todo esto se sigue que

P(X = k)= n k !

·P(cartas 1, . . . ,k correctas).

La probabilidad de que las cartas de 1 hasta k estén colocadas correctamente es igual a

1 n(n−1)· · ·(n−k+1) = 1 (n)k. La probabilidad condicional P(k+1, . . . ,nincorrectas|1, . . . ,k correctas) es igual a la probabilidad de que X = 0 cuando hay n−k sobres. Sines grande respecto dek, esta proba-bilidad es aproximadamente igual ae−1.

Entonces P(X =k)≈ n k ! 1 (n)ke −1= e−1 k! =P(Y = k). Hemos probado entonces:

Sea X que cuenta el número de cartas correc-tas en el problema de los n sobres. Sea Y una variable con distribución de Poisson de pará-metro µ=1. Entonces

lım

n→∞P(X =k)=P(Y =k) para todo k fijo.

Correlación negativa

Consideremos el problema más general de aproximar por una Poisson una variableX que se puede escribir como suma de Bernoulli

X =

n X

i=0 Xi

en donde asumiremos que las Xi son todas

intercam-biables. Esto quiere decir que la distribución conjunta

del par (Xi,X) es igual a la del par (Xj,X) para to-doi,j. En particular, la probabilidad de éxitopes la misma para todoi.

Bajo éstas condiciones, todos los pasos que nos lle-varon a la ecuación de SC son válidos, poniendo

µ=E(X)=np. Más aún, sigue siendo válido que

E(Xg(X))=nE(X1g(X)),

por lo que nuestra tarea se centrará en estimar el lado derecho de esta ecuación.

La idea clave en el ejemplo anterior fue construir una variable Z con la propiedad de que

X1g(X)= X1g(Z+1).

Luego pudimos estimar la esperanza usando que Z era independiente de X1.

Como la función g es decreciente, podemos intentar estimar la esperanza asumiendo que la covarianza en-tre X1 y Z es negativa. En este caso tendríamos

E(X1g(Z+1))≥E(X1)E(g(Z+1))=pE(g(Z+1)) de donde se deduce que µE(g(X+1))−E(Xg(X))es menor o igual a

np[E(g(X+1)−g(Z+1))].

La primera idea que nos viene a la cabeza es conside-rar Z = n X i=2 Xi.

Supondremos entonces quecov(X1,Z) ≤0. Para esto basta suponer por ejemplo que cov(X1,Xi) ≤ 0 para todoi≥ 2. Esta condición es más fácil de verificar en las aplicaciones concretas.

Notar que en este caso, X , Z si, y solo si, X1 = 1, por lo que P(X , Z) = p. Volviendo a usar el hecho

de que 0≤g(j) ≤1 para todo j, vemos que

(10)

de donde finalmente se deduce que siY es una varia-ble con distribución de Poisson de parámetro µ=np, entonces

|P(X =0)−P(Y =0)| ≤ np2= µp que es chico sipes chico.

Hemos probado entonces: Consideremos la suma X = n X i=1 Xi

de variables Bernoulli intercambiables y negati-vamente correlacionadas. Denotemos por p la probabilidad de éxito. Si n → ∞ y p → 0 de modo tal quenp→µ, entonces

lım

n→∞P(X =0)=P(Y =0)

en dondeY es una variable con distribución de Poisson de parámetro µ.

El resultado es cierto para las probabilidades

P(X = k) pero la demostración es más difícil. De to-dos moto-dos, en las aplicaciones que nos van a interesar, solamente calcularemos la probabilidad de queX sea igual a cero.

Lo mismo vale en el caso en las correlaciones sean positivas, con una demostración muy similar.

La conclusión del cuadro anterior es cierta si se cambia negativamente correlacionadas por positivamente correlacionadas.

Un caso particular es por su puesto cuando las va-riables son independientes. Pero esto ya los sabíamos pues la suma de Bernoulli independientes es binomial. Veamos un par de ejemplos en los cuales hay correla-ción positiva o negativa.

Rachas

Lanzamos una moneda equilibradanveces. Los resul-tados posibles son entonces secuencias de largon de 0’s y 1’s en donde 0 representa cruz y 1 cara. Quere-mos calcular la probabilidad de que haya una racha de 1’s de longitud al menos k.

Sea L la longitud de la racha mas larga de unos. El evento que nos ineteresa es equivalente a que L ≥ k. Es decir, queremos calcularP(L ≥ k).

Podemos calcular la probabilidad del complemento aproximando por Poisson. Para esto, definimos

Xi =     

1 si las entradas deiai+k −1 son todas 1; 0 si no.

Estas variables son Bernoulli con probabilidad de éxi-to igual a p=1/2k.

Consideremos X igual a la suma X = X1+· · ·+Xn−k+1. Entonces, podemos escribir el evento como

{L< k}= {X =0}.

Notar que las variables XiXj también son Bernoulli, pero con probabilidad de éxito igual a

q=P Xi =1,Xj =1

= 1

2r conr ≤ 2k.

Veamos que las covarianzas son todas positivas. De hecho cov Xi,Xj =E XiXj −E(Xi)E Xj =q−p2 = 1 2r − 1 22k ≥ 0.

Para aproximar por la Poisson debemos calcular µ=

E(X). En este caso es

µ=(n−k+1)p= (n−k+1) 2k . Luego, la aproximación es

P(L ≥ k)=1−P(X =0)≈1−e−(n−k+1)/2k. Notar que esta probabilidad tiende a 1 cuandon tien-de a infinito.

Cumpleaños

Podemos usar la aproximación de Poisson para calcu-lar la probabilidad de que en un grupo denpersonas haya al menos dos que cumplan el mismo día.

(11)

Consideremos las variables Xi j =

  

1 siiy jcumplen el mismo día; 0 si no.

Entonces, la suma

X = X

{i,j}

Xi j

cuenta el número de pares que cumplen el mismo día. Las variablesXi j tienen covarianza nula, como vimos en el capítulo anterior, pero no son globalmente inde-pendientes. La esperanza de X es como vimos igual a

µ=E(X)= n(n−1) 730 .

Luego, si aproximamos por una Poisson tenemos

P(X > 0)=1−P(X =0)≈1−e−µ =1−e−n(n−1)/730. Notar que esta es la misma aproximación que deduji-mos directamente en el primer capítulo.

Parejas

Diez parejas, numeradas del 1 al 10, son invitadas a un torneo de truco. El torneo se juega en equipos de a dos. Los equipos se determinan al azar, pero todos los equipos tienen un hombre y una mujer.

Queremos calcular la probabilidad de que al menos una pareja conforme un equipo de truco. Este proble-ma es igual al de los sobres, los hombres pueden ser los sobres y las mujeres las cartas. Pero veamos que las covarianzas son positivas.

Para esto, seanX1, . . . ,X10las variables aleatorias de-finidas por Xi=     

1 si lai-ésima pareja es un equipo; 0 si no. Entonces cov Xi,Xj = 1 10×9 − 102 ≥ 0.

Para usar la aproximación de Poisson, ponemos

µ=E(X)=10× 1

10 =1, de donde

P(X >0)=1−P(X =0)≈1−e−1 =0,6321.

Lecturas recomendadas

W. Feller,Introducción a la Teoría de probabilidades

y sus aplicaciones, Vol. 1, Capítulo VI.

Referencias

Documento similar

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

Proporcione esta nota de seguridad y las copias de la versión para pacientes junto con el documento Preguntas frecuentes sobre contraindicaciones y

[r]

Contraindicaciones: El uso de la mascarilla está contraindicado para los pacientes y los miembros de sus familias, profesionales sanitarios y compañeros de

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y

En este sentido, puede defenderse que, si la Administración está habilitada normativamente para actuar en una determinada materia mediante actuaciones formales, ejerciendo

En la parte central de la línea, entre los planes de gobierno o dirección política, en el extremo izquierdo, y los planes reguladores del uso del suelo (urbanísticos y