• No se han encontrado resultados

Contando: n k. (N K) n k. que para cada ω Ω SR devuelve el número de bolas rosadas en la muestra. Más precisamente, Juntando todo nos queda

N/A
N/A
Protected

Academic year: 2021

Share "Contando: n k. (N K) n k. que para cada ω Ω SR devuelve el número de bolas rosadas en la muestra. Más precisamente, Juntando todo nos queda"

Copied!
12
0
0

Texto completo

(1)

Muestreo con y sin reposición: distribución Binomial e

Hipergeométrica

Matías Carrasco 5 de abril de 2018

1.

Urnas y muestras

La gran mayoría de los experimentos aleatorios cu-yos espacios muestrales son finitos se pueden mode-lar usando urnas y/o celdas. En este capítulo vamos a discutir algunas propiedades de estos modelos. Co-menzaremos por los modelos de urnas que son más naturales.

Experimento: tenemos una urna conN bolas, numeradas de1a N:

B={b1,b2, . . . ,bN},

de las cualesK son rosadas y N−K son celestes.

Extraemosnbolas para formar una muestra

ordenada.

Sacamos una muestra ordenada de tamaño n. ¿Cuántas bolitas rosadas hay?

1 2 3

N-K

1 2 3

K

Las bolitas son distinguibles.

¿Cuál es el espacio muestralΩ? Para empezar,

debe-mos distinguir dos formas de extraer las bolas: Sin reposición

SR ={ω=(ω1, . . . , ωn):

ωi ∈B para todoi, yωi,ωj sii, j}. En este caso, al extraer una bola no la volvemos a poner en la urna, por lo que en la muestra todas la bolas deben ser diferentes entre sí.

Con reposición

C R={ω =(ω1, . . . , ωn):ωi ∈B para todoi}.

En este caso, al extraer una bola la volvemos a poner en la urna, por lo que puede aparecer más de una vez en la lista.

Caso sin reposición: la distribución hipergeo-métrica

En este caso el espacio muestral es

SR ={ω=(ω1, . . . , ωn):

ωi ∈B para todoi, yωi,ωj sii, j}. Notar que en este caso se debe imponer0≤ n≤ N. Como en todo espacio muestral finito, los eventos son todos los subconjuntos del espacio muestral. Así que lo más importante es determinar cuáles son las proba-bilidades de los eventos elementales, es decir, de cada una de las listas ordenadas deΩSR.

Cada una de las listas tiene la misma chance de ocu-rrir que cualquier otra, ya que no hay ninguna razón por la cual suponer que alguna de ellas tiene una pre-ferencia de ser elegida. Entonces, la probabilidad de cada listaω es simplemente1/|ΩSR|.

Para calcular el número total de muestras posibles ra-zonamos de la siguiente manera: para elegir la primer bola tenemos N posibilidades, para la segundaN−1

(ya que no volvemos a poner la bola que recién extraji-mos), y así sucesivamente, hasta que cuando vayamos a elegir lan-ésima bola quedan N− (n−1)= N−n+1

bolas en la urna. Luego el número total de muestras es

|ΩSR|= N× (N−1) × · · · × (N−n+1).

Podemos escribir este número de forma más compacta usando factoriales

|ΩSR|= N! (N−n)!.

La fórmula de la derecha se conoce como arreglos de N enn y se suele escribir como(N)no AnN.

(2)

Lo que nos interesa en este momento es contar cuán-tas bolas de determinado color hay en la muestra. Para esto introducimos la variable aleatoria

X :ΩSR →R

que para cadaω ∈ ΩSR devuelve el número de bolas rosadas en la muestra. Más precisamente,

X(ω1, . . . , ωn)=|{i:ωi es rosada}|.

Comencemos por estudiar qué valores puede tomar X. Los valores posibles que una variable puede tomar se llama el recorrido de la variable. Así, nos pregun-tamos ¿Cuál es el recorrido de X?

El valor más chico que X puede tomar en general es

0, pero eso depende de cuántas bolas celestes haya en la urna. Por ejemplo, si hay una sola bola celeste en la urna (N −K = 1) y extraemos n = 5bolas, entonces al menos4serán rosadas, por lo que X será mayor o igual a4siempre.

En general, si extraemos más bolas que la cantidad de bolas celestes, es decir si n > N−K, entonces como mínimo habránn− (N−K)bolas rosadas. En cambio, si la cantidad de bolas celestes es mayor o igual que la cantidad de bolas que extraemos, entonces X podría tomar el valor cero.

Juntando ambos casos, vemos que el valor más chico que X puede tomar esmn=m´ax{n− (N−K),0}. Razonando del mismo modo podemos ver cuál es el valor más grande que puede tomar X. Si la cantidad K de bolas rosadas es mayor o igual quen, entonces X podría tomar el valor n. De lo contrario, el valor más grande que podría tomarXesK. Juntando ambos casos, vemos que el valor más grande que X puede tomar esMn=m´ın{K,n}.

En resumen, X toma valores enteros y verifica mn=m´ax{n− (N−K),0} ≤X ≤m´ın{K,n}= Mn.

Para cualquier entero k entre mn y Mn la función de

probabilidad puntual de X nos dice con que probabi-lidad X toma el valor k.

Para calcular esta probabilidad, vemos primero que el evento que nos interesa es{X = k}, es decir:

{ω ∈ΩSR :k de losωi son rosadas yn−k son celestes}.

Como todas las muestras son igualmente probables, la probabilidad de{X= k}es P(X = k)= casos favorables casos posibles = |{X = k}| |ΩSR| . Contando: |{X= k}|=

elegimos los lugares de laskrosadas z}|{ n k · (K)k |{z} elegimos laskrosadas · elegimos las n−kcelestes z }| { (N−K)n−k

Juntando todo nos queda

P(X = k)= n k (K)k(N−K)n−k (N)n .

Esta fórmula no parece muy cómoda de usar. Sin em-bargo, podemos re-agrupar términos

P(X = k)= n k (K)k(N−K)n−k (N)n = n! k!(n−k)!· K! (K−k)!· (N−K)! (N−K− (n−k))!· (N−n)! N! = K! k!(K−k)!· (N−K)! (n−k)!(N−K− (n−k))!· n!(N−n)! N! = K k N−K n−k N n . Es decir, hemos obtenido

P(X = k)= K k N−K n−k N n

Llama la atención las combinaciones que aparecen en el denominador. Esto simplemente refleja el hecho que X no depende del orden en el que aparecen las bolas. Podríamos haber modelado el experimento con mues-tras no ordenadas, con el espacio muestral

Ω∗SR =

n

{ω1, . . . , ωn}subconjuntos de tamañon

o . De este modo, obtendríamos directamente que para cada k entre mn y Mn, la probabilidad de que X sea

igual a k está dada por

P(X = k)= elegimos laskrosadas z}|{ K k · elegimos las n−kcelestes z }| { N−K n−k . N n |{z} total de muestras Sin embargo, el modelo con muestras ordenadas nos será útil más adelante para escribir a X como una suma de nvariables aleatorias.

(3)

Figura 1. Gráficos de la función de probabilidad pun-tual de la distribución hipergeométrica. En todos los casos N = 100 y n = 10. El parámetro K varía de K =20aK =80.

Definición. La distribución obtenida en el caso sin reposición se llama Hipergeométrica de paráme-trosN,K yn. La función de probabilidad puntual está dada por

P(X = k)= K k N−K n−k N n dondemn ≤ k ≤ Mn. Escribimos X ∼ H(N,K,n) para indicar queXtiene distribución hipergeométri-ca.

En la figura 1 se muestran cuatro gráficos de la función de probabilidad puntual de la distribución hipergeo-métrica. En todos los casosN=100, es decir hay100

bolas en la urna, yn= 10, es decir extraemos 10. La cantidad de bolas rosadas varía deK =20aK =80. Notar que en cada uno de los casos, la forma de la distribución es acampanada. Sin embargo no es simé-trica. En el primer caso en que sólo hayK =20bolas rosadas en la urna, la variable X se concentra en va-lores chicos dek, teniendo un máximo parak =2. CuandoK =40la distribución es bastante más simé-trica, aunque no del todo. En este caso el máximo se da en k = 4. A medida que K aumenta, la distribu-ción se va corriendo hacia la derecha, en donde para K = 60 el máximo se da en k = 6, y para K = 80 el máximo se da enk =8.

En la segunda figura (Fig. 2) se muestran tres gráficos

Figura 2. Gráficos de la función de probabilidad pun-tual de la distribución hipergeométrica. En todos los casos N=1000yn=100, K ∈ {250,500,750}.

más. En este caso N = 1000, es decir hay1000 bolas en la urna y se extrae una muestra de tamañon=100. En el primer caso la cantidad de bolas rosadas esK =

250, por lo que la distribución está concentrada en valores pequeños dek, con un máximo enk =25. Lo opuesto ocurre en el tercer caso, en donde K=750. Notar que el segundo gráfico es perfectamente simé-trico respecto de k = 50. Esto refleja el hecho de que hay la misma cantidad de bolas rosadasK = 500que celestes N−K = 500en la urna. La probabilidad de que X tome los valores k = 50± x son iguales, para todo xentre −50 y50.

Ejemplo 1

Supongamos que una lotería funciona de la siguiente manera: de una urna que contiene 44 bolas numera-das del 1 al 44, se extraen al azar 5 de ellas y sin reposición. Los participantes compran tickets en los cuales indican una lista de5números. El premio ma-yor se otorga a aquellos participantes que acierten los

5números, pero existen premios menores para aque-llos que acierten3o más.

Este juego lo podemos modelar con urnas y bolas. Imaginemos que decidimos comprar el ticket que con-tiene los números{26,9,27,28,2}. Estas serán las bo-las rosadas, por lo queN =44,K =5yn=5. Denote-mos por X la cantidad de coincidencias entre nuestra lista y aquella que sale sorteada. EntoncesXes la can-tidad de bolas rosadas en la muestra.

(4)

La probabilidad de ganar el premio mayor es P(X=5)= 5 5 39 0 44 5 = 1 1 086 008 ≈9,2×10 −7.

Sin embargo, la probabilidad de ganar algún premio es P(X ≥ 3)=P(X =3)+P(X =4)+P(X=5) = 5 3 39 2 + 5 4 39 1 + 5 5 39 0 44 5 = 7 606 1 086 008 ≈0,007.

Aunque sigue siendo una probabilidad muy chica, no-tar que es7606veces mayor que la anterior.

Ejemplo 2

En las notas correspondientes al teórico 1, se plan-teaba el ejemplo de las coincidencias. En el ejemplo, teníamos que Ana y Beto viven una ciudad conN ha-bitantes y que ambos tienenKconocidos en la ciudad. En ese ejemplo se calculó la probabilidad de que Ana y Beto no tuvieran amigos en común. Ahora podemos modelar este ejemplo mediante un modelo de urnas y podremos calcular la distribución del número de ami-gos en común de Ana y Beto.

Supongamos entonces que tenemos una urna con N bolillas (los habitantes de la ciudad) y que pintamosK de esas bolillas de rosado (los amigos de Beto). Luego extraemos sin reposición una muestra de tamaño K de dicha urna que corresponde a elegir al azar a los amigos de Ana entre los habitantes de la ciudad. Si definimos X como el número de bolillas rosadas en la muestra, X estará indicando el número de amigos en común de Ana y Beto (son amigos de Beto por ser rosadas y son amigos de Ana por estar en la muestra). Por lo que vimos antes, la variable aleatoria X tiene distribución Hipergeométrica de parámetros N, K y K (en este cason=K) y por tanto conocemos la pro-babilidad de Ana y Beto tengan k amigos en común para todo valor posible de k. Por ejemplo, tenemos como antes que la probabilidad de no tener amigos en común está dada por:

P(X =0)= C N−K K

CKN ,

que es el mismo resultado que se había obtenido antes mediante técnicas de conteo. Asumiendo que2K <=

N, tenemos que para todo0≤ k ≤ K, la probabilidad de tener k amigos en común está dada por:

P(X = k)= C K k C N−K K−k CKN .

Al igual que antes, si N y K son grandes, debemos recurrir a aproximaciones para obtener un valor de dichas probabilidades. Sobre este aspecto volveremos en los próximos capítulos.

Caso con reposición: la distribución binomial

Recordemos que en este caso el espacio muestral es

C R={ω =(ω1, . . . , ωn):ωi ∈B para todoi}.

Lo primero que observamos es que en este caso no hay restricción sobre el tamañonde la muestra. Esto es así porque cada vez que retiramos una bola la volvemos a poner para sacar la siguiente. Por tanto se puede tenern> N.

El número total de muestras posibles es |ΩC R| = Nn. Esto se ve fácilmente ya que para cada una de las n coordenadas tenemos N posibilidades distintas. Co-mo ninguna de las secuenciasω tiene preferencia pa-ra ser elegida, la probabilidad de cada una de ellas es

1/|ΩC R|.

Como en el caso sin reposición, consideremos la va-riable aleatoria X : ΩC R → R que a cada ω ∈ ΩC R

asigna el número de bolas rosadas en la muestra. Esto es

X(ω1, . . . , ωn)= |{i:ωi es rosada}|.

¿Cuál es el recorrido de X? En el caso con reposición el análisis es más fácil, ya que independientemente de la cantidad relativa de bolas rosadas y celestes en la urna, la variable X toma valores enteros y verifica

0≤ X ≤ n.

Para determinar la función de probabilidad puntual deX, debemos calcular la probabilidad deXsea igual a k, para todo valor de k entre 0 y n. El evento que nos interesa es por lo tanto {X= k}, es decir:

{ω∈ΩC R:k de lasωi son rosadas yn−k son celestes}.

Por un lado, como todas las secuencias son equipro-bables tenemos

P(X= k)= casos favorables

casos posibles =

|{X = k}| |ΩC R| .

(5)

Contando: |{X =k}|= elegimos los lugares de las krosadas z}|{ n k · Kk |{z} elegimos las krosadas · elegimos las n−kcelestes z }| { (N−K)n−k

Juntando todo nos queda

P(X = k)= n k Kk(N−K)n−k Nn .

Podemos re-agrupar los términos para que la fórmula sea más fácil de interpretar. Si escribimos Nn como NkNn−k, obtenemos P(X= k)= n k Kk(N−K)n−k Nn = n k Kk(N−K)n−k NkNn−k = n k K N k 1− K N n−k

Es decir, denotando porp=K/N la fracción de bolas rosadas en la urna, la fórmula queda

P(X =k)= n k pk(1−p)n−k.

La expresión a la que hemos llegado para la función de probabilidad de X tiene una interpretación muy útil. Notemos primero quep= K/Nes la probabilidad de sacar una bola rosada en un sólo intento.

Cuando extraemosnveces con reposición, las condi-ciones en cada nueva extracción son las mismas que en la primer extracción. Es decir, el procedimiento se puede pensar como la repetición denveces de una sola extracción. Además las extracciones son indepen-dientes entre sí.

Si definimos como “éxito” sacar una bola rosada, X cuenta el número de éxitos en la repetición del ex-perimento n veces. Más aún, X solo distingue si las coordenadas son rosadas o no, por lo que podríamos haber modelado el experimento con el espacio mues-tral

Ω∗C R= {(ω1, . . . , ωn): para todoi, ωi =0o1}.

En este caso, una coordenada igual a 1significa que sale una bola rosada, y una igual a 0 que sale una celeste. EntoncesXcuenta el número de unos en dicha secuencia.

Para que X sea igual a k deben haber k unos en la secuencia yn−k ceros. Si nos olvidamos por el mo-mento de cuáles son los unos y cuáles son los ceros, la probabilidad de que esto ocurra es pk(1 − p)n−k. Lo que falta es tener en cuenta de cuántas formas posibles podemos elegir los lugares para los k unos (pues al elegirlos, los lugares de losn−kceros quedan automáticamente determinados). Esto se puede hacer precisamente de nk

formas distintas. Esto explica la fórmula que obtuvimos.

Definición. La distribución obtenida en el caso con reposición se llama Binomialde parámetros n

y p. La función de probabilidad puntual está dada por P(X =k)= n k pk(1−p)n−k,

para todo k entre0y n. Escribimos X ∼ Bin(n,p) para indicar que X tiene distribución binomial.

En la figura 3 se muestran cuatro gráficos de la función de probabilidad puntual de la distribución binomial. En todos los casos n = 10, es decir extraemos (o re-petimos)10veces de la urna. La proporción de bolas rosadas varía de p=0,2a p=0,8.

Notar que en cada uno de los casos, al igual que en el caso de la distribución hipergeométrica, la forma de la distribución es acampanada. Sin embargo no es simétrica. En el primer caso en que la proporción es sólo de p = 0,2 bolas rosadas en la urna, la variable X se concentra en valores chicos de k, teniendo un máximo para k =2.

Cuandop= 0,4la distribución es bastante más simé-trica, aunque no del todo. En este caso el máximo se da en k = 4. A medida que p aumenta, la distribu-ción se va corriendo hacia la derecha, en donde para p = 0,6 el máximo se da en k = 6, y para p = 0,8 el máximo se da enk =8.

En la segunda figura (Fig.4) se muestran tres gráficos más. En este caso n = 100, es decir extraemos 100

bolas de la urna. En el primer caso la proporción de bolas rosadas es p = 0,25, por lo que la distribución está concentrada en valores pequeños de k, con un máximo en k = 25. Lo opuesto ocurre en el tercer caso, en donde p=0,75.

Notar que el segundo gráfico es perfectamente simé-trico respecto de k = 50. Esto refleja el hecho de que hay la misma cantidad de bolas rosadas que celestes

(6)

Figura 3. Gráficos de la función de probabilidad pun-tual de la distribución binomial. En todos los casos n=10y pvaría dep=0,2a p=0,8.

p=0,5en la urna. La probabilidad de que Xtome los valoresk = 50±x son iguales, para todo x entre−50

y50.

Ejemplo 1

También hemos encontrado esta distribución antes: recordar el ejemplo del estudio del psicólogo sobre la forma de sentarse de los estudiantes en una cantina estudiantil visto en. En este ejemplo, la urna contiene N =6bolas, de las cuales4son rosadas, y correspon-den a las configuraciones en las cuales los estudiantes se sientan en lados adyacentes de la mesa. Las2bolas celestes, corresponden por lo tanto a las configuracio-nes en las cuales los estudiantes se sientan en lados opuestos.

El psicólogo observa a197parejas, y en nuestro mode-lo esto equivale a extraern=197bolas de la urna con reposición. Notar que en este caso claramenten> N, pero no es un problema ya que estamos reponiendo las bolillas observadas. Vimos que la variable S que cuenta el número de parejas que se sientan en lados adyacentes verificaba P(S= k)= 197 k 2 3 k 1 3 n−k

para todokentre0y197. Esta fórmula corresponde a la función de probabilidad puntual de la distribución

Bin 197,23 .

Figura 4. Gráficos de la función de probabilidad pun-tual de la distribución binomial. En todos los casos n=10y p∈ {0,25,0,5,0,75}.

Ejemplo 2

Un estudio intenta determinar si las personas son ca-paces de distinguir el género a partir de la escritura. Para esto, a un participante del estudio se le presen-taron20tarjetas escritas por personas distintas, entre ellas mujeres y hombres.

Para minimizar posibles efectos diferentes al tipo de escritura, todas las tarjetas contenían el mismo texto:

Facultad de Ingeniería

Julio Herrera y Reissig 565 CP11300 Montevideo, Uruguay

A medida que se le presentaban las tarjetas al partici-pante, éste debía indicar si la tarjeta había sido escrita por una mujer o por un hombre.

Suponiendo que el participante indica correctamen-te el género de la persona en 14 de las tarjetas. ¿Te parece que la performance del participante es signi-ficativamente mejor que la que se obtendría al elegir las respuestas al azar?

Este es un claro ejemplo de decisión que debemos to-mar razonando por improbable. Para esto, pongamos a prueba la afirmación siguiente: el participante está tirando a embocar. Supongamos que la afirmación es verdadera y calculemos la probabilidad de observar algo tanto o más extremo que lo observado.

Si el participante está indicando el género al azar, po-demos modelar el experimento usando la distribución binomial. De hecho, el modelo es equivalente a una

(7)

ur-na con N = 2 bolas, una rosada (representando a la mujerM) y otra celeste (representando al hombreH), de la cual el participante extrae con reposiciónn=20

bolas.

Supongamos que la secuencia correcta de géneros es ω∗=

(M,H,H,H,M,M,H,M,M,

M,H,M,H,M,M,H,H,M,M,H).

Notar que hay 11tarjetas escritas por mujeres (M) y

9por hombres (H).

Para una secuencia posibleωdeM0syH0sdenotamos porX(ω)el número de aciertos, esto es de coinciden-cias entreω yω∗. En símbolos

X(ω)={i:ωi=ω∗i} .

La variable X puede tomar cualquier valor entre0 y

20. Además,Xes igual aksi la cantidad de aciertos es exactamentek. La cantidad de secuencias que tienen exactamentek aciertos es 20k . Por tanto P(X =k)= 1 220 20 k .

Esto significa que la variable X tiene distribución bi-nomial de parámetrosn =20 y p= 1/2. En símbolos X ∼Bin(20,1/2).

Es importante notar que el parámetrop=1/2es con-secuencia de que el participante está eligiendo al azar el género, y no depende de cuántas tarjetas escritas por mujeres o hombres haya en la secuencia correcta. Pusimos una secuencia con 11 mujeres y 9 hombres para resaltar este hecho.

Ahora que tenemos el modelo completo y hemos he-cho uso de la afirmación cuya veracidad estamos dis-cutiendo, es el momento de utilizar los datos observa-dos. El valor observado de la variable Xes Xobs =14, y la probabilidad de observar algo tanto o más extre-mo que lo observado es P(X ≥ Xobs) = P(X ≥ 14). Esta probabilidad la podemos calcular sumando

P(X ≥ 14)= 20 Õ k=14 P(X = k)= 1 220 20 Õ k=14 20 k ≈0,13.

Esta probabilidad está representada por la suma de las alturas de las barras rayadas en rojo en la figura de abajo. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.00 0.05 0.10 0.15

Hasta aquí llegan las cuentas. La conclusión es que si estuviera tirando a embocar, embocaría a 14 o más tarjetas con13 %de chances. No es una probabilidad demasiado baja como para concluir que la afirmación es falsa sin dudarlo, pero sugiere que el resultado no es puramente causa del azar.

2.

¿Con o sin reposición?

Muchas veces lo natural es modelar un experimento usando el muestreo sin reposición. Por ejemplo, si que-remos estimar la cantidad de hombres y mujeres en la población uruguaya, y nos disponemos a hacer esto a través de una encuesta, lo natural es tomar una mues-tra de la población sin incluir dos veces a la misma persona.

Supongamos que tomamos una muestra de n = 100

uruguayos, y nos interesa calcular la probabilidad de que haya k mujeres en la muestra, entonces debemos calcular P(X =k)= K k N−K n−k N n ,

en donde N es el total de la población uruguaya, yK es el total de mujeres uruguayas en el momento de la muestra. Asumiendo queN =3440157, al intentar cal-cular las combinaciones en el denominador con una computadora personal, el resultado es el que se mues-tra en la siguiente figura:

(8)

En otras palabras, el denominador en la fórmula de la probabilidad es un número extremadamente grande que la computadora no puede manejar.

Sin embargo, como la cantidad N de bolas en la ur-na es muy grande, es poco probable que si tomamos la muestra con reposición, se elija dos veces la mis-ma bola. Esto sugiere que para una urna con muchas bolas, ambos modelos son en la práctica equivalentes. Vamos a probar que efectivamente la hipergeométrica se puede aproximar por la binomial cuando la urna es suficientemente grande.

Supongamos que tenemos una urna con N bolas de las cuales K son rosadas y extraemos con reposición una muestra de tamañon. La cantidadnde bolas que extraemos será fija y veremos que sucede cuando N es grande. Supondremos ademas que la proporción de bolas rosadas en la urna es aproximadamente constan-te e igual ap= K/N. Dicho de otro modo, la cantidad de bolas rosadas esK =pN.

Consideremos el evento

D= (ω1, . . . , ωn) ∈Ω:ωi,ωj sii, j , que consiste en aquellas muestras en las cuales las bo-las extraídas son todas distintas. Vamos a probar pri-mero que la probabilidad de D tiende a1 cuando N tiende a infinito. El argumento es muy similar al del ejercicio de los cumpleaños.

Por un lado, como todas las secuencias son igualmente probables, tenemos que

P(D)= (ω1, . . . , ωn) ∈Ω:ωi,ωj sii, j |Ω| . El cardinal deDes igual a (ω1, . . . , ωn) ∈Ω:ωi,ωj sii, j = N(N−1) · · · (N− (n−1)),

y el cardinal deΩes igual a Nn. Por tanto

P(D)= N(N−1) · · · (N− (n−1)) N· · ·N = n−1 Ö i=0 1− i N . Notar que la productoria que aparece en el lado de-recho tiene un número fijo, igual a n, de factores. Al hacerN tender a infinito, todos los factores tienden a uno, y por lo tanto también la productoria. En conclu-siónP(D) →1cuando N→ ∞.1

1Aunque no lo hemos escrito explícitamente, para no cargar

la notación, el conjuntoDdepende deN.

Llamemos X a la variable aleatoria que cuenta el nú-mero de bolas rosadas en la muestra. Sabemos que X tiene distribución binomial de parámetrosnyp, y por lo tanto, para cadak entre0yntenemos que

P(X =k)= n k pk(1−p)n−k.

¿Cuál es la distribución deXcondicionada a queDha ocurrido? En otras palabras, cuál es la probabilidad

P X = kD . Por definición P X =kD = P({X= k} ∩D) P(D) .

La probabilidad de D ya la hemos calculado. Debe-mos contar ahora cuántas secuencias pertenecen al evento {X = k} ∩D, esto es, cuántas secuencias tie-nen exactamente k bolas rosadas y además todas las bolas son distintas. Es el mismo conteo que hicimos para deducir la función de probabilidad puntual de la hipergeométrica. Entonces |{X = k} ∩D| = n k (K)k(N−K)n−k.

Para calcular la probabilidad P({X= k} ∩D) basta dividir el cardinal anterior por Nn, y esto da

P({X =k} ∩D)= n k (K)k(N−K)n−k Nn .

Finalmente basta dividir entre la probabilidad de

P(D)=(N)n/Nn para obtener P X =kD = n k (K)k(N−K)n−k (N)n .

Re-agrupando términos se llega a la fórmula de la dis-tribución hipergeométrica.

Conclusión: La distribución hipergeométrica coincide con la distribución binomial condicio-nada a que todas las bolillas extraídas sean dis-tintas.

Usando los dos hechos que probamos hasta ahora po-demos probar el siguiente teorema.

(9)

Teorema (Aproximación de la hipergeométri-ca por la binomial). SeaXNuna variable con dis-tribución hipergeométrica de parámetros N,K, y n. Suponemos quenestá fijo y que K/N = p ∈ [0,1]. Entonces, para todo k entre0yn, tenemos

l´ım N→∞P(XN = k)= n k pk(1−p)n−k Es decir, la distribución de XN tiende a la distri-bución de una variable binomial de parámetrosny

p.

Demostración. Consideremos como antes una urna con N bolas, de las cuales K son rosadas. Extraemos n bolas de la urna con reposición, y denotamos por X la cantidad de bolas rosadas en la muestra. Por lo que vimos antes, sabemos que

P(XN =k)=P(X =k|D)=

P({X = k} ∩D) P(D) .

El denominadorP(D) →1cuandoNtiende a infinito. Para el numerador, observar que

P({X= k} ∩D) ≤P(X =k) ≤P({X = k} ∩D)+P(Dc).

ComoP(Dc) →0, vemos que

P({X = k} ∩D) →P(X =k)= n k pk(1−p)n−k,

que es lo que queríamos probar.

En las figura 5, se muestra en un ejemplo como la distribución hipergeométrica converge a la binomial. En este casop=0,75,n=10, y N varía de40a1200. Notar queK varía de forma tal queK = pN en todos los casos.

Figura 5. Comparación entre Hipergeométrica y Bino-mial.

(10)

Comentario sobre cómo usar la aproximación

Usar la aproximación es muy simple. Si queremos cal-cular alguna probabilidad en la que esté involucrada una variableY con distribución hipergeométrica de parámetrosN,K, yn, debemos hacer lo siguiente:

1. Calculamos el valor dep=K/N.

2. Suponemos que la distribución deY es binomial de parámetrosny p.

Sin embargo, el teorema de que probamos más arriba no nos dice cuál es el error que cometemos al usar la aproximación. El error nos lo da el siguiente resulta-do:

Teorema 2.1. Se consideran las variables aleato-riasY ∼ H(N,K,n)yX ∼Bin(n,p)conp=K/N. Entonces se cumple que para todo0≤ k ≤n:

|P(X= k) −P(Y = k)| ≤1− n−1 Ö i=0 1− i N .

Demostración. Observar primero que vamos a utilizar la aproximación en el caso de queNes grande,nestá fijo yK/N ∈ [0,1]. En este caso, resulta quemn= 0y Mn= n. Por lo tanto, el recorrido de ambas variables

será{k ∈N: 0 ≤ k ≤ n}.

Consideremos como en la sección anterior el suceso D=(ω1, . . . , ωn) ∈Ω:ωi ,ωj sii, j . Se probó queP(Y = k)= P(X = k|D), de donde resul-ta que: |P(X = k) −P(Y = k)| =|P(X= k) −P(X =k|D)| = |P(X = k|D)(P(D) −1) −P(X = k|Dc)P(Dc)| =P(Dc) |−P(X= k|D)+P(X = k|Dc)| ≤ P(Dc)=1−P(D)=1− n−1 Ö i=0 1− i N

En la última igualdad usamos el cálculo ya realizado

para la probabilidad del sucesoD.

Finalmente, utilizando la misma aproximación que en las notas del teórico 1: n

−1 Î i=0 1− Ni ≈ e−n(n−2N1) resulta que: |P(X =k) −P(Y =k)| ≤1−e−n(n−2N1).

En el ejemplo con el cual empezamos esta sección (to-mar una muestra de tamañon=100de la probalción uruguaya), tenemos que N=3440157yK =1777273. De aquí resulta que p = 0,5166. Si usamos la apro-ximación binomial, la fórmula del error nos dice que cometemos un error de a lo sumo 0,00144. Es decir, un error menor al0,1 %.

3.

Descomposición en sumas

Tanto la distribución hipergeométrica como la bino-mial pueden descomponerse como una suma de va-riables que valen cero o uno. Las vava-riables que solo toman los valores cero o una son importantes y se llaman variablesBernoulli. Son las variables más sim-ples, y su distribución queda determinada por la pro-babilidad con la cual toman el valor uno. SiX puede valer0o1yP(X =1)= pdecimos queX tiene distri-bución Bernoulli de parámetro p. Esto lo escribimos X ∼Ber(p).

Veamos entonces como podemos escribir la distribu-ción hipergeométrica como suma de variables Ber-noulli. Supongamos que la urna tiene N bolas, de las cualesK son rosadas y extraemos sin reposición una muestra de tamañon.

Consideremos las n variables X1, . . . ,Xn que indican

si lai-ésima bola es rosada o no. Esto es Xi(ω)=

(

1 siωi es rosada, 0 siωi es celeste.

Entonces el número total de bolas rosadas está dado por X = X1+· · ·+Xn.

Comencemos por determinar la distribución de cada Xi. Para esto basta con calcular la probabilidad de

que Xi sea igual a 1. Entre todas las secuencias deΩ

debemos contar cuántas tienen lai-ésima coordenada rosada. Debemos elegir cuál es la bola rosada entre las K posibles, y el resto de las bolas las elegimos con la única restricción de que la muestra sea sin reposición. Entonces P(Xi=1)= |{ω ∈Ω:ωi es rosada}| |Ω| = K h (N−1) · · · (N− (n−1)) i N(N−1) · · · (N− (n−1)) = K N = p.

(11)

Es decir, la variableXivale uno con probabilidadpen

dondepes la proporciónK/N de bolas rosadas en la urna. Notar que todas las variables X1, . . . ,Xn tienen

la misma distribuciónBer(p).

En el caso con reposición podemos definir las varia-bles X1, . . . ,Xn de la misma forma. En este caso, la

probabilidad de que Xi sea igual a uno tambén es p. El razonamiento es un poco distinto: tenemos N po-sibilidades para cada una de las n− 1 coordenadas distintas de lai-ésima, y K posibles bolas rosadas pa-ra elegir lai-ésima coordenada. Por lo tanto

P(Xi=1)= |{ω ∈Ω:ωies rosada}| |Ω| = K Nn−1 Nn = K N =p.

En conclusión, en cualquiera de los dos casos las va-riables Xi tienen distribución Bernoulli de parámetro

p.

Sin embargo, para disponer de toda la información relevante a estas variables debemos saber cuál es la dependencia entre ellas. Veamos primero el caso con reposición. Consideremos una secuencia arbitraria de

00sy10s, de largon, que denotaremos por(x1, . . . ,xn).

Queremos calcular

P(X1 = x1,X2= x2, . . . ,Xn =xn).

Las condiciones sobre las coordenadas son: si xi = 1

queremos que la bola sea rosada, y si xi = 0 que la bola sea celeste. En el primer caso tenemosK posibi-lidades, y en el segundoN−K. Sir es la cantidad de i0s tales quexi=1, entonces

P(X1= x1,X2 = x2, . . . ,Xn= xn)=

Kr(N−K)n−r

Nn

= pr(1−p)n−r.

Por otro lado, para cada una de las coordenadas tene-mos que P(Xi =xi)= ( p si xi =1 1−p si xi =0 por lo que P(X1 =x1)P(X2 =x2) · · ·P(Xn = xn)=pr(1−p)n−r.

Juntando ambas igualdades deducimos que

P(X1= x1, . . . ,Xn =xn)=P(X1 = x1) · · ·P(Xn= xn).

Esto significa que las variablesX1, . . . ,Xnson

indepen-dientes. Esto es completamente claro desde un punto de vista intuitivo: si extraemos la muestra con reposi-ción, el resultado de la i-ésima extracción no influye sobre el resultado de las otras extracciones.

Claramente este no es el caso si la muestra la obtene-mos sin reposición. Veaobtene-mos por ejemplo qué ocurre con X1 y X2. Por un lado, la probabilidad

P(X1 =1,X2 =1)= K(K−1) h (N−2) · · · (N− (n−1)) i N(N−1) · · · (N− (n−1)) = K(K−1) N(N−1).

Sin embargo, las probabilidades por separado son iguales a p, de donde el producto

P(X1 =1)P(X2=1)=p2 = K2 N2 , K(K−1) N(N−1) =P(X1 =1,X2 =1).

Esto muestra que X1 y X2 no son independientes. En resumen:siX denota la cantidad de bolas rosadas en la muestra, entonces

X = X1+· · ·+Xn con X1, . . . ,Xnindependientes si la muestra es con reposición; X1, . . . ,Xnno independientes si la muestra es sin resposición.

En ambos casos Xi ∼ Ber(p) para todo i = 1, . . . ,n.

O lo que es equivalente:

Si X∼Bin(n,p)entoncesX =X1+· · ·+Xn

con X1, . . . ,Xn Bernoulli de parámetro p

independientes.

Si X ∼ H(N,K,n)entonces X =X1+· · ·+ Xn con X1, . . . ,XnBernoulli de parámetro

p= KN no independientes.

Vale la pena destacar que este resultado para el ca-so con resposición ya lo habíamos visto antes. En las notas anteriores acerca del Teorema de Bernoulli, vi-mos al modelo Binomial como resultado de contar

(12)

el número de éxitos en n ensayos de Bernoulli inde-pendientes, donde la probabilidad de éxito de cada ensayo es p. Entonces, si Xi es la variable aleatoria

que vale 1 si se obtuvo éxito en eli-ésimo ensayo, re-sulta que Xi ∼ Ber(p) y el número total de éxitos es

X = Sn = X1 + X2 +· · · + Xn siendo además las Xi

independientes.

4.

Valor Esperado

Usando este último resultado y la propiedad de linea-lidad del valor esperado visto en las notas anteriores, resulta muy sencillo calcular el valor esperado para las distribuciones Binomial e Hipergeométrica.

Binomial

Si X ∼ Bin(n,p) entonces X = X1 + · · · + Xn con

X1, . . . ,Xn Bernoulli de parámetro p independientes.

Por lo tanto:

E(X)=E(X1+· · ·+Xn)=E(X1)+E(X2)+· · ·E(Xn)

= p+p+· · ·+p=np

Usamos que si Xi∼Ber(p)entoncesE(Xi)= p. Por supuesto utilizando la definición de valor espera-do E(X) = Í k∈RX k P(X = k) = n Í i=0 kCknpk(1− p)n−k, obtenemos el mismo resultado. Es un buen ejercicio de cálculo verificarlo.

Hipergeométrica

Si X ∼ Hip(N,K,n) entonces X = X1 +· · ·+Xn con

X1, . . . ,Xn Bernoulli de parámetro p no

independien-tes. La linealidad del valor esperado vale siempre, por lo tanto, al igual que en el caso anterior obtenemos que: E(X)=E(X1+· · ·+Xn)=E(X1)+E(X2)+· · ·E(Xn) = K N + K N +· · ·+ K N =n K N En resumen: Si X ∼Bin(n,p)entoncesE(X)=np. Si X ∼ H(N,K,n)entoncesE(X)=nKN. Ejemplo 1

Volviendo al ejemplo de Ana y Beto visto antes, tene-mos X ∼ H(N,K,K) representa el número de amigos en común entre ambos. Por lo tanto, el valor espera-do del número de amigos en común está daespera-do por

E(X) = K.KN. En una ciudad de N = 1500000 habi-tantes y asumiendo K = 700 amigos para cada uno, resulta que E(X)=0,37, es decir menos de un amigo en común.

Ejemplo 2

A su vez en el ejemplo del psicólogo, tendremos que el número esperado de pares de estudiantes que eli-gen lugares adyacentes está dado por E(X) siendo X ∼Bin(197,23). Es decirE(X) =19723 =131,2es de-cir unos 131 pares de estudiantes. Observar que esto es coherente con el número efectivamente observado por el psicólogo (134 pares), lo que sugiere que los estudiantes se sientan al azar.

Lecturas recomendadas

George C. Canavos, Probabilidad y Estadística. Aplicaciones y métodos, Capítulo 4, Secciones l, 2 y 4.

Referencias

Documento similar

Let us denote the probability that an incoming burst does not enter the system by β k for k = n−c, n ≥ c where n is the system state (there is balking only for states larger than

N

N2 MUESTRA MACRO MICRO SEDIM.. BLOQUE J-3 NOMBRE: 2MILITAR N? GEOG.:. EMPRESA �k�o

IMPLICAC~N M LA Na,K-ATPasa DEL -BULO PROXlMAL. EN LA NEFROTOXIClDAD

a) hay un total de 93 compuestos (193 fragmentos) en disposición cabeza- cabeza y un total de 308 compuestos (477 fragmentos) en disposición cabeza-cola que cumplen

N Muestra Paleon.. 13 ) PlosiciiónW N

OBSERVACIONES N°