Teorema de Bernoulli

(1)

Introducción. En este escrito exponemos de forma detallada elTeorema de Bernoulli. Inroducimos primero el modelo de distribución Bernoulli parámetro p, ofreciendo una discusión sobre el sentido del teorema que nos ocupa. En la sección inmediata, formalizamos el concepto de independencia para vari-ables aleatorias (y ensayos) Bernoulli e introducimos el modelo de distribución binomial como una suma finita de variables aleatorias Bernoulli independi-entes y con mismo parámetrop. Complementariamente se probarán algunos propiedades útiles para la prueba delTeorema de Bernoulli, el cual se enuncia y se demuestra en la última parte de este texto.

Lo aqu´ı expuesto está basado enteramente en las referecias bibliogáficas que aparecen al final. Estas páginas están dedicadas a los autores.

Contenido

1. Ensayos Bernoulli 2

2. Modelo de probabilidad y distribuci´on Bernoulli 3 3. Modelo de probabilidad y distribuci´on binomial 4

4. Teorema de Bernoulli 10

Referencias 12

1. _{Ensayos Bernoulli}

Definición 1(Ensayo Bernoulli). Unensayo Bernoullies un fenómeno aleatorio que solo admite dos posibles eventualidades, uno denominadoéxitoy otrofracaso.

Los ejemplos cl´asicos de ensayos Bernoulli son los juegos de azar que consisten en “ganar” o “perder”, como los volados, la loter´ıa y ciertos juegos de apuesta con cartas.

Probabilidad de éxito en un ensayo Bernoulli. Un ensayo Bernoulli está asociado a un parámetropdeterminado por la probabilidad de obtener éxito en la realización del ensayo. Definimos los parámetros

p:= Probabilidad de ´Exito y q= 1−p:= Probabilidad de Fracaso.

Ensayos Bernoulli independientes. Dos (o más) ensayos Bernoulli son independientessi la realización de alguno de ellos (o algunos de ellos) no altera en forma alguna, en términos estocásticos, el resultado de ningún otro (o ningunos otros). En tal caso, diremos que se trata de una sucesión (finita o infinita) de ensayos Bernoulli independientes. Lanzar sucesivamente una moneda (o monedas distintas cada vez) constituye el ejemplo t´ıpico de sucesión de ensayos Bernoulli independientes.

(2)

Sucesión de ensayos Bernoulli independientes con misma probabili-dad de éxito. Debemos remarcar que las propiedades caracter´ısticas de un ensayo Bernoulli son puramente estocásticas. Es decir, dos (o más) ensayos Bernoulli se distinguen entre s´ı, según si las probabilidades de éxito (y por ende, las de fracaso) de cada uno de ellos son también distintas. Una sucesión de repeticiones indepen-dientes (es decir, bajo las mismas e igualitarias condiciones) de un mismo ensayo Bernoulli (como lanzar la misma modena), se interpreta como una sucesión de en-sayos Bernoulli independientes con la misma probabilidad de éxito. Por ejemplo, lanzar una misma moneda 10 veces es equivalente a lanzar 10 modenas idénticas (aunque en la práctica ello puede parecer imposible).

Principio de regularidad de las frecuencias relativas. La forma en que se determina el parámetropno es una cuestión trivial. Por ejemplo, pensemos en el t´ıpico experimento de lanzar una modena al aire (volado). Decimos que una moneda eshonestasi observamos, tras varios lanzamientosindependientes que la regularidad con la que resulta águila es cercana al 50% de las veces, y en este caso, ateniendonos a un esquema de razonamiento frecuentista, aceptamos que la probabilidad de éxito (o fracaso) es 0.5. Esto es, ambos resultados son equiprobables.

En general, aún cuando la moneda podr´ıa estar cargada hacia un resultado, ya sea águila o sol, en la práctica, es posible observar que la regularidad frecuentista con la que ocurre tanto sol como águila tiende a ser estable, de modo que en principio, podemos aceptar que hay un valor “teórico” para las probabilidades de que la moneda caiga sol o bien águila, y que las distintas frecuencias relativas, tras numerosas sucesiones de repeticiones independientes del volado, son estimaciones de dicho valor teórico. Este hecho emp´ırico es conocido comoPrincipio de regularidad de las frecuencias relativas.

No obstante, podr´ıamos cuestionar si es válido “aproximar” el supuesto valor teórico de las probabilidades de éxito y fracaso (los parámetros p y q) mediante sucesiones de repeticiones independientes del volado, en tanto que, en apariencia, no hay manera de saber qué número de volados hay que realizar para aproximar, dentro de un margen de error establecido a priori, los valores de los parámetros p y q. Y por otro lado, aunque en la práctica, desde siempre, se ha aceptado que el valor de p, sea cual fuere, puede aproximarse por este razonamiento de regularidad frecuentista, hasta el trabajo de Bernoulli no hab´ıa manera de justificar de algún modo esta v´ıa en la determinación depyq, al menos dentro de una teor´ıa matemática consistente.

ElTeorema de Bernoulli. Bernoulli trabajó, según sus propias palabras, cerca de 20 años en este problema. Bernoulli dio la primera forma matemática rigurosa de comprender una teor´ıa de la probabilidad basada en los principios frecuentistas comunmente aceptados. Dentro de este marco teórico, demostró finalmente que en términos estocásticos (lo cual es relevante señalar), el esquema frecuentista de razonamiento en la aproximación del parámetro p, es efectivo. Intuitivamente, el

Teorema de Bernuolli afirma que, dado un margen de error previamente estable-cido, tras un número grande de realizaciones independientes de un mismo ensayo Bernoulli, la diferencia entre la frecuencia relativa con que ocurre éxito y el valor teórico del parámetrop, es muy probablemente menor a dicho margen.

(3)

actuales, se puede probar que, de hecho, es “casi seguro” que el valor teórico (supuesto) de p es próximo a la la frecuencia relativa con que ocurre éxito, tras un número grande de repeticiones sucesivas e independientes de un mismo ensayo Bernoulli. Esto se conoce ahora como Ley fuerte de los grandes números (para el caso de ensayos Bernoulli).

Aunque el Teorema de Bernoulli señala que es pausible determinar mediante regularidad frecuentista el valor depen una sucesión de ensayos Bernoulli indepen-dientes, es importante observar que estos enunciados están expresadas en términos estocásticos, como algo que sucede muy probablemente, y de ninguna manera son conlusiones deterministas.

2. Modelo de probabilidad y distribuci´on Bernoulli

Al margen de toda discusión relativa al Principio de regularidad de las frecuen-cias relativas, cualquier ensayo Bernoulli tiene un modelo matemático preciso. Si denotamos comoE el evento “se obtiene éxito” yF el evento “se obtiene fracaso”, entonces la clase de eventos es la familia de conjuntos complementariosF={E, F}. Sipdenota la probabilidad de éxito, entonces la medida de probabilidad queda de-terminada con las fórmulas

P(E) =p y P(F) = 1−p=q.

Debemos notar que el espacio muestral puede tener diversas formas, como en los siguientes ejemplos.

Ejemplo 1. Supongamos que lanzamos una moneda honesta. Podemos describir el espacio muestral comoΩ ={s, a}, dondes=“sol” ya=“águila”. Si definimos éxito como “cae sol” y fracaso como “cae águila”, entoncesE={s} y F ={a}. Luego, dado que la moneda es honesta, P(E) = 12 =P(F). En general, si la probabilidad

de que la moneda caiga en sol es p∈[0,1], entonces _P(E) =py_P(F) = 1−p=q.

Ejemplo 2. Un juego consiste en extraer una bola de una urna que contiene

50 bolas numeradas. Se gana el juego si la bola extra´ıda está marcada con un número primo. En este juego, el espacio muestral es la colección Ω ={1, ...,50}. Suponiendo que el juego es justo, la probabilidad de extraer cualquiera de las bolas es ₅₀1. Por otro lado, el evento éxito es el conjunto E = {2,3,5, ....,50}, o bien,

E={1≤n≤50 :n es primo}. As´ı,

P(E) = 15 50 =

3

10 y P(F) = 1−P(E) = 7 10.

Es posible modelar cualquier ensayo Bernoulli mediante una variable aleatoria param´etrica.

Definici´on 2 (Variable aleatoria Bernoulli). Una variable aleatoria discretaX es

Bernoulli de par´ametro p∈[0,1] si solo toma los valores1 y 0, con probabili-dadespy 1−prespectivamente.

Esto es, en un espacio de probabilidad (Ω,F,P), una v.a. X: Ω→Res Bernoulli de parámetrop, conp∈[0,1], si el rango deX es el conjunto{0,1}y la función de probabilidades deX está dada por

(4)

Ejemplo 3. Si sabemos que una modena es honesta, entonces la v.a. X que es igual a 1 si se obtiene sol al lanzar la moneda (éxito), y vale 0 cuando cae águila, es una Bernoulli de parámetro 1₂.

Ejemplo 4. Un juego consiste en extraer una bola de una urna que está compuesta de 8 bolas negras y 12 rojas. El juego se gana (éxito) si se obtiene bola negra. Definimos X como la v.a. que vale 1 en caso de éxito y 0 en caso de fracaso. EntoncesX es Bernoulli de parámetro ₂₀8.

3. Modelo de probabilidad y distribuci´on binomial

Modelo de probabilidad binomial. Muchos fenómenos aleatorios pueden descomponerse en una sucesión finita de ensayos Bernoulliindependientes uno de otro. Un ejemplo t´ıpico consiste en lanzar cierto número de veces una misma moneda (balanceda o no) en condiciones de igualdad. Aqu´ı de se trata de una serie de ensayos Bernoulli con igual probabilidad de éxito. O bien, realizar tantos lanza-mientos como monedas distintas se tenga. Aqu´ı se trata de ensayos Bernoulli con distintas probabilidades de éxito. El modelo estocástico aplicado a los fenómenos consistentes en una serie finita de ensayos Bernoulli independientes con igual pro-babilidad de éxito es conocido comomodelo binomial de probabilidad. En lo que sigue describimos cómo construir este modelo.

Espec´ıficamente, supongamos que un experimento aleatorio consiste en una sucesión de n ensayos Bernoulli independientes con igual probabilidad de éxito p ∈ [0,1]. El problema es encontrar un modelo de probabilidad adecuado a este fenómeno.

El punto central será la condición de independencia de los ensayos Bernoulli. Dicha condición, impuestaa priori, no es siempre absoluta desde un punto de vista práctico. Por ejemplo, podemos cuestionar si es realmente posible lanzar dos veces la misma monedaexactamentebajo las misma condiciones.

Omitiendo esta cuestión, en cuanto al modelo teórico, la condición de inde-pendencia tiene una clara formulación matemática. En efecto, si Ei denota el

evento “se obtiene ´exito en eli-´esimo ensayo”, yFi el evento “se obtiene fracaso”,

para 1 ≤i ≤n, y si suponemos que _P es una medida de probabilidad adecuada, entonces, en primer lugar,

P(Ei) =p y P(Fi) =q= 1−p, 1≤i≤n,

y por otra parte, para cualquier colecci´on finita de ´ındices 1≤i1< i2<· · ·im≤n,

los eventos Ai1,...,Aim, donde cada literalA puede sustituirse por las literalesE ´o

F, son independientes respecto aP. Por ejemplo,

(2) P(E1∩E3∩F6∩E7) =P(E1)P(E3)P(F6)P(E7) =p3q

Es fácil entender estas cualidades de P si asuminos que ningún ensayo Bernoulli altera o modifica a ningún otro, en términos estocásticos.

Ahora bien, hay que notar que todo el experimento queda descrito mediante los conjuntos de la forma

Ai1∩Ai2∩ · · · ∩Aim,

donde 1≤i1< i2 <· · ·< im≤n, y la literalApuede sustituirse con las literales

(5)

muestral Ω (sea cual sea). Por lo que la medida de probabilidad buscadaPqueda completamente determinada por las probabilidades

P(Ai1∩Ai2∩ · · · ∩Aim) =P(Ai1)P(Ai2)· · ·P(Aim) =p

a_qb_,

dondeaes el número de éxitos en la colecciónAi1,...,Aim, ybel número de fracasos.

Ejemplo 5. Un juego de azar consiste en extraer una bola de una urna que contiene

50 bolas numeradas del 1 al 50. El juego se gana si se obtiene una bola marcada con un n´umero primo. ¿Cu´al es la probabilidad de ganar al menos5 veces en una serie de10repeticiones independientes del juego?

Notamos primero que el espacio muestral Ωest´a constituido por todas las suce-siones ordenadas de10 n´umeros

(n1, ..., n10), donde 1≤ni≤50, para 1≤i≤10.

Por otro lado, si Ei denota el evento “se gana en el i-´esimo juego” (´exito), para cada1≤i≤10, entonces

Ei={(n1, ..., n10)∈Ω : ni es primo}.

De modo que

P(Ei) =

509_·₁₅ 5010_·₁₅ =

3 10

Por tanto, la probabilidad de perder (fracaso) en eli-´esimo juego es

P(Fi) = 1−P(Ei) =

7 10.

Ahora, para ganar exactamente kveces en la serie de 10 repeticiones del juego, deben suceder exactamente k extracciones con n´umero primo, lo cual ocurre una cantidad de 10_k

de formas posibles. Luego, seg´un el principio de aditividad finita, la probabilidad de ganar exactamentek veces en la corrida de10juegos es

₁₀

k 3 10

k ₇

10

10−k

.

Finalmente, por el mismo principio de aditividad finita, la probabilidad de ganar al menos5 juegos en la serie de10 juegos est´a dada por

10

X

k=5

₁₀

k 3 10

k ₇

10

10−k

.

Variables aleatorias Bernoulli independientes. Podemos introducir un número finito de variables aleatorias Bernoulli (tantas como ensayos Bernoulli) para modelar cada uno de las repeticiones del mismo ensayo Bernoulli. Concretamente, seaXi la v.a. Bernoulli parámetropcorrespondiente a lai-ésima repetición de un

ensayo Bernoulli (par´ametrop), 1≤i≤n. Es decir, Xi es una variable aleatoria

que admite el valor 1 si se obtiene ´exito en eli-´esimo ensayo Bernoulli, y 0 si sucede fracaso.

La extensi´on del concepto de idependencia para estas variables aleatorias es entonces natural. Por ejemplo, podemos reescribir la igualdad (??), como

(6)

Definición 3. Decimos que las variables aleatorias X1, X2,...,Xn Bernoulli con probabilidad de éxito p ∈ [0,1], definidas sobre un mismo espacio de probabili-dad (Ω,F,P), son independientes si para cualesquiera números xj ∈ {0,1}, j =

1, ..., m≤n,

(3) P[Xi1 =x1, ..., Xim =xm] =P[Xi1 =x1]× · · · ×P[Xim =xm].

Dado que P(Xk = xi) = pxi(1−p)1−xi, entonces la igualdad (??) tiene la

expresi´on espec´ıfica

P[Xi1 =x1, ..., Xim =xm] =p

Pm

j=1xj₍₁₋_p)m−Pmj=1xj_.

Note que esta probabilidad depende ´unicamente de los n´umerosx1,...,xm y de la

muestrax1,...,xm.

Suma de variables aleatorias Bernoulli independientes. Distribuci´on Binomial. En n ensayos Bernoulli con probabilidad de ´exito p, si Xi es la v.a.

Bernoulli par´ametro pcorrespondiente al i-´esimo ensayo, i = 1, ..., n, entonces la variable aleatoriaX definida como la suma de tales variables aletorias, es decir,

X:=X1+X2+· · ·+Xn,

cuenta el número de éxitos obtenidos en la sucesión denensayos Bernoulli. Para un valork∈ {0, ..., n}, la v.a. X es igual a kunicamente cuando´ kde las nvariablesX1,...,Xn toma el valor 1, y las restantesn−ktoman el valor 0. Esta

hecho sugiere c´omo debe ser la disribuci´on deX.

Teorema. Supongamos que X1,...,Xn son variables aleatorias independientes con misma distrución Bernoulli parámetrop∈[0,1], definidas sobre un mismo espacio de probabilidad (Ω,F,_P). Entonces la función de probabilidades de X :=Pn

i=1Xi

est´a dada por

pX(k) :=P(X=k) =

_n

k

pk(1−p)n−k,

parak= 0, ..., n.

Demostraci´on. Claramente, el rango deX es el conjuntoR={0,1,2, ..., n}. Para cadak∈R, definimos la clase de subconjuntos

Γk ={A⊂R:|A|=k}.

Por ejemplo, Γ0={∅}, Γ1={{0},{1}, ...,{n}}y Γn={{0,1,2, ..., n}}. Entonces

|Γk|=

_n

k

.

La clase Γk respresenta todas las formas posibles en que podemos elegirkensayos

denensayos realizados.

Ahora, para cadaA∈Γk definimos el evento

SA=



 \

j∈A

(Xj= 1)



 \



 \

j /∈A

(Xj= 0)



.

Es decir, después de realizar una particular elección dekensayos denrealizados (el eventoA),SA es el caso en donde se obtienen exactamentekéxitos (o

(7)

independientes del ensayo Bernoulli. Por independencia, tenemos

P[SA] =



 Y

j∈A

P[Xj = 1]



×



 Y

j /∈A

P[Xj = 0]





=pk(1−p)n−k.

Por otro lado, siA, B∈Γk, entoncesA6=B si y s´olo si SA∩SB =∅. Adem´as,

(X=k) = (X1+X2+· · ·+Xn=k) =

[

A∈Γk

SA.

De este modo,

P[X =k] =

X

A∈Γk

P[SA]

=|Γk|pk(1−p)n−k

=

_n

k

pk(1−p)n−k.

Esta distribución, que depende de dos parámetrosn y p, es también conocida con un nombre especial dada su relevancia.

Definici´on 4. Decimos que una variable aleatoriaXtienedistribuci´on binomial

parámetrosn∈N yp∈(0,1), si la función de probabilidades de X está dada por

pX(x) =

_n

k

px(1−p)n−x,

parax∈ {0, ..., n}.

Ejemplo 6. Pensemos en experimento descrito en el ejemplo ??. Definimos Xi como la v.a. que toma al valor 1 si se obtiene número primo en la i-ésima ex-tracción y 0 si no, 1≤i≤n. Claramente, las variables aleatorias X1,...,X10 son Bernoulli independientes de parámetro ₁₀3. De modo queX=P10

i=1Xies binomial de par´ametrosn= 10y p= 3

10. De modo que la probabilidad de obtener al menos 5 n´umero primos en10 extracciones es

P(X ≥5) = 10

X

k=5

P(X=k) = 10

X

k=5

₁₀

k 3 10

k ₇

10

10−k

.

Podemos programar en Octave este ejemplo. Describimos el código a contin-uación. Creamos primero la función binomial con el código

function y=fp_binomial(x,n,p) >for i=1:length(x)

>y(i)=(nchoosek(n,x(i)))*(p^x(i))*((1-p)^(n-x(i))); >end

>endfunction

(8)

>x=0:10;

>y=fp_binomial(x,10,0.33); >stem(x,y,’-.k’)

Obtenemos

0 0.05 0.1 0.15 0.2 0.25

0 2 4 6 8 10

Figure 1. Distribuci´on binomial par´ametrosn= 10 yp= 0.33.

El valor máximo se alcanza en x = 3. Antes de este valor, la distribución es creciente, en seguida la distribución decrece. A continuación verificamos que este comportamiento de “campana”, es caracter´ıstico de la distribución binomial, el cual liga esta distribución con una de las distribuciones más importantes, la distribución normal o gaussina.

Sixes un n´umero real, recordemos quebxcdenota la parte entera dex, esto es el m´aximo entero menor o igual quex.

Teorema. SiX es una variable aleatoria con distribuci´on binomial con par´ametros

n y p (0 ≤ p < 1), entonces la funci´on de probabilidades pX es creciente en

{0,1, ...,bp(n + 1)c}, y es decreciente en {bp(n + 1)c, ..., n − 1, n}. As´ı,

pX alcanza su valor m´aximo en k = bp(n+ 1)c. Si p = 1, pX es creciente y el valor m´aximo se alcanza enk=n.

Demostración. Si p= 0 ó p= 1, la afirmación es obvia. Supongamos 0 < p <1, entoncesp(n+ 1)< n+ 1, luegop(n+ 1)≤n. Por tanto 0≤ bp(n+ 1)c ≤n.

Ahora, seaj ∈ {1, ..., n−1}. Entonces

pX(j−1)

pX(j)

=

n j−1

pj−1₍₁₋_p)n−j+1

n j

pj₍₁₋_p)n−j

(9)

De este modo,

pX(j−1)< pX(j) ⇔

pX(j−1)

pX(j)

<1

⇔ j(1−p) (n−j+ 1)p<1 ⇔ j−jp < np−jp+p ⇔ j < p(n+ 1)

⇔ j≤ bp(n+ 1)c.

EntoncespX es creciente en{0,1, ...,bp(n+ 1)c}.

Por otra parte, sij∈ {0,2, ..., n−1}, entonces

pX(j)

pX(j+ 1)

=

n j

pj(1−p)n−j

n j+1

pj+1₍₁₋_p)n−j−1

=(j+ 1)(1−p) (n−j)p .

De este modo,

pX(j)> pX(j+ 1) ⇔

pX(j)

pX(j+ 1)

>1

⇔ (j+ 1)(1−p) (n−j)p >1 ⇔ j−jp+ 1−p > np−jp

⇔ j > p(n+ 1)−1 ⇔ j≥ bp(n+ 1)c.

EntoncespX es decreciente en{bp(n+ 1)c, ..., n−1, n}.

De lo anterior se sigue quepX alcanza su valor m´aximo enk=bp(n+ 1)c.

Naturalmente, siX tiene distribución binomial y cuenta el número de éxitos en nensayos Bernoulli, entoncesn−X, que cuenta el número de fracasos en el mismo número de ensayos Bernoulli, tiene también distribución binomial.

Proposici´on. SiX es una variable aleatoria binomial par´ametrosnyp, entonces

Y = n−X es una variable aleatoria con distribuci´on binomial par´ametros n y

q= 1−p.

Demostraci´on. Claramente el rango deY es el conjunto{0,1, ..., n}. Ahora, sikes un n´umero en este rango, entonces

P[Y =k] =P[n−X =k] =P[X =n−k] =

_n

n−k

pn−k(1−p)n−(n−k)

=

_n

k

qk(1−q)n−k.

(10)

4. Teorema de Bernoulli

Ahora estamos en condiciones de probar el resultado principal de estas notas.

Teorema de Bernoulli. Supongamos que para cada n ≥1, X1,...., Xn es una colección de variables aleatorias independientes, cada una de ellas con distribución Bernoulli parámetrop, donde0≤p≤1. Entonces, para toda >0

lim

n→∞P

Pn

i=1Xi

n −p

> = 0.

Demostraci´on. Paran∈_Nconsideremos la variable aleatoriaZn =P n

i=1Xi.

En-toncesZn tiene distribuci´on Binomial par´ametrosny p. Para cadaj ∈ {1, ..., n},

para reducir notaci´on, definimos

tj=P[Zn=j] =

_n

j

pj(1−p)n−j.

Tambi´en nombramos

sj =

tj

tj−1

=

n j

pj₍₁₋_p)n−j n

j−1

pj−1₍₁₋_p)n−j+1

=(n−j+ 1)p j(1−p) .

Dado que n−j+ 1< n−j+ 2 y j−1< j, entonces (n−j+ 1)(j−1)<(n−j+ 2)j, de aqu´ı,

sj =

(n−j+ 1)p j(1−p) <

(n−j+ 2)p

(j−1)(1−p) =sj−1. Es decir, la colecci´on de n´umeros{sj}nj=1 es decreciente.

Ahora, consideremosj≥k >(n+ 1)p, entonces

tj=

tj

tj−1

tj−1=sjtj−1≤sktj−1,

de donde

tj≤sktj−1≤s2ktj−2≤ · · · ≤s

j−k

k tj−(j−k)=s

j−k k tk.

Por lo tanto,

P[Zn ≥k] = n

X

j=k

tj ≤tk n

X

j=k

sj_k−k,

y dado que

n

X

j=k

sj_k−k= 1−s

n−k+1

k

1−sk

< 1 1−sk

= k(1−p) k−(n+ 1)p,

se sigue

(4) P[Zn≥k]<

k(1−p) k−(n+ 1)ptk.

Ahora bien, seam= [(n+ 1)p] (notamos que, por definici´on,m≤(n+ 1)p). Dado que

(11)

entonces

1>P[k > Zn≥m] =tm+tm+1+· · ·+tk−1>(k−m)tk≥(k−(n+ 1)p)tk,

de donde

tk <

1 k−(n+ 1)p. Comparando con (??),

P[Zn ≥k]<

k(1−p) (k−(n+ 1)p)2.

Sea > 0 y sea n ∈ N tal que n > 1 (propiedad arquimideana). Sea k0 = [n(p+)] + 1. Observamos quek0es el ´unico entero tal que

n(p+ 1)< n(p+)< k0≤n(p+) + 1.

De este modo,

P

Pn

i=1Xi

n −p >

=_P

_Z

n

n −p >

=P[Zn > n(p+)]

=P[Zn ≥k0]

< k0(1−p) (k0−(n+ 1)p)2

≤ (np+n+ 1)(1−p) (np+n+ 1−(n+ 1)p)2

=(np+n+ 1)(1−p) (n+p)2 .

Por lo tanto

lim

n→∞P Pn

i=1Xi

n −p >

= 0. Ahora bien, p− Pn

i=1Xi

n >

=

p−Zn n >

=

_n₋_Z

n

n −(1−p)>

=

_Y

n

n −q >

,

donde q = 1−p y Yn = n−Zn tiene distribuci´on binomial par´ametros n y q.

Entonces, repitiendo todo el proceso anterior, obtenemos que

lim

n→∞P

p−

Pn

i=1Xi

n >

= 0.

Por lo tanto,

lim

n→∞P

Pn

i=1Xi

n −p