Nota #5. Teoremas l´ımite
Nociones preliminares
En estas notas hablaremos de dos de los teoremas m´as importantes en la Teor´ıa de la Probabilidad: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. Antes de hablar de ellos, debemos mencionar dos conceptos sin los cuales ser´ıa dif´ıcil entender estos teoremas: convergencia de variables aleatorias y la desigualdad de Chebyshev.
1. Convergencia de variables aleatorias: Empezaremos con el siguiente recordato-rio:
Recordatorio. Se dice que una sucesi´on num´ericax1, x2, ...es convergente a un n´umero
real x si para cualquier ε >0 ∃N ∈N tal que ∀n≥N se cumple que |xn−x|< ε. Es decir, a partir deN, los elementos de la sucesi´on se encuentran cercanos al n´umero x.
Por ejemplo, la sucesi´on 1,12,14,18,161, ... es convergente a cero, pues siempre se puede definir un ε >0 tal que la sucesi´on est´e cerca del cero, por ejemplo, si fijamos ε= 1
64,
entonces N = 8, pues a partir del octavo elemento de la serie se cumplir´ıa la desigual-dad que se pide, espec´ıficamente, la sucesi´on es: 1,12,14,18,161 ,321,641,1281 ,2561 , ..., n´otese que el octavo elemento de la sucesi´on es 1
128, en cuyo caso se cumple que | 1
128−0|< 1 64,
pues 1281 < 641 , y lo mismo valdr´ıa para el noveno elemento de la serie, el d´ecimo, etc. Y sin importar el valor que asignemos para ε, siempre y cuando se cumpla que ε >0, podremos encontrar una N ∈Ntal que ∀n ≥N se tiene que |xn−0|< ε.
Ahora bien, si en lugar de una serie num´erica tenemos una sucesi´on infinita de vari-ables aleatorias, ¿c´omo podemos definir convergencia en este caso? Existen al menos cuatro definiciones que se suelen emplear para convergencia de variables aleatorias que mencionaremos a continuaci´on.
Sea X1, X2, ...una sucesi´on infinita de variables aleatorias, todas ellas asociadas a un
mismo espacio de probabilidad (Ω,F,P), aunque no necesariamente independientes e id´enticamente distribuidas.
(a) Convergencia puntual: Es el tipo de convergencia m´as estricta de las que ver-emos. Sea ω ∈Ω. Para cadaω fijo,X1(ω), X2(ω), ... es una sucesi´on de n´umeros
reales, por tanto, se define convergencia puntual de la sucesi´on de variables aleato-rias X1, X2, ...a la variable aleatoria X como:
X(ω) = limn→∞Xn(ω)
Notaci´on: Xn→X; ∀ω ∈Ω
(b) Convergencia casi segura: Este tipo de convergencia es menos estricta que la puntual. Diremos que la sucesi´on de variables aleatorias X1, X2, ... converge casi
seguramente a la variable aleatoria X si: P(ω ∈Ω :Xn(ω)→X(ω)) = 1
En este caso, no necesariamente se cumple queXn(ω)→X(ω); ∀ω ∈Ω, m´as bien exige que aquellos ω∈ Ω para los que no se cumpla, tengan una medida de probabilidad asociada de cero.
Notaci´on: Xn c.s.
−−→X
Ejemplo: La Ley (fuerte) de los N´umeros Grandes
(c) Convergencia en probabilidad: Este tipo de convergencia es menos estricta que los previos dos. Diremos que una sucesi´on de variables aleatorias X1, X2, ...
es convergente en probabilidad a la variable aleatoria X si:
∀ε >0 se tiene que P(ω∈Ω :|Xn(ω)−X(ω)|> ε)→0 cuando n→ ∞
Es decir, la probabilidad de que la distancia entre Xn(ω) &X(ω) sea mayor a ε tiende a cero.
Notaci´on: Xn p
−
→X
Ejemplo: La Ley (d´ebil) de los N´umeros Grandes
(d) Convergencia en distribuci´on: Es la menos estricta de las cuatro convergen-cias. Diremos que una sucesi´on de variables aleatorias X1, X2, ... converge en
distribuci´on a la variable aleatoriaX si:
Cuandon→ ∞ ⇒FXn(x)→FX(x); ∀x dondeFX(x) es continua.
Equivalentemente se puede decir que la sucesi´onX1, X2, ...es convergente en
dis-tribuci´on a la variable aleatoria X si:
limn→∞P(Xn ≤x) = P(X ≤x); ∀x donde FX(x) es continua.
Notaci´on: Xn d
−
→X
Ejemplo: El Teorema Central del L´ımite Debe quedar claro que:
• Toda sucesi´on convergente puntualmente lo ser´a casi con seguridad, pero no toda sucesi´on convergente casi con seguridad ser´a convergente puntualmente
• Toda sucesi´on convergente casi con seguridad ser´a convergente en probabilidad, pero no toda sucesi´on convergente en probabilidad lo ser´a casi seguramente
• Toda sucesi´on convergente en probabilidad lo ser´a en distribuci´on, pero no toda sucesi´on convergente en distribuci´on lo ser´a en probabilidad
• Por transitividad de las implicaciones, toda sucesi´on convergente puntualmente ser´a convergente en probabilidad y en distribuci´on aunque lo rec´ıproco no nece-sariamente se cumple
Figure 1: Representaci´on visual de la convergencia de variables aleatorias
2. Desigualdad de Chebyshev: Sea X una variable aleatoria con media y varianza finitas, µ&σ2 respectivamente. Entonces ∀ε >0:
P(|X−µ| ≥ε)≤ σ 2 ε2
Esta desigualdad establece una cota superior o techo a la probabilidad de que una variable aleatoria tome un valor que diste de su media en m´as de cierta cantidadε >0 (arbitraria).
La Ley de los N´umeros Grandes
Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media
finita µ. Entonces:
Cuandon → ∞ se tiene que n1 Pn
i=1Xi →µ
con convergencia casi segura (Ley fuerte) y convergencia en probabilidad (Ley d´ebil). B´asicamente la Ley de los N´umeros Grandes dice que el promedio o media aritm´etica de una sucesi´on muy grande de variables aleatorias i.i.d. converge a la media o Esperanza de la distribuci´on, cuando ´esta existe y es finita.
[Esbozo de demostraci´on.]
Supongamos que las variables aleatoriasXitienen varianza finitaσ2. SeaSn= 1nPni=1Xi, puesto que por hip´otesis inicial las variables aleatorias Xi son i.i.d.
⇒E(Sn) = E(n1
Pn
i=1Xi) = 1
nE(
Pn
i=1Xi) = 1
n
Pn
i=1E(Xi) = 1
nnµ=µ
⇒V ar(Sn) = V ar(n1
Pn
i=1Xi) = 1
n2V ar(
Pn
i=1Xi) = 1
n2
Pn
i=1V ar(Xi) = 1
n2nσ2 = σ2
n Entonces Sn es una variable aleatoria con media µ & varianza σ
2
n. Recordando que la desigualdad de Chebyshev establece queP(|X−µ| ≥ε)≤ σ2
ε2, en este caso:
⇒P(|Sn−µ| ≥ε)≤(σ 2 n)
1
ε2
⇒P(|Sn−µ| ≥ε)≤ σ 2 nε2
⇒P(|Sn−µ| ≥ε)→0 cuando n→ ∞
⇒ 1
n
Pn
i=1Xi
p
− →µ Observaciones:
1. Tuvimos que suponer adicionalmente que la varianza era finita. No obstante, esto puede no ser el caso, como vimos en las notas de la distribuci´on Pareto; si tenemos X ∼P areto(xm, α) conxm = 1 &α= 1.5, entonces exhibe comportamiento de “cisne negro”, y tiene media finita, pero varianza infinita. La Ley de los N´umeros Grandes abarca ese caso tambi´en, pero este esbozo de demostraci´on no.
2. La convergencia en probabilidad requiere una desigualdad estricta al comparar la dis-tancia con unε >0, pero la desigualdad de Chebyshev emplea una desigualdad no es-tricta. En el caso continuo se puede obviar porque en ese casoP(X =x) = 0 ∀x∈RX, pero en el caso discreto requerir´ıamos otra demostraci´on por esa sutileza.
Ejemplos: A continuaci´on mencionaremos algunos ejemplos de la aplicaci´on de la Ley de los N´umeros Grandes.
1. Lanzamiento de una moneda: Desde que ´ıbamos en la primaria o la secundaria se nos dec´ıa que la probabilidad de obtener un ´aguila en un lanzamiento de moneda era igual a la probabilidad de obtener un sol. Pero quiz´a nuestra curiosidad hac´ıa que lanz´aramos la moneda unas diez veces, de las cuales ve´ıamos que, por ejemplo, en 8 de esos 10 lanzamientos obten´ıamos un ´aguila y s´olo en 2 un sol. Ahora que hemos visto la Ley de los N´umeros Grandes puede que se entienda mejor esta situaci´on. Vamos a simular mil lanzamientos de moneda y ver de esos mil lanzamientos en cu´antos se obtienen ´aguila y en cu´antos sol (en promedio). Sea X1, X2, ..., X1000 una secuencia
de mil variables aleatorias i.i.d. Bern(θ) con θ = 0.5, donde definimos “´exito” como obtener un ´aguila y “fracaso” como obtener un sol. Seg´un la Ley de los N´umeros Grandes, 1nPn
i=1Xi →µ, en este caso, como 1000 es un n´umero relativamente grande,
Si despu´es de cada lanzamiento calculamosSn y despu´es graficamos estos valores con el ensayo correspondiente, veremos que el comportamiento de la serie es convergente precisamente al valor de θ = 0.5 como se muestra en las Figuras 2-41
Figure 2: Primera simulaci´on de mil lanzamientos de moneda
Figure 4: Tercera simulaci´on de mil lanzamientos de moneda
N´otese que en cada simulaci´on la convergencia se da de distinta manera, sin embargo, lo principal es que a medida que aumenta el n´umero de ensayos, la cercan´ıa deSnrespecto a θ = 0.5 es cada vez menor, justo como lo enuncia el esbozo de la demostraci´on que hicimos para convergencia en probabilidad. Otro aspecto importante, es que 1000 es un n´umero relativamente grande, pero tambi´en, bajo ciertos contextos, puede ser interpretado como un n´umero peque˜no, y sin embargo, con una secuencia de tan solo mil variables aleatorias i.i.d. Bern(θ) vemos que la convergencia es bastante buena. 2. Juegos de casino: Una “ruleta europea” tiene 37 distintos n´umeros y supongamos
un juego en el que te pagan 35 fichas si sale el n´umero que eliges, pero pierdes una si no sale. F´acilmente podemos construir una variable aleatoria como sigue:
x 35 -1
f(x) = P(X =x) 371 3637 Si calculamos la Esperanza de esta variable aleatoria: E(X) =Px∈RX xf(x) = (35)(
1
37) + (−1)( 36
37)≈ −0.027 Si uno ve de forma miope las
le da a la Esperanza Matem´atica del juego) es lo suficientemente peque˜no para que la gente regrese por m´as y lo suficientemente grande para que la casa gane en el largo plazo.
Teorema Central del L´ımite
Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media y
varianza finitas µ&σ2 respectivamente. Entonces:
Cuandon → ∞, Zn= (X1+...√+Xn)−nµ
nσ2
d
−
→N(0,1)
Recordemos que en el esbozo de la demostraci´on de la Ley de los N´umeros Grandes definimos Sn = n1
Pn
i=1Xi, la cual es una variable aleatoria con media µ y varianza σ 2 n. Ahora bien, n´otese que el Teorema Central del L´ımite se puede reformular de la siguiente manera:
Zn =
(X1+...√+Xn)−nµ
nσ2 =
(X1+...√+Xn)−nµ
nσ2 (
1/n
1/n) =
X1+...+Xn
n − nµ n √ nσ2 n
= Sn−µ
σ/√n d
−
→N(0,1)
Por otra parte, recordemos que en el caso de una distribuci´on Normal, siX ∼N(µ, σ2),
entonces Z = Xσ−µ ∼N(0,1) es una Normal Est´andar.
Entonces, lo que el Teorema Central del L´ımite sugiere, es que la variable aleatoria Sn se distribuye normalmente, pues al restarle su media (µ) y dividir la diferencia entre su desviaci´on est´andar (√σ
n, conocida como error est´andar de la media aritm´etica muestral), obtenemos una Normal Est´andar, siempre quen sea lo suficientemente grande.
N´otese, sin embargo, que uno de los requisitos para que se cumpla el Teorema Central del L´ımite es que las variables aleatoriasX1, X2, ...deben tener media y varianza finitas. De
nueva cuenta esto no necesariamente aplicar´ıa para una sucesi´on de variables aleatorias i.i.d. X1, X2, ... ∼ P areto(xm, α) con α = 1.5, y dadas las aplicaciones que se mencionaron en notas previas de la Regla 80-20 o la Ley de Price, es claro que no es despreciable el n´umero de situaciones cotidianas para los cuales no aplica este Teorema.
No es cuesti´on sencilla la demostraci´on de este Teorema, por lo que no la incluiremos. La prioridad es que se entienda c´omo interpretar este Teorema, as´ı como sus limitaciones.
Ejemplos: A continuaci´on ilustraremos el Teorema Central del L´ımite con algunas sim-ulaciones hechas en R 2:
1. Distribuci´on Normal: Supongamos que la estatura de una poblaci´on se distribuye normalmente con media µ = 170cm & varianza σ2 = 225, i.e. la desviaci´on est´andar
es de σ= 15. Pensemos en los siguientes “experimentos”:
• Experimento 1: Extraer una muestra aleatoria (con reemplazo) de 9 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
• Experimento 2: Extraer una muestra aleatoria (con reemplazo) de 225 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
• Experimento 3: Extraer una muestra aleatoria (con reemplazo) de 10,000 per-sonas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
Para cada uno de los experimentos se puede obtenerSn &Zn. En el experimento 1 por ejemplo,SnesS9, pues el tama˜no de la muestra es 9 y se est´an promediando 9 estaturas
a la vez. Por hip´otesis inicial las estaturas observadas provienen de una distribuci´on N(170,225), entonces sabemos que σ = 15 y se dijo que n = 9, por tanto, Zn =Z9 =
Sn−170 15/√9 =
Sn−170
5 . Como estamos repitiendo el experimento 5,000 veces, habr´a 5,000
valores para Sn y 5,000 valores para Zn. Las Figuras 5-7 muestran los resultados de estos experimentos (simulados), representados por medio de un Histograma. N´otese que conforme el tama˜no de la muestra es mayor, i.e. conforme n → ∞, los valores de Snse desv´ıan muy poco de la media poblacionalµ= 1703. Por otra parte, parece que Zn se distribuye Normal Est´andar en los tres casos, esto se debe a que el experimento se repiti´o un n´umero relativamente grande de veces: 5000.
Figure 5: Resultados del Experimento 1 3Esto debe de tener sentido para el lector porque se mencion´o queS
nes una variable aleatoria con media
µ y varianza σn2, entonces a medida que n → ∞, la varianza de Sn disminuye. La distribuci´on de Sn es
Figure 6: Resultados del experimento 2
Figure 7: Resultados del experimento 3
2. Distribuci´on Poisson: Supongamos el ejemplo de la Tarea 3, donde se modela el n´umero de aviones que llegan a un aeropuerto internacional cada 10 minutos con una distribuci´on Poisson con par´ametro λ = 3 4. Pensemos en los siguientes
“experimen-tos”, parecidos a los detallados en el inciso anterior:
• Experimento 4: Tomar una muestra aleatoria de 9 intervalos de 10 minutos, regis-trar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
• Experimento 5: Tomar una muestra aleatoria de 225 intervalos de 10 minutos, registrar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
De forma an´aloga al inciso anterior, podemos calcular Sn & Zn. Las Figuras 8 y 9 muestran los resultados de los experimentos.
Figure 8: Resultados del experimento 4
Figure 9: Resultados del experimento 5
3. Distribuci´on Gamma: Supongamos que una variable aleatoria X ∼ Gamma(α, λ) subyace cierto proceso, con α = λ = 2 . Pensemos en los siguientes “experimentos” parecidos a los mencionados en los dos incisos previos:
• Experimento 6: Extraer una muestra aleatoria (con reemplazo) de 9 valores, reg-istrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
• Experimento 7: Extraer una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
De forma an´aloga a los dos incisos anteriores, podemos calcular Sn &Zn. Las Figuras 10 y 11 muestran los resultados de los experimentos.
Figure 10: Resultados del experimento 6
N´otese nuevamente, que conforme n → ∞ la varianza de Sn disminuye. En este caso la distribuci´on de Zn se parece m´as a la Normal Est´andar que en el caso de la Poisson. Se le sugiere al lector buscar aplicaciones de la distribuci´on Gamma para que sea m´as significativo.
4. Distribuci´on Pareto: Supongamos dos distribuciones Pareto distintas que subyacen dos fen´omenos distintos (como los mencionados en las notas): X ∼ P areto(xm, α1)
con xm = 1 &α1 = 3 & Y ∼ P areto(ym, α2) con ym = 1 & α2 = 1.5. Pensemos en el
siguiente experimento para la variable aleatoria X:
• Experimento 8: Obtener una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
La Figura 12 muestra los resultados del experimento 8.
Figure 12: Resultados del experimento 8
N´otese que en este caso, por el valor del par´ametro α1, la distribuci´on tiene media
y varianza finitas, lo cual tiene como consecuencia que la distribuci´on muestral de la media aritm´etica muestral (i.e. la distribuci´on de Sn) es aproximadamente Normal. Por otra parte, pensemos en los siguientes experimentos para la variable aleatoriaY:
• Experimento 9: Obtener una muestra aleatoria (con reemplazo) de 25 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
• Experimento 11: Obtener una muestra aleatoria (con reemplazo) de 900 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.
La Figura 13 muestra los resultados de estos experimentos.
Figure 13: Resultados de los experimentos 9, 10 & 11
N´otese que Sn NO se distribuye normalmente. Adem´as, es imposible de calcular Zn, pues la varianza es infinita.
Con esto terminamos la primera parte del curso: el estudio de la Probabilidad. En lo que sigue se estudiar´a propiamente la Estad´ıstica, es decir, el problema de hacer inferencias sobre la poblaci´on con base en una muestra.
Una forma de entender mejor la diferencia entre Probabilidad y Estad´ıstica es entendiendo la diferencia entre razonamiento deductivo y razonamiento inductivo:
• El razonamiento deductivo va de lo general a lo particular, se basa en axiomas, premisas y haciendo uso de reglas de inferencia 5 combina la informaci´on dada por los axiomas
y las premisas y llega a conclusiones. Si los axiomas y las premisas son verdaderas, entonces necesariamente la conclusi´on ser´a verdadera, siempre y cuando se hayan em-pleado correctamente las reglas de inferencia. Por ejemplo:
Todos los hombres son mortales. S´ocrates es un hombre.
∴ S´ocrates es mortal.
• Por otra parte, el razonamiento inductivo va de lo particular a lo general, y las con-clusiones a las que se llega no necesariamente son verdaderas aunque las premisas de las que uno parta lo sean. Por ejemplo:
Se lanza una moneda justa100 veces, de las cuales, 47 veces cae ´aguila.
Se modela con una distribuci´on Binomial: X ∼Bin(n, θ), donde n = 100, y se define como ´exito que caiga ´aguila⇒ fueron 47 ´exitos.
Se usa el estimador m´aximo veros´ımil para el par´ametro θ, i.e. ˆθM LE = n1
Pn
i=1Xi =
1
n(X1+...+Xn) =
1
100(X1+...+X100) = 1
100(47) = 0.47
Se concluye que ˆθM LE = 0.47, i.e. la probabilidad de que caiga ´aguila es de 0.47 La Teor´ıa de la Probabilidad usa primordialmente el razonamiento deductivo, por eso comenzamos el curso mencionando lo necesario para construir la teor´ıa: se necesita un conjunto de resultados (Ω) asociado a un experimento aleatorio (ε). Despu´es, al conjunto de resultados le asociamos una σ-´algebra llamada “espacio de eventos” (F), para despu´es poder definir una funci´on, llamada “medida de probabilidad” (P) que nos permita por as´ı decirlo, “medir el grado de creencia” que tenemos de que se materalice un evento u otro de todos los eventos contemplados en F, siempre y cuando la medida sea consistente con los Axiomas de Kolmogorov.
Despu´es definimos una variable aleatoria (y tambi´en vector aleatorio) que pod´ıa ser disc-reta o continua y mencionamos muchos conceptos asociados (que fue la parte aburrida del curso): funciones de masa o densidad de probabilidad, funciones de distribuci´on, momentos centrales y crudos, funci´on generadora de momentos, esperanza, varianza, sesgo, curtosis, cuantiles, moda, distribuciones condicionales, distribuciones marginales, independencia de variables aleatorias, covarianza, correlaci´on, etc.
a ciertas regularidades conocidas como Teoremas L´ımite: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. En esta parte del curso hemos recurrido en ocasiones a demostraciones o esbozos de demostraci´on, pues es la forma de exhibir que estamos emple-ando correctamente las reglas de inferencia para llegar a conclusiones verdaderas (siempre y cuando sean verdaderos los axiomas y las premisas de las cuales partimos).