Teoremas limite

(1)

Nota #5. Teoremas l´ımite

Nociones preliminares

En estas notas hablaremos de dos de los teoremas m´as importantes en la Teor´ıa de la Probabilidad: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. Antes de hablar de ellos, debemos mencionar dos conceptos sin los cuales ser´ıa dif´ıcil entender estos teoremas: convergencia de variables aleatorias y la desigualdad de Chebyshev.

1. Convergencia de variables aleatorias: Empezaremos con el siguiente recordato-rio:

Recordatorio. Se dice que una sucesión numéricax1, x2, ...es convergente a un número

real x si para cualquier ε >0 ∃N ∈_N tal que ∀n≥N se cumple que |xn−x|< ε. Es decir, a partir deN, los elementos de la sucesi´on se encuentran cercanos al n´umero x.

Por ejemplo, la sucesión 1,1₂,1₄,1₈,₁₆1, ... es convergente a cero, pues siempre se puede definir un ε >0 tal que la sucesión esté cerca del cero, por ejemplo, si fijamos ε= 1

64,

entonces N = 8, pues a partir del octavo elemento de la serie se cumplir´ıa la desigual-dad que se pide, espec´ıficamente, la sucesión es: 1,1₂,1₄,1₈,₁₆1 ,₃₂1,₆₄1,₁₂₈1 ,₂₅₆1 , ..., nótese que el octavo elemento de la sucesión es 1

128, en cuyo caso se cumple que | 1

128−0|< 1 64,

pues ₁₂₈1 < ₆₄1 , y lo mismo valdr´ıa para el noveno elemento de la serie, el d´ecimo, etc. Y sin importar el valor que asignemos para ε, siempre y cuando se cumpla que ε >0, podremos encontrar una N ∈_Ntal que ∀n ≥N se tiene que |xn−0|< ε.

Ahora bien, si en lugar de una serie numérica tenemos una sucesión infinita de vari-ables aleatorias, ¿cómo podemos definir convergencia en este caso? Existen al menos cuatro definiciones que se suelen emplear para convergencia de variables aleatorias que mencionaremos a continuación.

Sea X1, X2, ...una sucesi´on infinita de variables aleatorias, todas ellas asociadas a un

mismo espacio de probabilidad (Ω,F,_P), aunque no necesariamente independientes e id´enticamente distribuidas.

(a) Convergencia puntual: Es el tipo de convergencia más estricta de las que ver-emos. Sea ω ∈Ω. Para cadaω fijo,X1(ω), X2(ω), ... es una sucesión de números

reales, por tanto, se define convergencia puntual de la sucesi´on de variables aleato-rias X1, X2, ...a la variable aleatoria X como:

X(ω) = limn→∞Xn(ω)

Notaci´on: Xn→X; ∀ω ∈Ω

(2)

(b) Convergencia casi segura: Este tipo de convergencia es menos estricta que la puntual. Diremos que la sucesi´on de variables aleatorias X1, X2, ... converge casi

seguramente a la variable aleatoria X si: P(ω ∈Ω :Xn(ω)→X(ω)) = 1

En este caso, no necesariamente se cumple queXn(ω)→X(ω); ∀ω ∈Ω, m´as bien exige que aquellos ω∈ Ω para los que no se cumpla, tengan una medida de probabilidad asociada de cero.

Notaci´on: Xn c.s.

−−→X

Ejemplo: La Ley (fuerte) de los N´umeros Grandes

(c) Convergencia en probabilidad: Este tipo de convergencia es menos estricta que los previos dos. Diremos que una sucesi´on de variables aleatorias X1, X2, ...

es convergente en probabilidad a la variable aleatoria X si:

∀ε >0 se tiene que _P(ω∈Ω :|Xn(ω)−X(ω)|> ε)→0 cuando n→ ∞

Es decir, la probabilidad de que la distancia entre Xn(ω) &X(ω) sea mayor a ε tiende a cero.

Notaci´on: Xn p

−

→X

Ejemplo: La Ley (d´ebil) de los N´umeros Grandes

(d) Convergencia en distribuci´on: Es la menos estricta de las cuatro convergen-cias. Diremos que una sucesi´on de variables aleatorias X1, X2, ... converge en

distribuci´on a la variable aleatoriaX si:

Cuandon→ ∞ ⇒FXn(x)→FX(x); ∀x dondeFX(x) es continua.

Equivalentemente se puede decir que la sucesi´onX1, X2, ...es convergente en

dis-tribuci´on a la variable aleatoria X si:

limn→∞P(Xn ≤x) = P(X ≤x); ∀x donde FX(x) es continua.

Notaci´on: Xn d

−

→X

Ejemplo: El Teorema Central del L´ımite Debe quedar claro que:

• Toda sucesión convergente puntualmente lo será casi con seguridad, pero no toda sucesión convergente casi con seguridad será convergente puntualmente

• Toda sucesión convergente casi con seguridad será convergente en probabilidad, pero no toda sucesión convergente en probabilidad lo será casi seguramente

• Toda sucesión convergente en probabilidad lo será en distribución, pero no toda sucesión convergente en distribución lo será en probabilidad

• Por transitividad de las implicaciones, toda sucesión convergente puntualmente será convergente en probabilidad y en distribución aunque lo rec´ıproco no nece-sariamente se cumple

(3)

Figure 1: Representaci´on visual de la convergencia de variables aleatorias

2. Desigualdad de Chebyshev: Sea X una variable aleatoria con media y varianza finitas, µ&σ2 respectivamente. Entonces ∀ε >0:

P(|X−µ| ≥ε)≤ σ 2 ε2

Esta desigualdad establece una cota superior o techo a la probabilidad de que una variable aleatoria tome un valor que diste de su media en m´as de cierta cantidadε >0 (arbitraria).

La Ley de los N´umeros Grandes

Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media

finita µ. Entonces:

Cuandon → ∞ se tiene que _n1 Pn

i=1Xi →µ

con convergencia casi segura (Ley fuerte) y convergencia en probabilidad (Ley débil). Básicamente la Ley de los Números Grandes dice que el promedio o media aritmética de una sucesión muy grande de variables aleatorias i.i.d. converge a la media o Esperanza de la distribución, cuando ésta existe y es finita.

[Esbozo de demostraci´on.]

(4)

Supongamos que las variables aleatoriasXitienen varianza finitaσ2. SeaSn= 1_nPn_i₌₁Xi, puesto que por hip´otesis inicial las variables aleatorias Xi son i.i.d.

⇒_E(Sn) = E(n1

Pn

i=1Xi) = 1

nE(

Pn

i=1Xi) = 1

n

Pn

i=1E(Xi) = 1

nnµ=µ

⇒V ar(Sn) = V ar(_n1

Pn

i=1Xi) = 1

n2V ar(

Pn

i=1Xi) = 1

n2

Pn

i=1V ar(Xi) = 1

n2nσ2 = σ2

n Entonces Sn es una variable aleatoria con media µ & varianza σ

2

n. Recordando que la desigualdad de Chebyshev establece que_P(|X−µ| ≥ε)≤ σ2

ε2, en este caso:

⇒_P(|Sn−µ| ≥ε)≤(σ 2 n)

1

ε2

⇒_P(|Sn−µ| ≥ε)≤ σ 2 nε2

⇒_P(|Sn−µ| ≥ε)→0 cuando n→ ∞

⇒ 1

n

Pn

i=1Xi

p

− →µ Observaciones:

1. Tuvimos que suponer adicionalmente que la varianza era finita. No obstante, esto puede no ser el caso, como vimos en las notas de la distribución Pareto; si tenemos X ∼P areto(xm, α) conxm = 1 &α= 1.5, entonces exhibe comportamiento de “cisne negro”, y tiene media finita, pero varianza infinita. La Ley de los Números Grandes abarca ese caso también, pero este esbozo de demostración no.

2. La convergencia en probabilidad requiere una desigualdad estricta al comparar la dis-tancia con unε >0, pero la desigualdad de Chebyshev emplea una desigualdad no es-tricta. En el caso continuo se puede obviar porque en ese caso_P(X =x) = 0 ∀x∈_RX, pero en el caso discreto requerir´ıamos otra demostraci´on por esa sutileza.

Ejemplos: A continuación mencionaremos algunos ejemplos de la aplicación de la Ley de los Números Grandes.

1. Lanzamiento de una moneda: Desde que ´ıbamos en la primaria o la secundaria se nos dec´ıa que la probabilidad de obtener un águila en un lanzamiento de moneda era igual a la probabilidad de obtener un sol. Pero quizá nuestra curiosidad hac´ıa que lanzáramos la moneda unas diez veces, de las cuales ve´ıamos que, por ejemplo, en 8 de esos 10 lanzamientos obten´ıamos un águila y sólo en 2 un sol. Ahora que hemos visto la Ley de los Números Grandes puede que se entienda mejor esta situación. Vamos a simular mil lanzamientos de moneda y ver de esos mil lanzamientos en cuántos se obtienen águila y en cuántos sol (en promedio). Sea X1, X2, ..., X1000 una secuencia

de mil variables aleatorias i.i.d. Bern(θ) con θ = 0.5, donde definimos “éxito” como obtener un águila y “fracaso” como obtener un sol. Según la Ley de los Números Grandes, 1_nPn

i=1Xi →µ, en este caso, como 1000 es un n´umero relativamente grande,

(5)

Si despu´es de cada lanzamiento calculamosSn y despu´es graficamos estos valores con el ensayo correspondiente, veremos que el comportamiento de la serie es convergente precisamente al valor de θ = 0.5 como se muestra en las Figuras 2-41

Figure 2: Primera simulaci´on de mil lanzamientos de moneda

(6)

Figure 4: Tercera simulaci´on de mil lanzamientos de moneda

Nótese que en cada simulación la convergencia se da de distinta manera, sin embargo, lo principal es que a medida que aumenta el número de ensayos, la cercan´ıa deSnrespecto a θ = 0.5 es cada vez menor, justo como lo enuncia el esbozo de la demostración que hicimos para convergencia en probabilidad. Otro aspecto importante, es que 1000 es un número relativamente grande, pero también, bajo ciertos contextos, puede ser interpretado como un número pequeño, y sin embargo, con una secuencia de tan solo mil variables aleatorias i.i.d. Bern(θ) vemos que la convergencia es bastante buena. 2. Juegos de casino: Una “ruleta europea” tiene 37 distintos números y supongamos

un juego en el que te pagan 35 fichas si sale el n´umero que eliges, pero pierdes una si no sale. F´acilmente podemos construir una variable aleatoria como sigue:

x 35 -1

f(x) = _P(X =x) ₃₇1 36₃₇ Si calculamos la Esperanza de esta variable aleatoria: E(X) =Px∈RX xf(x) = (35)(

1

37) + (−1)( 36

37)≈ −0.027 Si uno ve de forma miope las

(7)

le da a la Esperanza Matemática del juego) es lo suficientemente pequeño para que la gente regrese por más y lo suficientemente grande para que la casa gane en el largo plazo.

Teorema Central del L´ımite

Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media y

varianza finitas µ&σ2 _{respectivamente. Entonces:}

Cuandon → ∞, Zn= (X1+..._√+Xn)−nµ

nσ2

d

−

→N(0,1)

Recordemos que en el esbozo de la demostraci´on de la Ley de los N´umeros Grandes definimos Sn = _n1

Pn

i=1Xi, la cual es una variable aleatoria con media µ y varianza σ 2 n. Ahora bien, n´otese que el Teorema Central del L´ımite se puede reformular de la siguiente manera:

Zn =

(X1+..._√+Xn)−nµ

nσ2 =

(X1+..._√+Xn)−nµ

nσ2 (

1/n

1/n) =

X₁₊...+Xn

n − nµ n √ nσ2 n

= Sn−µ

σ/√n d

−

→N(0,1)

Por otra parte, recordemos que en el caso de una distribuci´on Normal, siX ∼N(µ, σ2_),

entonces Z = X_σ−µ ∼N(0,1) es una Normal Est´andar.

Entonces, lo que el Teorema Central del L´ımite sugiere, es que la variable aleatoria Sn se distribuye normalmente, pues al restarle su media (µ) y dividir la diferencia entre su desviaci´on est´andar (√σ

n, conocida como error estándar de la media aritmética muestral), obtenemos una Normal Estándar, siempre quen sea lo suficientemente grande.

N´otese, sin embargo, que uno de los requisitos para que se cumpla el Teorema Central del L´ımite es que las variables aleatoriasX1, X2, ...deben tener media y varianza finitas. De

nueva cuenta esto no necesariamente aplicar´ıa para una sucesi´on de variables aleatorias i.i.d. X1, X2, ... ∼ P areto(xm, α) con α = 1.5, y dadas las aplicaciones que se mencionaron en notas previas de la Regla 80-20 o la Ley de Price, es claro que no es despreciable el n´umero de situaciones cotidianas para los cuales no aplica este Teorema.

No es cuestión sencilla la demostración de este Teorema, por lo que no la incluiremos. La prioridad es que se entienda cómo interpretar este Teorema, as´ı como sus limitaciones.

Ejemplos: A continuaci´on ilustraremos el Teorema Central del L´ımite con algunas sim-ulaciones hechas en R 2_:

1. Distribuci´on Normal: Supongamos que la estatura de una poblaci´on se distribuye normalmente con media µ = 170cm & varianza σ2 _{= 225, i.e. la desviaci´}_{on est´}_andar

es de σ= 15. Pensemos en los siguientes “experimentos”:

• Experimento 1: Extraer una muestra aleatoria (con reemplazo) de 9 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

(8)

• Experimento 2: Extraer una muestra aleatoria (con reemplazo) de 225 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

• Experimento 3: Extraer una muestra aleatoria (con reemplazo) de 10,000 per-sonas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

Para cada uno de los experimentos se puede obtenerSn &Zn. En el experimento 1 por ejemplo,SnesS9, pues el tama˜no de la muestra es 9 y se est´an promediando 9 estaturas

a la vez. Por hip´otesis inicial las estaturas observadas provienen de una distribuci´on N(170,225), entonces sabemos que σ = 15 y se dijo que n = 9, por tanto, Zn =Z9 =

Sn−170 15/√9 =

Sn−170

5 . Como estamos repitiendo el experimento 5,000 veces, habr´a 5,000

valores para Sn y 5,000 valores para Zn. Las Figuras 5-7 muestran los resultados de estos experimentos (simulados), representados por medio de un Histograma. Nótese que conforme el tamaño de la muestra es mayor, i.e. conforme n → ∞, los valores de Snse desv´ıan muy poco de la media poblacionalµ= 1703. Por otra parte, parece que Zn se distribuye Normal Estándar en los tres casos, esto se debe a que el experimento se repitió un número relativamente grande de veces: 5000.

Figure 5: Resultados del Experimento 1 3_{Esto debe de tener sentido para el lector porque se mencion´}_{o que}_S

nes una variable aleatoria con media

µ y varianza σ_n2, entonces a medida que n → ∞, la varianza de Sn disminuye. La distribuci´on de Sn es

(9)

Figure 6: Resultados del experimento 2

2. Distribución Poisson: Supongamos el ejemplo de la Tarea 3, donde se modela el número de aviones que llegan a un aeropuerto internacional cada 10 minutos con una distribución Poisson con parámetro λ = 3 4_{. Pensemos en los siguientes}

“experimen-tos”, parecidos a los detallados en el inciso anterior:

• Experimento 4: Tomar una muestra aleatoria de 9 intervalos de 10 minutos, regis-trar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

(10)

• Experimento 5: Tomar una muestra aleatoria de 225 intervalos de 10 minutos, registrar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

De forma an´aloga al inciso anterior, podemos calcular Sn & Zn. Las Figuras 8 y 9 muestran los resultados de los experimentos.

(11)

3. Distribuci´on Gamma: Supongamos que una variable aleatoria X ∼ Gamma(α, λ) subyace cierto proceso, con α = λ = 2 . Pensemos en los siguientes “experimentos” parecidos a los mencionados en los dos incisos previos:

• Experimento 6: Extraer una muestra aleatoria (con reemplazo) de 9 valores, reg-istrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

• Experimento 7: Extraer una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

De forma an´aloga a los dos incisos anteriores, podemos calcular Sn &Zn. Las Figuras 10 y 11 muestran los resultados de los experimentos.

(12)

Nótese nuevamente, que conforme n → ∞ la varianza de Sn disminuye. En este caso la distribución de Zn se parece más a la Normal Estándar que en el caso de la Poisson. Se le sugiere al lector buscar aplicaciones de la distribución Gamma para que sea más significativo.

4. Distribuci´on Pareto: Supongamos dos distribuciones Pareto distintas que subyacen dos fen´omenos distintos (como los mencionados en las notas): X ∼ P areto(xm, α1)

con xm = 1 &α1 = 3 & Y ∼ P areto(ym, α2) con ym = 1 & α2 = 1.5. Pensemos en el

siguiente experimento para la variable aleatoria X:

• Experimento 8: Obtener una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

La Figura 12 muestra los resultados del experimento 8.

Nótese que en este caso, por el valor del parámetro α1, la distribución tiene media

y varianza finitas, lo cual tiene como consecuencia que la distribución muestral de la media aritmética muestral (i.e. la distribución de Sn) es aproximadamente Normal. Por otra parte, pensemos en los siguientes experimentos para la variable aleatoriaY:

(13)

La Figura 13 muestra los resultados de estos experimentos.

Figure 13: Resultados de los experimentos 9, 10 & 11

N´otese que Sn NO se distribuye normalmente. Adem´as, es imposible de calcular Zn, pues la varianza es infinita.

(14)

Con esto terminamos la primera parte del curso: el estudio de la Probabilidad. En lo que sigue se estudiar´a propiamente la Estad´ıstica, es decir, el problema de hacer inferencias sobre la poblaci´on con base en una muestra.

Una forma de entender mejor la diferencia entre Probabilidad y Estad´ıstica es entendiendo la diferencia entre razonamiento deductivo y razonamiento inductivo:

• El razonamiento deductivo va de lo general a lo particular, se basa en axiomas, premisas y haciendo uso de reglas de inferencia 5 _{combina la informaci´}_{on dada por los axiomas}

y las premisas y llega a conclusiones. Si los axiomas y las premisas son verdaderas, entonces necesariamente la conclusi´on ser´a verdadera, siempre y cuando se hayan em-pleado correctamente las reglas de inferencia. Por ejemplo:

Todos los hombres son mortales. S´ocrates es un hombre.

∴ S´ocrates es mortal.

• Por otra parte, el razonamiento inductivo va de lo particular a lo general, y las con-clusiones a las que se llega no necesariamente son verdaderas aunque las premisas de las que uno parta lo sean. Por ejemplo:

Se lanza una moneda justa100 veces, de las cuales, 47 veces cae ´aguila.

Se modela con una distribución Binomial: X ∼Bin(n, θ), donde n = 100, y se define como éxito que caiga águila⇒ fueron 47 éxitos.

Se usa el estimador m´aximo veros´ımil para el par´ametro θ, i.e. ˆθM LE = _n1

Pn

i=1Xi =

1

n(X1+...+Xn) =

1

100(X1+...+X100) = 1

100(47) = 0.47

Se concluye que ˆθM LE = 0.47, i.e. la probabilidad de que caiga águila es de 0.47 La Teor´ıa de la Probabilidad usa primordialmente el razonamiento deductivo, por eso comenzamos el curso mencionando lo necesario para construir la teor´ıa: se necesita un conjunto de resultados (Ω) asociado a un experimento aleatorio (ε). Después, al conjunto de resultados le asociamos una σ-álgebra llamada “espacio de eventos” (F), para después poder definir una función, llamada “medida de probabilidad” (_P) que nos permita por as´ı decirlo, “medir el grado de creencia” que tenemos de que se materalice un evento u otro de todos los eventos contemplados en F, siempre y cuando la medida sea consistente con los Axiomas de Kolmogorov.

Después definimos una variable aleatoria (y también vector aleatorio) que pod´ıa ser disc-reta o continua y mencionamos muchos conceptos asociados (que fue la parte aburrida del curso): funciones de masa o densidad de probabilidad, funciones de distribución, momentos centrales y crudos, función generadora de momentos, esperanza, varianza, sesgo, curtosis, cuantiles, moda, distribuciones condicionales, distribuciones marginales, independencia de variables aleatorias, covarianza, correlación, etc.

(15)

a ciertas regularidades conocidas como Teoremas L´ımite: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. En esta parte del curso hemos recurrido en ocasiones a demostraciones o esbozos de demostraci´on, pues es la forma de exhibir que estamos emple-ando correctamente las reglas de inferencia para llegar a conclusiones verdaderas (siempre y cuando sean verdaderos los axiomas y las premisas de las cuales partimos).