• No se han encontrado resultados

Teoremas limite

N/A
N/A
Protected

Academic year: 2020

Share "Teoremas limite"

Copied!
15
0
0

Texto completo

(1)

Nota #5. Teoremas l´ımite

Nociones preliminares

En estas notas hablaremos de dos de los teoremas m´as importantes en la Teor´ıa de la Probabilidad: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. Antes de hablar de ellos, debemos mencionar dos conceptos sin los cuales ser´ıa dif´ıcil entender estos teoremas: convergencia de variables aleatorias y la desigualdad de Chebyshev.

1. Convergencia de variables aleatorias: Empezaremos con el siguiente recordato-rio:

Recordatorio. Se dice que una sucesi´on num´ericax1, x2, ...es convergente a un n´umero

real x si para cualquier ε >0 ∃N ∈N tal que ∀n≥N se cumple que |xn−x|< ε. Es decir, a partir deN, los elementos de la sucesi´on se encuentran cercanos al n´umero x.

Por ejemplo, la sucesi´on 1,12,14,18,161, ... es convergente a cero, pues siempre se puede definir un ε >0 tal que la sucesi´on est´e cerca del cero, por ejemplo, si fijamos ε= 1

64,

entonces N = 8, pues a partir del octavo elemento de la serie se cumplir´ıa la desigual-dad que se pide, espec´ıficamente, la sucesi´on es: 1,12,14,18,161 ,321,641,1281 ,2561 , ..., n´otese que el octavo elemento de la sucesi´on es 1

128, en cuyo caso se cumple que | 1

128−0|< 1 64,

pues 1281 < 641 , y lo mismo valdr´ıa para el noveno elemento de la serie, el d´ecimo, etc. Y sin importar el valor que asignemos para ε, siempre y cuando se cumpla que ε >0, podremos encontrar una N ∈Ntal que ∀n ≥N se tiene que |xn−0|< ε.

Ahora bien, si en lugar de una serie num´erica tenemos una sucesi´on infinita de vari-ables aleatorias, ¿c´omo podemos definir convergencia en este caso? Existen al menos cuatro definiciones que se suelen emplear para convergencia de variables aleatorias que mencionaremos a continuaci´on.

Sea X1, X2, ...una sucesi´on infinita de variables aleatorias, todas ellas asociadas a un

mismo espacio de probabilidad (Ω,F,P), aunque no necesariamente independientes e id´enticamente distribuidas.

(a) Convergencia puntual: Es el tipo de convergencia m´as estricta de las que ver-emos. Sea ω ∈Ω. Para cadaω fijo,X1(ω), X2(ω), ... es una sucesi´on de n´umeros

reales, por tanto, se define convergencia puntual de la sucesi´on de variables aleato-rias X1, X2, ...a la variable aleatoria X como:

X(ω) = limn→∞Xn(ω)

Notaci´on: Xn→X; ∀ω ∈Ω

(2)

(b) Convergencia casi segura: Este tipo de convergencia es menos estricta que la puntual. Diremos que la sucesi´on de variables aleatorias X1, X2, ... converge casi

seguramente a la variable aleatoria X si: P(ω ∈Ω :Xn(ω)→X(ω)) = 1

En este caso, no necesariamente se cumple queXn(ω)→X(ω); ∀ω ∈Ω, m´as bien exige que aquellos ω∈ Ω para los que no se cumpla, tengan una medida de probabilidad asociada de cero.

Notaci´on: Xn c.s.

−−→X

Ejemplo: La Ley (fuerte) de los N´umeros Grandes

(c) Convergencia en probabilidad: Este tipo de convergencia es menos estricta que los previos dos. Diremos que una sucesi´on de variables aleatorias X1, X2, ...

es convergente en probabilidad a la variable aleatoria X si:

∀ε >0 se tiene que P(ω∈Ω :|Xn(ω)−X(ω)|> ε)→0 cuando n→ ∞

Es decir, la probabilidad de que la distancia entre Xn(ω) &X(ω) sea mayor a ε tiende a cero.

Notaci´on: Xn p

→X

Ejemplo: La Ley (d´ebil) de los N´umeros Grandes

(d) Convergencia en distribuci´on: Es la menos estricta de las cuatro convergen-cias. Diremos que una sucesi´on de variables aleatorias X1, X2, ... converge en

distribuci´on a la variable aleatoriaX si:

Cuandon→ ∞ ⇒FXn(x)→FX(x); ∀x dondeFX(x) es continua.

Equivalentemente se puede decir que la sucesi´onX1, X2, ...es convergente en

dis-tribuci´on a la variable aleatoria X si:

limn→∞P(Xn ≤x) = P(X ≤x); ∀x donde FX(x) es continua.

Notaci´on: Xn d

→X

Ejemplo: El Teorema Central del L´ımite Debe quedar claro que:

• Toda sucesi´on convergente puntualmente lo ser´a casi con seguridad, pero no toda sucesi´on convergente casi con seguridad ser´a convergente puntualmente

• Toda sucesi´on convergente casi con seguridad ser´a convergente en probabilidad, pero no toda sucesi´on convergente en probabilidad lo ser´a casi seguramente

• Toda sucesi´on convergente en probabilidad lo ser´a en distribuci´on, pero no toda sucesi´on convergente en distribuci´on lo ser´a en probabilidad

• Por transitividad de las implicaciones, toda sucesi´on convergente puntualmente ser´a convergente en probabilidad y en distribuci´on aunque lo rec´ıproco no nece-sariamente se cumple

(3)

Figure 1: Representaci´on visual de la convergencia de variables aleatorias

2. Desigualdad de Chebyshev: Sea X una variable aleatoria con media y varianza finitas, µ&σ2 respectivamente. Entonces ∀ε >0:

P(|X−µ| ≥ε)≤ σ 2 ε2

Esta desigualdad establece una cota superior o techo a la probabilidad de que una variable aleatoria tome un valor que diste de su media en m´as de cierta cantidadε >0 (arbitraria).

La Ley de los N´umeros Grandes

Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media

finita µ. Entonces:

Cuandon → ∞ se tiene que n1 Pn

i=1Xi →µ

con convergencia casi segura (Ley fuerte) y convergencia en probabilidad (Ley d´ebil). B´asicamente la Ley de los N´umeros Grandes dice que el promedio o media aritm´etica de una sucesi´on muy grande de variables aleatorias i.i.d. converge a la media o Esperanza de la distribuci´on, cuando ´esta existe y es finita.

[Esbozo de demostraci´on.]

(4)

Supongamos que las variables aleatoriasXitienen varianza finitaσ2. SeaSn= 1nPni=1Xi, puesto que por hip´otesis inicial las variables aleatorias Xi son i.i.d.

E(Sn) = E(n1

Pn

i=1Xi) = 1

nE(

Pn

i=1Xi) = 1

n

Pn

i=1E(Xi) = 1

nnµ=µ

⇒V ar(Sn) = V ar(n1

Pn

i=1Xi) = 1

n2V ar(

Pn

i=1Xi) = 1

n2

Pn

i=1V ar(Xi) = 1

n2nσ2 = σ2

n Entonces Sn es una variable aleatoria con media µ & varianza σ

2

n. Recordando que la desigualdad de Chebyshev establece queP(|X−µ| ≥ε)≤ σ2

ε2, en este caso:

P(|Sn−µ| ≥ε)≤(σ 2 n)

1

ε2

P(|Sn−µ| ≥ε)≤ σ 2 nε2

P(|Sn−µ| ≥ε)→0 cuando n→ ∞

⇒ 1

n

Pn

i=1Xi

p

− →µ Observaciones:

1. Tuvimos que suponer adicionalmente que la varianza era finita. No obstante, esto puede no ser el caso, como vimos en las notas de la distribuci´on Pareto; si tenemos X ∼P areto(xm, α) conxm = 1 &α= 1.5, entonces exhibe comportamiento de “cisne negro”, y tiene media finita, pero varianza infinita. La Ley de los N´umeros Grandes abarca ese caso tambi´en, pero este esbozo de demostraci´on no.

2. La convergencia en probabilidad requiere una desigualdad estricta al comparar la dis-tancia con unε >0, pero la desigualdad de Chebyshev emplea una desigualdad no es-tricta. En el caso continuo se puede obviar porque en ese casoP(X =x) = 0 ∀x∈RX, pero en el caso discreto requerir´ıamos otra demostraci´on por esa sutileza.

Ejemplos: A continuaci´on mencionaremos algunos ejemplos de la aplicaci´on de la Ley de los N´umeros Grandes.

1. Lanzamiento de una moneda: Desde que ´ıbamos en la primaria o la secundaria se nos dec´ıa que la probabilidad de obtener un ´aguila en un lanzamiento de moneda era igual a la probabilidad de obtener un sol. Pero quiz´a nuestra curiosidad hac´ıa que lanz´aramos la moneda unas diez veces, de las cuales ve´ıamos que, por ejemplo, en 8 de esos 10 lanzamientos obten´ıamos un ´aguila y s´olo en 2 un sol. Ahora que hemos visto la Ley de los N´umeros Grandes puede que se entienda mejor esta situaci´on. Vamos a simular mil lanzamientos de moneda y ver de esos mil lanzamientos en cu´antos se obtienen ´aguila y en cu´antos sol (en promedio). Sea X1, X2, ..., X1000 una secuencia

de mil variables aleatorias i.i.d. Bern(θ) con θ = 0.5, donde definimos “´exito” como obtener un ´aguila y “fracaso” como obtener un sol. Seg´un la Ley de los N´umeros Grandes, 1nPn

i=1Xi →µ, en este caso, como 1000 es un n´umero relativamente grande,

(5)

Si despu´es de cada lanzamiento calculamosSn y despu´es graficamos estos valores con el ensayo correspondiente, veremos que el comportamiento de la serie es convergente precisamente al valor de θ = 0.5 como se muestra en las Figuras 2-41

Figure 2: Primera simulaci´on de mil lanzamientos de moneda

(6)

Figure 4: Tercera simulaci´on de mil lanzamientos de moneda

N´otese que en cada simulaci´on la convergencia se da de distinta manera, sin embargo, lo principal es que a medida que aumenta el n´umero de ensayos, la cercan´ıa deSnrespecto a θ = 0.5 es cada vez menor, justo como lo enuncia el esbozo de la demostraci´on que hicimos para convergencia en probabilidad. Otro aspecto importante, es que 1000 es un n´umero relativamente grande, pero tambi´en, bajo ciertos contextos, puede ser interpretado como un n´umero peque˜no, y sin embargo, con una secuencia de tan solo mil variables aleatorias i.i.d. Bern(θ) vemos que la convergencia es bastante buena. 2. Juegos de casino: Una “ruleta europea” tiene 37 distintos n´umeros y supongamos

un juego en el que te pagan 35 fichas si sale el n´umero que eliges, pero pierdes una si no sale. F´acilmente podemos construir una variable aleatoria como sigue:

x 35 -1

f(x) = P(X =x) 371 3637 Si calculamos la Esperanza de esta variable aleatoria: E(X) =Px∈RX xf(x) = (35)(

1

37) + (−1)( 36

37)≈ −0.027 Si uno ve de forma miope las

(7)

le da a la Esperanza Matem´atica del juego) es lo suficientemente peque˜no para que la gente regrese por m´as y lo suficientemente grande para que la casa gane en el largo plazo.

Teorema Central del L´ımite

Teorema: Sea X1, X2, ... una sucesi´on infinita de variables aleatorias i.i.d. con media y

varianza finitas µ&σ2 respectivamente. Entonces:

Cuandon → ∞, Zn= (X1+...+Xn)−nµ

nσ2

d

→N(0,1)

Recordemos que en el esbozo de la demostraci´on de la Ley de los N´umeros Grandes definimos Sn = n1

Pn

i=1Xi, la cual es una variable aleatoria con media µ y varianza σ 2 n. Ahora bien, n´otese que el Teorema Central del L´ımite se puede reformular de la siguiente manera:

Zn =

(X1+...+Xn)−nµ

nσ2 =

(X1+...+Xn)−nµ

nσ2 (

1/n

1/n) =

X1+...+Xn

n − nµ n √ nσ2 n

= Sn−µ

σ/√n d

→N(0,1)

Por otra parte, recordemos que en el caso de una distribuci´on Normal, siX ∼N(µ, σ2),

entonces Z = Xσ−µ ∼N(0,1) es una Normal Est´andar.

Entonces, lo que el Teorema Central del L´ımite sugiere, es que la variable aleatoria Sn se distribuye normalmente, pues al restarle su media (µ) y dividir la diferencia entre su desviaci´on est´andar (√σ

n, conocida como error est´andar de la media aritm´etica muestral), obtenemos una Normal Est´andar, siempre quen sea lo suficientemente grande.

N´otese, sin embargo, que uno de los requisitos para que se cumpla el Teorema Central del L´ımite es que las variables aleatoriasX1, X2, ...deben tener media y varianza finitas. De

nueva cuenta esto no necesariamente aplicar´ıa para una sucesi´on de variables aleatorias i.i.d. X1, X2, ... ∼ P areto(xm, α) con α = 1.5, y dadas las aplicaciones que se mencionaron en notas previas de la Regla 80-20 o la Ley de Price, es claro que no es despreciable el n´umero de situaciones cotidianas para los cuales no aplica este Teorema.

No es cuesti´on sencilla la demostraci´on de este Teorema, por lo que no la incluiremos. La prioridad es que se entienda c´omo interpretar este Teorema, as´ı como sus limitaciones.

Ejemplos: A continuaci´on ilustraremos el Teorema Central del L´ımite con algunas sim-ulaciones hechas en R 2:

1. Distribuci´on Normal: Supongamos que la estatura de una poblaci´on se distribuye normalmente con media µ = 170cm & varianza σ2 = 225, i.e. la desviaci´on est´andar

es de σ= 15. Pensemos en los siguientes “experimentos”:

• Experimento 1: Extraer una muestra aleatoria (con reemplazo) de 9 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

(8)

• Experimento 2: Extraer una muestra aleatoria (con reemplazo) de 225 personas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

• Experimento 3: Extraer una muestra aleatoria (con reemplazo) de 10,000 per-sonas, registrar su estatura y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

Para cada uno de los experimentos se puede obtenerSn &Zn. En el experimento 1 por ejemplo,SnesS9, pues el tama˜no de la muestra es 9 y se est´an promediando 9 estaturas

a la vez. Por hip´otesis inicial las estaturas observadas provienen de una distribuci´on N(170,225), entonces sabemos que σ = 15 y se dijo que n = 9, por tanto, Zn =Z9 =

Sn−170 15/√9 =

Sn−170

5 . Como estamos repitiendo el experimento 5,000 veces, habr´a 5,000

valores para Sn y 5,000 valores para Zn. Las Figuras 5-7 muestran los resultados de estos experimentos (simulados), representados por medio de un Histograma. N´otese que conforme el tama˜no de la muestra es mayor, i.e. conforme n → ∞, los valores de Snse desv´ıan muy poco de la media poblacionalµ= 1703. Por otra parte, parece que Zn se distribuye Normal Est´andar en los tres casos, esto se debe a que el experimento se repiti´o un n´umero relativamente grande de veces: 5000.

Figure 5: Resultados del Experimento 1 3Esto debe de tener sentido para el lector porque se mencion´o queS

nes una variable aleatoria con media

µ y varianza σn2, entonces a medida que n → ∞, la varianza de Sn disminuye. La distribuci´on de Sn es

(9)

Figure 6: Resultados del experimento 2

Figure 7: Resultados del experimento 3

2. Distribuci´on Poisson: Supongamos el ejemplo de la Tarea 3, donde se modela el n´umero de aviones que llegan a un aeropuerto internacional cada 10 minutos con una distribuci´on Poisson con par´ametro λ = 3 4. Pensemos en los siguientes

“experimen-tos”, parecidos a los detallados en el inciso anterior:

• Experimento 4: Tomar una muestra aleatoria de 9 intervalos de 10 minutos, regis-trar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

(10)

• Experimento 5: Tomar una muestra aleatoria de 225 intervalos de 10 minutos, registrar el n´umero de aviones que llegan en cada intervalo y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

De forma an´aloga al inciso anterior, podemos calcular Sn & Zn. Las Figuras 8 y 9 muestran los resultados de los experimentos.

Figure 8: Resultados del experimento 4

Figure 9: Resultados del experimento 5

(11)

3. Distribuci´on Gamma: Supongamos que una variable aleatoria X ∼ Gamma(α, λ) subyace cierto proceso, con α = λ = 2 . Pensemos en los siguientes “experimentos” parecidos a los mencionados en los dos incisos previos:

• Experimento 6: Extraer una muestra aleatoria (con reemplazo) de 9 valores, reg-istrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

• Experimento 7: Extraer una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

De forma an´aloga a los dos incisos anteriores, podemos calcular Sn &Zn. Las Figuras 10 y 11 muestran los resultados de los experimentos.

Figure 10: Resultados del experimento 6

(12)

N´otese nuevamente, que conforme n → ∞ la varianza de Sn disminuye. En este caso la distribuci´on de Zn se parece m´as a la Normal Est´andar que en el caso de la Poisson. Se le sugiere al lector buscar aplicaciones de la distribuci´on Gamma para que sea m´as significativo.

4. Distribuci´on Pareto: Supongamos dos distribuciones Pareto distintas que subyacen dos fen´omenos distintos (como los mencionados en las notas): X ∼ P areto(xm, α1)

con xm = 1 &α1 = 3 & Y ∼ P areto(ym, α2) con ym = 1 & α2 = 1.5. Pensemos en el

siguiente experimento para la variable aleatoria X:

• Experimento 8: Obtener una muestra aleatoria (con reemplazo) de 100 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

La Figura 12 muestra los resultados del experimento 8.

Figure 12: Resultados del experimento 8

N´otese que en este caso, por el valor del par´ametro α1, la distribuci´on tiene media

y varianza finitas, lo cual tiene como consecuencia que la distribuci´on muestral de la media aritm´etica muestral (i.e. la distribuci´on de Sn) es aproximadamente Normal. Por otra parte, pensemos en los siguientes experimentos para la variable aleatoriaY:

• Experimento 9: Obtener una muestra aleatoria (con reemplazo) de 25 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

(13)

• Experimento 11: Obtener una muestra aleatoria (con reemplazo) de 900 valores, registrarlos y sacar el promedio (media aritm´etica) de la muestra. Repetir eso 5,000 veces.

La Figura 13 muestra los resultados de estos experimentos.

Figure 13: Resultados de los experimentos 9, 10 & 11

N´otese que Sn NO se distribuye normalmente. Adem´as, es imposible de calcular Zn, pues la varianza es infinita.

(14)

Con esto terminamos la primera parte del curso: el estudio de la Probabilidad. En lo que sigue se estudiar´a propiamente la Estad´ıstica, es decir, el problema de hacer inferencias sobre la poblaci´on con base en una muestra.

Una forma de entender mejor la diferencia entre Probabilidad y Estad´ıstica es entendiendo la diferencia entre razonamiento deductivo y razonamiento inductivo:

• El razonamiento deductivo va de lo general a lo particular, se basa en axiomas, premisas y haciendo uso de reglas de inferencia 5 combina la informaci´on dada por los axiomas

y las premisas y llega a conclusiones. Si los axiomas y las premisas son verdaderas, entonces necesariamente la conclusi´on ser´a verdadera, siempre y cuando se hayan em-pleado correctamente las reglas de inferencia. Por ejemplo:

Todos los hombres son mortales. S´ocrates es un hombre.

∴ S´ocrates es mortal.

• Por otra parte, el razonamiento inductivo va de lo particular a lo general, y las con-clusiones a las que se llega no necesariamente son verdaderas aunque las premisas de las que uno parta lo sean. Por ejemplo:

Se lanza una moneda justa100 veces, de las cuales, 47 veces cae ´aguila.

Se modela con una distribuci´on Binomial: X ∼Bin(n, θ), donde n = 100, y se define como ´exito que caiga ´aguila⇒ fueron 47 ´exitos.

Se usa el estimador m´aximo veros´ımil para el par´ametro θ, i.e. ˆθM LE = n1

Pn

i=1Xi =

1

n(X1+...+Xn) =

1

100(X1+...+X100) = 1

100(47) = 0.47

Se concluye que ˆθM LE = 0.47, i.e. la probabilidad de que caiga ´aguila es de 0.47 La Teor´ıa de la Probabilidad usa primordialmente el razonamiento deductivo, por eso comenzamos el curso mencionando lo necesario para construir la teor´ıa: se necesita un conjunto de resultados (Ω) asociado a un experimento aleatorio (ε). Despu´es, al conjunto de resultados le asociamos una σ-´algebra llamada “espacio de eventos” (F), para despu´es poder definir una funci´on, llamada “medida de probabilidad” (P) que nos permita por as´ı decirlo, “medir el grado de creencia” que tenemos de que se materalice un evento u otro de todos los eventos contemplados en F, siempre y cuando la medida sea consistente con los Axiomas de Kolmogorov.

Despu´es definimos una variable aleatoria (y tambi´en vector aleatorio) que pod´ıa ser disc-reta o continua y mencionamos muchos conceptos asociados (que fue la parte aburrida del curso): funciones de masa o densidad de probabilidad, funciones de distribuci´on, momentos centrales y crudos, funci´on generadora de momentos, esperanza, varianza, sesgo, curtosis, cuantiles, moda, distribuciones condicionales, distribuciones marginales, independencia de variables aleatorias, covarianza, correlaci´on, etc.

(15)

a ciertas regularidades conocidas como Teoremas L´ımite: la Ley de los N´umeros Grandes y el Teorema Central del L´ımite. En esta parte del curso hemos recurrido en ocasiones a demostraciones o esbozos de demostraci´on, pues es la forma de exhibir que estamos emple-ando correctamente las reglas de inferencia para llegar a conclusiones verdaderas (siempre y cuando sean verdaderos los axiomas y las premisas de las cuales partimos).

Referencias

Documento similar

Niños que antes de final de este año cumplen menos de seis años y que viven en la capital 7.. Personas que han visitado el

Habiendo organizado un movimiento revolucionario en Valencia a principios de 1929 y persistido en las reuniones conspirativo-constitucionalistas desde entonces —cierto que a aquellas

b) Si ahora se considerara ´ unicamente una muestra aleatoria de los tiempos de impresi´on para 70 plantillas para la impresora A, de las que se obtiene una media de 20 y

Enunciado 2 del teorema central del límite (Linderberg-Lévy): Sea una muestra aleatoria simple de tamaño n de cualquier población de media P y desviación típica

Llevar A Ebullicion Y Mantenerla Hasta Que Los Acidos Grasos Liberados Floten En Forma De Capa Limpia (En El Caso Particular En Que La Materia Grasa Contenga Gliceridos Del

Para ello, se utilizaron los mismos inhibidores que en experimento anterior de proliferación y en las mismas dosis, como se muestra en la grafica 5, observándose que por si solo

• Variable aleatoria es la variable que surge de un experimento aleatorio, consistente en considerar todos los posibles valores de una variable en una población. La variable

 Variable aleatoria es la variable que surge de un experimento aleatorio, consistente en considerar todos los posibles valores de una variable en una población. La