Construcci´ on de la esperanza

(1)

Probabilidad II Tema 3: Esperanza

Jos´e R. Berrendero

Departamento de Matem´aticas Universidad Aut´onoma de Madrid

(2)

Estructura de este tema

Esperanza de una variable aleatoria. Principales propiedades.

Teorema del cambio de espacio de integraci´on.

Momentos. Desigualdades.

Esperanza del producto de v.a. independientes.

Covarianza y correlaci´on.

(3)

Esperanza de una variable aleatoria

La esperanza(o media o valor esperado) de una v.a. X se define de la siguiente forma:

E(X) :=

Z

Ω

X dP.

Obs. La EX es la integral sobre Ω de la funci´on medibleX respecto de la medida de probabilidad P tal y como se estudia enTeor´ıa de la medida y la integraci´on.

Obs. Esta definici´on de esperanza es consistente con la definici´on que se suele dar en cursos menos avanzados de probabilidad.

Construcci´on de la esperanza:

1 Caso de v.a. simples.

2 Extensi´on a v.a. no negativas.

3 Caso general.

(4)

Construcci´ on de la esperanza

(1) v.a. simples: seaX =Pk

i=1x_iI_A_i una v.a. simple. Entonces, E(X) :=

k

X

i=1

xiP(Ai).

(2) v.a. no negativas: siX ≥0, existe una sucesi´on de v.a. simplesX_n tales que 0≤Xn↑X. Entonces,

E(X) := lim

n→∞E(X_n).

(3) v.a. arbitraria: en el caso general,X =X⁺−X⁻, donde X⁺= max{X,0}yX⁻= max{0,−X}. Entonces,

E(X) := E(X⁺)−E(X⁻), siempre que E(X⁺)<∞o E(X⁻)<∞.

(5)

Propiedades m´ as importantes de la esperanza

(1) E(X) es finita ⇔E|X|<∞. En este caso se dice que X es integrable. Se usa la notaci´on:

X ∈L1(P) =L1:={X : Ω→R v.a., tales que E|X|<∞}.

(2) Linealidad: Si X +Y tiene esperanza, entonces

E(X +Y) = E(X) + E(Y). SiX tiene esperanza, entonces tambi´en la tiene cX para todo c ∈R, y E(cX) =cE(X).

(3) Monoton´ıa: Si X ≥0, entonces E(X)≥0. SiX,Y ∈L₁, yX ≤Y, entonces E(X)≤E(Y). En particular, |E(X)| ≤E(|X|).

(6)

Propiedades m´ as importantes de la esperanza

(4) Teorema de la convergencia mon´otona (TCM):

(a) SiX_n↑X yX_k⁻∈L₁ para alg´unk. EntoncesX_k,X_k+1. . .tienen esperanza y E(Xn)↑E(X).

(b) SiXn↓X yX_k⁺∈L1para alg´unk. EntoncesXk,Xk+1. . . tienen esperanza y E(Xn)↓E(X).

(5) Lema de Fatou:

(a) SiX_n≤Y para todony EY⁺<∞, entoncesX_n, lim sup_n→∞X_n tienen esperanza para todony

E

lim sup

n→∞

Xn

≥lim sup

n→∞

EXn.

(b) SiX_n≥Z para todony EZ⁻ <∞, entoncesX_n, lim inf_n→∞X_ntienen esperanza para todony

E lim inf

n→∞ Xn

≤lim inf

n→∞ EXn.

(7)

Propiedades m´ as importantes de la esperanza

(6) Teorema de la convergencia dominada (TCD): SiX_n→X y existe Z ∈L₁ tal que |X_n| ≤Z para todon, entonces

X1, . . . ,Xn, . . . ,X son integrables y EX = limn→∞EXn.

(7) Integral sobre un conjunto: SeaX una v.a. positiva o integrable y A∈ F. Se define

Z

A

X dP = E(X·I_A) = Z

Ω

X ·I_AdP.

Una desigualdad de mucha aplicaci´on

Sea X una variable aleatoria ya,b∈R. Se tiene:

aP(a≤X ≤b)≤ Z

{a≤X≤b}

X dP≤bP(a≤X ≤b).

(8)

Teorema del cambio de espacio de integraci´ on

Teorema: SeaX v.a. sobre (Ω,F,P) con distribuci´onF_X. Seag :R→R medible Borel. Si Y =g(X), entonces

E(Y) = Z

R

g(x)dF_X(x) = Z

R

gdP_X.

En la demostraci´on se usa el m´etodo de escala ascendente, es decir, se demuestra sucesivamente para

(1) Indicadores, g =I_B.

(2) Funciones simples no negativas, g =Pn

i=1x_iI_B_i. La linealidad es la que se aplica aqu´ı.

(3) Funciones no negativas,g ≥0. Aqu´ı se suele aplicar TCM.

(4) Funciones borelianas arbitrariasg. Usando g =g⁺−g⁻.

(9)

Consecuencias y extensiones

(1) Si X es un vector aleatorio enRⁿ, la misma demostraci´on permite afirmar E[g(X)] =R

Rⁿg(x)dF_X(x).

(2) Si X es un vector aleatorio absolutamente continuo con funci´on de densidad f, entonces

E[g(X)] = Z

Rⁿ

g(x)dF_X(x) = Z

Rⁿ

g(x)f(x)dx.

(3) Si X es un vector aleatorio discreto con funci´on de probabilidadp(x), entonces

E[g(X)] = Z

Rⁿ

g(x)dF_X(x) =X

x

g(x)p(x).

(10)

Ejemplos

Expresa en funci´on de las densidades las siguientes esperanzas.

Sea X v.a. con densidadf(x).

EX³ = Ee^tX =

Sea (X,Y) v.a. con densidadf(x,y).

E X²

X⁴+Y⁴

=

Sea X,Y v.a. independientes con densidadesf₁(x) y f₂(y).

Ee^X^+Y = E sin(X +Y) =

(11)

Momentos

Sea k >0 y X una v.a. sobre (Ω,F,P).

Momento de orden k deX: E(X^k).

Momento absoluto de orden k deX: E|X|^k.

Momento central de orden k deX: E[(X−E(X))^k].

Momento absoluto central de ordenk deX: E|X−E(X)|^k. La varianza de X es su momento central de orden 2:

σ² = Var(X) = E[(X −E(X))²].

A la ra´ız de la varianzaσ se le llama desviaci´on t´ıpica.

(12)

Observaciones

Si E(X^k) es finita para k >0, entonces E(X^α) es finita para 0< α <k.

Para todo k >0 y m∈R, E|X|^k <∞ ⇔E|X −m|^k <∞.

Como consecuencia, si X ∈L1, se verifica

Var(X)<∞ ⇔X² ∈L1 ⇔X ∈L2, dondeL_k :={X : Ω→Rv.a., tales que E|X|^k <∞}.

Si X ∈L₂, Var(X) = E(X²)−µ², donde µ= E(X).

(13)

Algunas desigualdades importantes

Markov

Sea X ≥0 y >0, entonces

P(X ≥)≤ E(X)

.

Chebychev

Sea X ∈L1 y >0, entonces

P(|X −E(X)| ≥)≤ Var(X)

² .

Jensen

Sea f :R→Rconvexa,X ∈L1,f(X)∈L1. Entonces:

f[E(X)]≤E[f(X)]

(14)

Algunas desigualdades importantes

Lyapunov

Sea 0<s <t, entonces

(E|X|^s)^1/s ≤(E|X|^t)^1/t.

H¨older

Sea 1<p <∞ y 1<q<∞, tales que 1/p+ 1/q = 1. Si E|X|^p<∞, E|Y|^q<∞, se tiene E|XY|<∞y

E|XY| ≤(E|X|^p)^1/p(E|Y|^q)^1/q.

Minkowski

Sea 1≤p <∞, E|X|^p <∞, E|Y|^p<∞. Entonces, (E|X +Y|^p)^1/p ≤(E|X|^p)^1/p+ (E|Y|^p)^1/p.

(15)

Esperanza del producto de v.a. independientes

Teorema

SeanX1, . . . ,Xn v.a. independientes sobre (Ω,F,P). SiXi ≥0 para todo i = 1, . . . ,n, o siX_i ∈L₁ para todoi = 1, . . . ,n, E(X₁· · ·X_n) existe y

E(X1· · ·Xn) = E(X1)· · ·E(Xn).

Desigualdad de Hoeffding

SeanX₁, . . . ,X_n v.a. independientes sobre (Ω,F,P) tales que

P(ai ≤Xi ≤bi) = 1, para todo i = 1, . . . ,n. Sea Sn:=X1+. . .+Xn. Entonces, para todo >0,

P(|S_n−E(Sn)|> )≤2 exp

− 2²

Pn

i=1(b_i −a_i)²

.

(16)

Covarianza

SeanX ∈L₂,Y ∈L₂. Lacovarianzaentre X e Y se define como:

Cov(X,Y) = E[(X −EX)(Y −EY)] = E(XY)−E(X)E(Y).

Propiedades b´asicas

(1) Cov(X,X) = Var(X); Cov(X,Y) = Cov(Y,X).

(2) Paraa,b,c,d ∈R, se tiene Cov(aX +c,bY +d) =abCov(X,Y).

(3) Desigualdad de Cauchy-Schwarz: si consideramos la relaci´on de equivalencia X ∼X⁰⇔P(X =X⁰) = 1, hX,Yi₂:= E(XY) es un producto escalar. Por lo tanto:

|Cov(X,Y)| ≤σ_X ·σ_Y.

(17)

Coeficiente de correlaci´ on

El coeficiente de correlaci´on entre X,Y ∈L₂ se define como:

ρ(X,Y) := Cov(X,Y) σX ·σY

.

Propiedades b´asicas

(1) Paraa,b,c,d ∈R, se tieneρ(aX+c,bY +d) = sgn(ab)ρ(X,Y).

(2) Desigualdad de Cauchy-Schwarz: |ρ(X,Y)| ≤1. ¿Cu´ando hay igualdad?

(3) Si X e Y son v.a. independientes, entoncesρ(X,Y) = 0 (variables incorreladas). El rec´ıproco no es cierto.

(4) SeanX1, . . . ,Xn∈L2. Entonces:

Var(X1+· · ·+Xn) =

n

X

i=1

Var(X_i) + 2X

i<j

Cov(X_i,X_j).

¿C´omo queda la expresi´on si las variables son incorreladas dos a dos?

(18)

Matriz de covarianzas

En las f´ormulas siguientes se entiende que la esperanza y la varianza operan sobre cada elemento del vector o matriz correspondientes.

Sea X = (X₁, . . . ,X_n)⁰ un vector aleatorio n-dimensional (en columna) tal que X₁, . . . ,X_n∈L₂.

Suvector de mediasesµ= (µ₁, . . . , µ_n)⁰ dondeµ_i = E(X_i).

Sumatriz de covarianzases Σ, cuya posici´on (i,j) es σ_i_,j = Cov(X_i,X_j). Es f´acil comprobar

Σ = E[(X −µ)(X −µ)⁰] = E(XX⁰)−µµ⁰,

Transformaciones afines: siA es matrizp×n yb∈R^p, E(AX +b) =Aµ+b.

Σ_AX+b = E[A(X−µ)(X −µ)⁰A⁰] =AΣ_XA⁰.