Probabilidad II Tema 3: Esperanza
Jos´e R. Berrendero
Departamento de Matem´aticas Universidad Aut´onoma de Madrid
Estructura de este tema
Esperanza de una variable aleatoria. Principales propiedades.
Teorema del cambio de espacio de integraci´on.
Momentos. Desigualdades.
Esperanza del producto de v.a. independientes.
Covarianza y correlaci´on.
Esperanza de una variable aleatoria
La esperanza(o media o valor esperado) de una v.a. X se define de la siguiente forma:
E(X) :=
Z
Ω
X dP.
Obs. La EX es la integral sobre Ω de la funci´on medibleX respecto de la medida de probabilidad P tal y como se estudia enTeor´ıa de la medida y la integraci´on.
Obs. Esta definici´on de esperanza es consistente con la definici´on que se suele dar en cursos menos avanzados de probabilidad.
Construcci´on de la esperanza:
1 Caso de v.a. simples.
2 Extensi´on a v.a. no negativas.
3 Caso general.
Construcci´ on de la esperanza
(1) v.a. simples: seaX =Pk
i=1xiIAi una v.a. simple. Entonces, E(X) :=
k
X
i=1
xiP(Ai).
(2) v.a. no negativas: siX ≥0, existe una sucesi´on de v.a. simplesXn tales que 0≤Xn↑X. Entonces,
E(X) := lim
n→∞E(Xn).
(3) v.a. arbitraria: en el caso general,X =X+−X−, donde X+= max{X,0}yX−= max{0,−X}. Entonces,
E(X) := E(X+)−E(X−), siempre que E(X+)<∞o E(X−)<∞.
Propiedades m´ as importantes de la esperanza
(1) E(X) es finita ⇔E|X|<∞. En este caso se dice que X es integrable. Se usa la notaci´on:
X ∈L1(P) =L1:={X : Ω→R v.a., tales que E|X|<∞}.
(2) Linealidad: Si X +Y tiene esperanza, entonces
E(X +Y) = E(X) + E(Y). SiX tiene esperanza, entonces tambi´en la tiene cX para todo c ∈R, y E(cX) =cE(X).
(3) Monoton´ıa: Si X ≥0, entonces E(X)≥0. SiX,Y ∈L1, yX ≤Y, entonces E(X)≤E(Y). En particular, |E(X)| ≤E(|X|).
Propiedades m´ as importantes de la esperanza
(4) Teorema de la convergencia mon´otona (TCM):
(a) SiXn↑X yXk−∈L1 para alg´unk. EntoncesXk,Xk+1. . .tienen esperanza y E(Xn)↑E(X).
(b) SiXn↓X yXk+∈L1para alg´unk. EntoncesXk,Xk+1. . . tienen esperanza y E(Xn)↓E(X).
(5) Lema de Fatou:
(a) SiXn≤Y para todony EY+<∞, entoncesXn, lim supn→∞Xn tienen esperanza para todony
E
lim sup
n→∞
Xn
≥lim sup
n→∞
EXn.
(b) SiXn≥Z para todony EZ− <∞, entoncesXn, lim infn→∞Xntienen esperanza para todony
E lim inf
n→∞ Xn
≤lim inf
n→∞ EXn.
Propiedades m´ as importantes de la esperanza
(6) Teorema de la convergencia dominada (TCD): SiXn→X y existe Z ∈L1 tal que |Xn| ≤Z para todon, entonces
X1, . . . ,Xn, . . . ,X son integrables y EX = limn→∞EXn.
(7) Integral sobre un conjunto: SeaX una v.a. positiva o integrable y A∈ F. Se define
Z
A
X dP = E(X·IA) = Z
Ω
X ·IAdP.
Una desigualdad de mucha aplicaci´on
Sea X una variable aleatoria ya,b∈R. Se tiene:
aP(a≤X ≤b)≤ Z
{a≤X≤b}
X dP≤bP(a≤X ≤b).
Teorema del cambio de espacio de integraci´ on
Teorema: SeaX v.a. sobre (Ω,F,P) con distribuci´onFX. Seag :R→R medible Borel. Si Y =g(X), entonces
E(Y) = Z
R
g(x)dFX(x) = Z
R
gdPX.
En la demostraci´on se usa el m´etodo de escala ascendente, es decir, se demuestra sucesivamente para
(1) Indicadores, g =IB.
(2) Funciones simples no negativas, g =Pn
i=1xiIBi. La linealidad es la que se aplica aqu´ı.
(3) Funciones no negativas,g ≥0. Aqu´ı se suele aplicar TCM.
(4) Funciones borelianas arbitrariasg. Usando g =g+−g−.
Consecuencias y extensiones
(1) Si X es un vector aleatorio enRn, la misma demostraci´on permite afirmar E[g(X)] =R
Rng(x)dFX(x).
(2) Si X es un vector aleatorio absolutamente continuo con funci´on de densidad f, entonces
E[g(X)] = Z
Rn
g(x)dFX(x) = Z
Rn
g(x)f(x)dx.
(3) Si X es un vector aleatorio discreto con funci´on de probabilidadp(x), entonces
E[g(X)] = Z
Rn
g(x)dFX(x) =X
x
g(x)p(x).
Ejemplos
Expresa en funci´on de las densidades las siguientes esperanzas.
Sea X v.a. con densidadf(x).
EX3 = EetX =
Sea (X,Y) v.a. con densidadf(x,y).
E X2
X4+Y4
=
Sea X,Y v.a. independientes con densidadesf1(x) y f2(y).
EeX+Y = E sin(X +Y) =
Momentos
Sea k >0 y X una v.a. sobre (Ω,F,P).
Momento de orden k deX: E(Xk).
Momento absoluto de orden k deX: E|X|k.
Momento central de orden k deX: E[(X−E(X))k].
Momento absoluto central de ordenk deX: E|X−E(X)|k. La varianza de X es su momento central de orden 2:
σ2 = Var(X) = E[(X −E(X))2].
A la ra´ız de la varianzaσ se le llama desviaci´on t´ıpica.
Observaciones
Si E(Xk) es finita para k >0, entonces E(Xα) es finita para 0< α <k.
Para todo k >0 y m∈R, E|X|k <∞ ⇔E|X −m|k <∞.
Como consecuencia, si X ∈L1, se verifica
Var(X)<∞ ⇔X2 ∈L1 ⇔X ∈L2, dondeLk :={X : Ω→Rv.a., tales que E|X|k <∞}.
Si X ∈L2, Var(X) = E(X2)−µ2, donde µ= E(X).
Algunas desigualdades importantes
Markov
Sea X ≥0 y >0, entonces
P(X ≥)≤ E(X)
.
Chebychev
Sea X ∈L1 y >0, entonces
P(|X −E(X)| ≥)≤ Var(X)
2 .
Jensen
Sea f :R→Rconvexa,X ∈L1,f(X)∈L1. Entonces:
f[E(X)]≤E[f(X)]
Algunas desigualdades importantes
Lyapunov
Sea 0<s <t, entonces
(E|X|s)1/s ≤(E|X|t)1/t.
H¨older
Sea 1<p <∞ y 1<q<∞, tales que 1/p+ 1/q = 1. Si E|X|p<∞, E|Y|q<∞, se tiene E|XY|<∞y
E|XY| ≤(E|X|p)1/p(E|Y|q)1/q.
Minkowski
Sea 1≤p <∞, E|X|p <∞, E|Y|p<∞. Entonces, (E|X +Y|p)1/p ≤(E|X|p)1/p+ (E|Y|p)1/p.
Esperanza del producto de v.a. independientes
Teorema
SeanX1, . . . ,Xn v.a. independientes sobre (Ω,F,P). SiXi ≥0 para todo i = 1, . . . ,n, o siXi ∈L1 para todoi = 1, . . . ,n, E(X1· · ·Xn) existe y
E(X1· · ·Xn) = E(X1)· · ·E(Xn).
Desigualdad de Hoeffding
SeanX1, . . . ,Xn v.a. independientes sobre (Ω,F,P) tales que
P(ai ≤Xi ≤bi) = 1, para todo i = 1, . . . ,n. Sea Sn:=X1+. . .+Xn. Entonces, para todo >0,
P(|Sn−E(Sn)|> )≤2 exp
− 22
Pn
i=1(bi −ai)2
.
Covarianza
SeanX ∈L2,Y ∈L2. Lacovarianzaentre X e Y se define como:
Cov(X,Y) = E[(X −EX)(Y −EY)] = E(XY)−E(X)E(Y).
Propiedades b´asicas
(1) Cov(X,X) = Var(X); Cov(X,Y) = Cov(Y,X).
(2) Paraa,b,c,d ∈R, se tiene Cov(aX +c,bY +d) =abCov(X,Y).
(3) Desigualdad de Cauchy-Schwarz: si consideramos la relaci´on de equivalencia X ∼X0⇔P(X =X0) = 1, hX,Yi2:= E(XY) es un producto escalar. Por lo tanto:
|Cov(X,Y)| ≤σX ·σY.
Coeficiente de correlaci´ on
El coeficiente de correlaci´on entre X,Y ∈L2 se define como:
ρ(X,Y) := Cov(X,Y) σX ·σY
.
Propiedades b´asicas
(1) Paraa,b,c,d ∈R, se tieneρ(aX+c,bY +d) = sgn(ab)ρ(X,Y).
(2) Desigualdad de Cauchy-Schwarz: |ρ(X,Y)| ≤1. ¿Cu´ando hay igualdad?
(3) Si X e Y son v.a. independientes, entoncesρ(X,Y) = 0 (variables incorreladas). El rec´ıproco no es cierto.
(4) SeanX1, . . . ,Xn∈L2. Entonces:
Var(X1+· · ·+Xn) =
n
X
i=1
Var(Xi) + 2X
i<j
Cov(Xi,Xj).
¿C´omo queda la expresi´on si las variables son incorreladas dos a dos?
Matriz de covarianzas
En las f´ormulas siguientes se entiende que la esperanza y la varianza operan sobre cada elemento del vector o matriz correspondientes.
Sea X = (X1, . . . ,Xn)0 un vector aleatorio n-dimensional (en columna) tal que X1, . . . ,Xn∈L2.
Suvector de mediasesµ= (µ1, . . . , µn)0 dondeµi = E(Xi).
Sumatriz de covarianzases Σ, cuya posici´on (i,j) es σi,j = Cov(Xi,Xj). Es f´acil comprobar
Σ = E[(X −µ)(X −µ)0] = E(XX0)−µµ0,
Transformaciones afines: siA es matrizp×n yb∈Rp, E(AX +b) =Aµ+b.
ΣAX+b = E[A(X−µ)(X −µ)0A0] =AΣXA0.