Probabilidad
Mauricio Olivares
ITAM
Variables aleatorias
I Estamos interesados en estudiar el comportamiento de una determinada variable. Concebimos las variables econ´omicas o financieras como variables aleatorias.
I Toda la informacion relevante de una variable aleatoria, digamos Y, est´a resumida en sufunci´on de distribuci´on:
F(y) =P(Y ≤y)
I Es decir, nuestras variables son aleatorias y tratamos sus valores observados como realizaciones provenientes de una funci´on de distribuci´on.
I Cuando F es diferenciable, tenemos
f(y) = d
dyF(y)
I Una funci´on de densidad contiene la misma informaci´on que la funci´on de distribuci´on, sin embargo es generalmente m´as f´acil de visualizar.
Medidas de tendencia central
I Nosotros trabajaremos con dos medidas de tendencia central: la media (esperanza) y la mediana.
I La esperanza de una variable aleatoria y con densidad f viene dada por
E(Y) = Z ∞
−∞yf(y)dy
I La mediana mde una distribuci´on continua F es la soluci´on ´
unica a
F(m) = 1
Observaciones
I Ambas medidas de tendencia central no son exclusivas de las distribuciones continuas.
I La mediana no es sensitiva a perturbaciones en las colas, mientras que la media s´ı.
I A esta propiedad se le conoce como robustez.
I Aunque la media no es robusta, es una medida de tendencia central muy conveniente
I Es un operador lineal
I Surge en muchos modelos econ´omicos y financieros.
Propiedades de la media
I Si Y es una variable aleatoria que toma valor C con probabilidad 1, entoncesE(Y) =C
I Si E(Y) existe y C es una constante y finita entonces E(CY) =CE(Y)
I Si X y Y son variables aleatorias en el mismo espacio de probabilidad entoncesE(X+Y) =E(X) +E(Y)
Densidad conjunta
I Nos interesa estudiar m´as de una variable aleatoria.
I De hecho, nos interesa entender alg´un aspecto de la dependencia que pueda existir entre ellas.
I Toda la dependencia est´a resumida en la distribuci´on condicional de ´estas.
I Alternativamente, podemos usar la densidad conjunta dado que contiene la misma informaci´on.
I Conocer o estudiar toda la distribuci´on puede ser demasiado.
I Concentraremos nuestra atenci´on en algunos aspectos de ella.
I Esperanza condicional
I Varianza condicional
I Darle estructura a estos dos componentes ser´a parte del modelo estad´ıstico.
Esperanza Condicional
I La eperanza condicional es el objeto de mayor inter´es en este curso.
I SeanX yY dos variables aleatorias, la esperanza condicional de Y dado X viene dada por
E(Y|X =x) = Z
yf(y|x)dy
donde f(y|x) es
f(y|x) = f(x,y)
f(x)
I La media condicional se le conoce com´unmente como funci´on de regresi´on.
Observaciones
I La media condicional o funci´on de regresi´on es el objeto m´as estudiado en econometr´ıa.
I Nosotros la llamaremos CEF (Conditional Expectation Function) y abusando de notaci´on, la denotaremos como
E(y|x) =m(x).
I Como tal, la CEF es una funci´on dex pues su valor depende de los valores que pueda tomar x.
I La CEF es una variable aleatoria dado que es una funci´on de x, variable aleatoria, aunque a veces trabajaremos con valores particulares, E(y|X =25) =42.
I ¿Por qu´e llamarlaregresi´on?
Ley de Esperanzas Iteradas
I Una herramienta extremadamente importante es la Ley de Esperanzas Iteradas (LEI)
I Un caso particular y que usaremos incansablemente en el curso es la ley simple de esperanzas iteradas: SiE(y)<∞
entonces para toda variable aleatoria x
E(E(y|x)) =E(y)
I La ley simple de esperanzas iteradas establece que la
Observaciones
I Una propiedad de la esperanza condicional es que cuando condicionas en x, puedes de hecho tratar x como una constante.
I Por ejemplo,
I E(x|x) =x
I E(g(x)|x) =g(x)para cualquier funci´ong(·)
I Lo anterior lo podemos resumir en la siguiente proposici´on: Si
E|g(x)y |<∞ entonces
E(g(x)y|x) = g(x)E(y|x)
Dependencia
I Otra herramienta que necesitaremos es entender la distinci´on entre los diferentes tipos de dependencia entre variables aleatorias.
I Independenciaes el concepto m´as fuerte (restrictivo), dondex
yy no tienen nada qu´e ver i.e.f(y,x) =f(y)f(x).
I Independencia en media: la media dey no depende de x. Usando lo que acabamos de aprender, ser´ıa E(y|x) =E(y). I No correlaci´on: la covarianza entrex yy es cero, i.e.
C(x,y) =0
...de vuelta a la CEF
I Anteriormente nos peguntamos por qu´e la CEF era el objeto que refleja la dependencia m´as estudiado.
I En concreto, tres de sus propiedades m´as poderosas con las que siguen:
I Propiedad de Descomposici´on.
I Propiedad de Predicci´on.
Propiedad de Descomposici´
on
I La propiedad de descomposici´on b´asicamente nos dice que cualquier variable aleatoria puede partirse en dos bloques con propiedades bastante convenientes. En concreto:
y =E(y|x) +ε
donde
I (i)εes independiente en media de x, i.e. E(ε|x) no depende
de x.
I (ii) entonces εno est´a correlacionado con ninguna funci´on de x.
I Este resultado nos dice que cualquier variable aleatoria puede
descomponerse en dos bloques: uno que depende de x y otro que es independiente en media de x.
Propiedad de Predicci´
on
I Una implicaci´on de la propiedad de descomposici´on es que la CEF es el mejor predictor de y en un sentido muy particular.
I Definamos una funci´on de p´erdida de la siguiente manera: quieres predecir y a partir de x. Propones una funci´ong(x)
para ello.
I Entonces la p´erdida viene dada por:
D(x) =E
(y−g(x))2
I ¿Intuici´on?
I A este criterio para penalizar los errores se le conoce como
Propiedad de Predicci´
on
I Entonces, resulta que la CEF es el mejor predictor de y en el sentido que minimiza el error cuadr´atico medio: Seag(x)
cualquier funci´on dex. La CEF resuelve
E(y|x) =arg min g(x)
E
Observaciones
I Observas el valor de X y quieres predecir y.
I ¿C´omo lo haces? Escoge una funci´on de x.
I ¿Qu´e funci´on? El resultado anterior nos dice que la CEF resulta ser el mejor predictor de y dadox.
I El mejor en el sentido que minimiza el error cuadr´atico medio.
Identidad ANOVA
I As´ı como definimos la CEF, podemos definir la varianza condicional. En concreto,
V(Y|X =x) = Z
(y−E(y|x))2f(y|x)dy
I Una vez m´as abusando de notaci´on, simplemente escribiremos
V(y|x).
Identidad ANOVA
I La identidad ANOVA nos dice que
V(y) =V(E(y|x)) +E(V(y|x))
Comentarios
I Estos tres resultados ser´an la piedra piramidal de nuestro modelo econom´etrico.
I Es muy importante recalcar que todo esto es un resultado para la poblaci´on.
I Todav´ıa no hemos introducido la muestra. Es decir, los resultados anteriores se siguen para toda n.
I Sin embargo, nota la dificultad de trabajar con la CEF: es la mejor (en el sentido que minimiza el error cuadr´atico medio) predictor en la (extensa) clase de funciones.
Mejor Predictor Lineal
I Si nos concentramos en funciones g(x) =a+bx, ¿qu´e es lo mejor a lo que podemos aspirar?
I La elecci´on de constantes α yβ determinar´a la elecci´on ´
optima a a soluci´on de un problema de minimizaci´on de una funci´on de p´erdida.
I Llamaremos a la soluci´on el mejor predictor lineal (BLP,Best Linear Predictor) y lo denotaremos como L(y|x) =α+βx. I Es decir,
(α, β) =arg min
(a,b) E
BLP
I La pregunta inmediata es ¿cu´ales es valor deα yβ?
I Resulta que
β = C(x,y)
V(x)
Observaciones
I El BLP sigue siendo una relaci´on poblacional.
I Dos resultados importantes:
I Si la CEF es lineal, CEF y BLP coinciden.