Introducci´on Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Estimaci´
on Bayesiana en el modelo lineal
generalizado
Hernando Alvarado Quintero and Fabian Guillermo Rojas Rodr´ıguez
Universidad Nacional de Colombia
halvaradoq@unal.edu.coandfgrojasro@unal.edu.co
Contenido de la presentaci´
on
1 Introducci´on
Modelo lineal generalizado Metodolog´ıa MCMC
Aproximaci´on de Laplace
Notaci´on
2 Estimaci´on cl´asica
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
3 Estimaci´on bayesiana
Modelo de respuesta normal Modelo de la familia exponencial
Muestreador de Gamerman Muestreador propuesto
4 Ejemplo de regresi´on logistica
Semillas, tipos y raices
5 Conclusiones
Resultados fuertes y discusi´on
Proxima investigaci´on
6 Bibliograf´ıa
Introducci´on
Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo lineal generalizado
Metodolog´ıa MCMC Aproximaci´on de Laplace Notaci´on
Familia exponencial
La familia exponencial es una familia de funciones de distribuci´on
para variables aleatorias reales que toma la forma:
fY(y|θ, φ) = exp yθ−b(θ) a(φ) +c(y;φ) (1)
cuyos momentos est´an dados por:
E(y) = b0(θ) =µ
var(y) = a(φ)b00(θ) =σ2
La funci´onb00(θ) expresada en t´erminos deµes llamada funci´on de
varianza y es denotada porV(µ). Generalmente a(φ) es de la
Elementos del modelo lineal generalizado
Supongase que se tienenn r´eplicas independientes de la variable
aleatoriaY con funci´on de densidad dada por (1) y que para cada
una de estas r´eplicas se tiene un conjunto de covariables
X = (X1, ...,XP) que intentan explicar la media de cada variable
yi,i = 1, ...,n donde se asume homocedasticidad . El modelo que
se plantea para esto es:
g(µi) = ηi
ηi = xitβ
dondeg(·) es conocida como funci´on de enlace,ηi es el predictor
lineal para el individuoi yβ es un vector de par´ametros de
dimensi´onp asociados a las covariabes X.
Introducci´on
Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo lineal generalizado
Metodolog´ıa MCMC
Aproximaci´on de Laplace Notaci´on
Markov Chain Monte Carlo
Esta metodolog´ıa se basa en el remplazamiento de la densidad analitica por una muestra de esta. De manera mas simple, la
metodolog´ıa MCMC se basa en la construcci´on de una densidad de
transici´onq(x,x∗) tal que la cadena tiene probabilidad de
equilibrioπ(x) que es la densidad que se quiere reemplazar.
Una muestra dexgenerada de π es obtenida por:
1. Dar un valor inicial x=x(0) y hacer t = 1.
2. Muestrear x(t) de q(x(t−1),x).
3. Incrementart en 1 y regresar al paso 2.
Esquemas de la metodolog´ıa MCMC
1. Muestreador de Gibbs: Su transici´on es formada por el
muestreo sucesivo de las distribuciones condicionales completas πk(xk|x−k).
2. Metropolis-Hastings: Considere una densidad de transici´on
generalq(x,x∗) y definace α(x,x∗) =min 1,π(x ∗)q(x∗,x) π(x)q(x,x∗)
El movimiento del estado x(t−1) al estadox(t) es hecho como
sigue: (a) se muestreax∗ deq(x(t−1),x); (b) se acepta el movimiento ax∗ con probabilidad α(xt−1,x) y se hace
xt =x∗. En otro caso se hacext =x(t−1)
Introducci´on
Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo lineal generalizado Metodolog´ıa MCMC
Aproximaci´on de Laplace
Notaci´on
Aproximaci´
on de Laplace a la verosimilitud
Suponga que se tiene la funci´on de verosimilitudL(y;θ) de una
muestra aleatoriay. Tomemos su logaritmo denotado por l(y;θ) y
hallemos su expanci´on de series de Taylor al rededor de un punto
m: l(y;θ) ≈ l(y;m) + (θ−m)t ∂l(y;θ) ∂θ θ=m (2) +1 2(θ−m) t ∂2l(y;θ) ∂θ∂θt θ=m (θ−m)
La verosimilitud aproximada
Si asumimos quem es la estimaci´on m´aximo-verosimil de θvemos
que el segundo t´ermino a la derecha de la expresi´on (3) es igual a
cero. Adem´as si se aproxima la matriz de segundas derivadas
mostrada arriva por la matriz de informaci´on de Fisher paraθ (o
bien la matriz observada)I(θ) entonces obtenemos que:
l(y;θ)≈l(y;m)−1
2(θ−m)
tI(θ)(θ−m)
finalmente tomando exponencial a ambos lados se obtiene que
L(y;θ)∝L(y;m)N(m,I(θ)−1) (3)
Introducci´on
Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo lineal generalizado Metodolog´ıa MCMC Aproximaci´on de Laplace
Notaci´on
Notaci´
on
En lo que sigue de la presentaci´on muchos de los c´alculos estan
basados en ecuaciones impl´ıcitas, donde nuestra variable de inter´es
ser´a un vector de par´ametros desconocidosβ que dar´a los valores
de las funcionesµ(β), H(β) y W(β).
Mientras no se tenga el valor real deβ pero si una estimaci´on de
este ˆβ las funcionesµ(·),H(·) yW(·) deber´an ser escritas como ˆµ, ˆ
H y ˆW respectivamente.
Con el prop´osito de mejorar la notaci´on se trabajar´a
indistintamente conµ,H yW en vez de ˆµ, ˆH y ˆW, teniendo en
cuenta que siempre ser´an funciones que dependen de la estimaci´on
Verosimilitud de la familia exponencial
Para la estimaci´on de par´ametros de un modelo, ya sea la
estimaci´on cl´asica o bayesiana, es indispensable la funci´on de verosimilitud de los datos en estudio. Para el caso de la familia exponencial la log-verosimilitud es dada por
l(y;θ, φ) = n X i=1 li = n X i=1 ωi φi [yiθi−b(θi)] +c(yi, φi) (4)
dondeli =l(yi;θi, φi) es la log-verosimilitud con respecto a una
sola observaci´on. La derivada con respecto a alg´un par´ametro de
inter´es se denotar´a porU(·) y se llamar´a funci´on de score.
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido Modelo en la familia exponencial conφdesconocido
M´ınimos cuadrado ordinarios
En el modelo de respuesta normal asumimos independencia entre observaciones y homocedasticidad. Este modelo esta construido como
y =Xβ+ε
en queε∼N(0, σ2I) y µ= E(Y) =Xβ. Recordemos que las
estimaciones de m´axima verosimilitud de los par´ametrosβ yσ2
estan dados por: ˆ
β = (XtX)−1Xty
ˆ
σ2 = (y−Xβˆ)t(y−Xβˆ)/n−p
Pero si no se cumple el supuesto de independencia entre
M´ınimos cuadrados ponderados
Si no tenemos el supuesto de independencia, pero se tiene un
supuesto de correlaci´on entre individuos que es conocido y se
puede representar a trav´es de una matriz sim´etricaV el modelo
toma la forma
y =Xβ+ε (5)
dondeε∼N(0, σ2V) yµ= E(Y) =Xβ. Las estimaciones de los
par´ametros en este caso vienen dadas por
ˆ
β = (XtVX)−1XtVy (6)
ˆ
σ2 = (y−Xβˆ)tV−1(y−Xβˆ)/n−p (7)
La matrizV se puede ver de dos formas: En la estimaci”on de
βfunciona como una matriz de ponderaci´on en las observaciones,
mientras que en la estimaci´on deσ2 es la estructura de correlaci´on
de los eroresε=y−µ. Note que var( ˆβ) =σ2(XtVX)−1.
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
Funci´
on de score
La estimaci´on de los par´ametros se hace via m´axima verosimilitud
para el vector de par´ametros β. Nos interesa encontrar unβ = ˆβ
tal queU( ˆβ) = 0 en que
U(βj) = ∂l(θ, φ;y) ∂βj = n X i=1 ∂li ∂θi ∂θi ∂µi ∂µi ∂ηi ∂ηi ∂βj dondeli es dado en (4).
Derivadas parciales
Tenemos para la familia exponencial, que:
∂li ∂θi = ωi φi [yi−b0(θi)] = ωi φi (yi −µi) ∂θi ∂µi = ∂µi ∂θi −1 = [b00(θi)]−1= 1 V(µi) ∂µi ∂ηi = ∂µi ∂ηi 2 ∂µi ∂ηi −1 ∂ηi ∂βj = xij
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
Funci´
on de score II
lo que nos lleva a que
U(βj) = n X i=1 ωi[yi−µi] φiV(µi) ∂µi ∂ηi −1 ∂µi ∂ηi 2 xij si hacemoswi = ωi φiV(µi) ∂µi ∂ηi 2 yhi = ∂µi ∂ηi entonces U(βj) = n X i=1 yi −µi hi wixij (8)
Forma matricial de la funci´
on de score
La ecuaci´on (8) es la que se obtiene de derivar la log-verosimilitud
con respecto a unβj. Si llevamos estas expresiones a la forma
matricial se obtiene que
U(β) =XtWH−1(y−µ) (9)
dondeW = diag(wi) yH = diag(hi). Cabe notar que W,H yµ
son funciones que dependen del valor deβ y adem´as que
var(y) =HW−1H.
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
Fisher-Scoring
En este punto para encontrar a ˆβ se usa el algortimo de
Fisher-Scoring que parte de la soluci´on iterativa de
Newton-Raphson: β(t+1) =β(t)− " ∂U(β) ∂β β=β(t) #−1 U(β(t)) y como ∂U(β) ∂β = ∂2l(θ, φ;y) ∂β∂βt ≈ −E ∂2l(θ, φ;y) ∂β∂βt = −E ∂l(θ, φ;y) ∂β ∂l(θ, φ;y) ∂β t = I(β)
Informaci´
on de Fisher
Para este caso se tiene que
I(β) = −E U(β)U(β)t = −E XtWH−1(y−µ)(y−µ)tH−1WX = −XtWH−1E(y−µ)(y−µ)tH−1WX = −XtWH−1var(y)H−1WX = −XtWX
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
M´ınimos cuadrados ponderados iterativos
Finalmente se obtiene que :β(t+1) = β(t)+ XtWX−1
XtWH−1(y−µ)
XtWXβ(t+1) = XtWXβ(t)+XtWH−1(y−µ) = XtW hXβ(t)+H−1(y−µ)i
lo que nos lleva finalmente a que
β(t+1)= XtWX−1XtWy˜ (10)
donde ˜y =η+H−1(y−µ) es la expancin lineal deg(y) al rededor deµ. As la varianza de ˆβ viene dada por var( ˆβ) = (XtWX)−1.
Funci´
on de score
Ahora considere el caso en el queφes desconocido pero constante
para todas las observacionesyi; la estimacin de β parte de la
misma funcin de score:
U(βj) = n X i=1 ωi[yi−µi] φV(µi) ∂µi ∂ηi −1 ∂µi ∂ηi 2 xij
perowi, en este caso, se define como wi =
ωi V(µi) ∂µi ∂ηi 2 y hi = ∂µi ∂ηi
lo que nos lleva a
U(β) =X1
φWH
−1(y−µ)
Introducci´on
Estimaci´on cl´asica
Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo en la familia exponencial conφconocido
Modelo en la familia exponencial conφdesconocido
Estimaci´
on de par´
ametros
Como nuestro objetivo es encontrar un ˆβ tal que U( ˆβ) = 0
llegamos de nuevo a la soluci´on mostrada en (10) con elW
definido en las lineas de arriva y var( ˆβ) =φ(XtWX)−1.
Notese ahora que en este caso la varianza de los errores viene dada por
var(y−µ) =φHW−1H
lo que nos lleva a que la estructura de correlaci´on de los errores es
dada porHW−1H asi, de forma natural, un estimador de φes
dado por ˆ
φ= (y−µ)t(HW−1H)−1(y−µ)/n−p= χ
2
n−p (11)
para la cual χφ2 tiene distribuci´on asint´oticaχ2
Especificaci´
on del modelo
Si el modelo que se considera es dado por (5) y se quiere hacer
una estimaci´on bayesiana de los par´ametros observece que la
verosimilitud es dada por:
L(β, σ2;y) = (2π|V|σ2)−n/2exp 1 2σ2 (y−Xβ) tV−1(y−Xβ) = k(σ2)−n/2exp − 1 2σ2 β−βˆ t (XtV−1X) β−βˆ −(n−p)ˆσ 2 2σ2
en que ˆβ y ˆσ2 son dados por las expresiones (7) y (7)
respectivamente.
Introducci´on Estimaci´on cl´asica
Estimaci´on bayesiana
Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo de la familia exponencial
Distribuciones a priori y a posteriori
Con respecto a las distribuciones a priori paraβ yσ2 se escogen
las priori conjugadas normal e inversa gamma, es decir
π(β) ∝ exp −1 2(β−a) tR−1(β−a) π(σ2) ∝ (σ2)−ν2−1exp n − s 2σ2 o
Lo que permite construir las dispribuciones a posteriori condicionales completas π(β;σ2,y) = N(m,C) π(σ2;β,y) = IG ν∗ 2 , s∗ 2
Distribuciones a priori y a posteriori II
donde C = R−1+ 1 σ2X tVX −1 m = C R−1a+ 1 σ2X tV−1y y ν∗ = n+ν s∗ = (y−Xβ)0V−1(y−Xβ) +sPara muestrear estas distribuciones se puede usar un muestreador de Gibbs.
Introducci´on Estimaci´on cl´asica
Estimaci´on bayesiana
Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo de la familia exponencial
Distribuci´
on a priori y a posteriori
Si asumimos el par´ametro de dsipersi´onφi conocido para todos los
individuos y a priori asumimos una distribuci´on normal para el
vector de par´ametrosβ, esto esβ∼N(a,R); asumiendo que la
verosimilitud es la exponencial de la ecuaci´on (4), entonces la
distribuci´on a posteriori deβ es dad por:
π(β)∝exp ( −1 2(β−a) tR−1(β−a) + n X i=1 yiθi−b(θi) φi ) (12)
M´ınimios cuadrados ponderados propositivos
Gamerman(96) propone un muestreador Metropolis-Hastings para la distribuci´on a posterioriπ(β). La densidad de transici´on
q(β, β∗) es construida como si la verosimilitud fuese una densidad
normal de media ˜(y) =η+H−1(y−µ) y matriz de
varianza-covarianza (XtWX)−1 y la priori normalN(a,R), es decir:
q(β, β∗) =N(m(β),C(β)) donde
C(β) = (R−1+XtWX)−1 (13)
m(β) =C(R−1a+XtWXy˜) (14)
en queW y ˜y dependen deβ
Introducci´on Estimaci´on cl´asica
Estimaci´on bayesiana
Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo de la familia exponencial
Algoritmo Metropolis-Hastings
El algoritmo propuesto por Gamerman es:
1. Dar valores iniciales para β digamosβ(0) y hacemost = 1.
2.a Muestrear β∗ de la normal N(m(β(t−1)),C(β(t−1))), que es la densidad propositiva.
2.b Aceptar este valor con probabilidad α(β(t−1), β∗) y hacer
β(t)=β∗. En otro caso hacer β(t)=β(t−1).
3. Incrementart en 1 y regresar al paso 2.
Densidad propositiva v´ıa aproximaci´
on de Laplace
Como primera parte se aproxima la funci´on de verosimilitud por
medio del m´etodo de Laplace, obteniendo que
L(β;y)≈N(βm,I(βm)−1) dondeβm denota la moda de la
verosimilitud (o la estimaci´on maximo-verosimil) yI(βm) es la
matriz de informaci´on de Fisher para β evaluada en βm. Con esta
distribuci´on y la a prioriN(a,R) obtenemos una distribuci´on a posterioriN(m,C) donde
C = (R−1+XtWX)−1
m = C(R−1a+XtWXβm)
en queW depende de βm.
Introducci´on Estimaci´on cl´asica
Estimaci´on bayesiana
Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa
Modelo de respuesta normal
Modelo de la familia exponencial
Algoritmo Para la t´
ecnica propuesta
La distribuci´on a posteriori que se obtuvo en la lamina anterior ser´a
la densidad propositiva para muestrearπ(β). Usando el algoritmo:
1. Dar valores iniciales para β digamosβ(0) y hacemost = 1.
2.a Muestrear β∗ de la normal N(m(βm),C(βm)), que es la
densidad propositiva.
2.b Aceptar este valor con probabilidad α(β(t−1), β∗) y hacer
β(t)=β∗. En otro caso hacer β(t)=β(t−1).
3. Incrementart en 1 y regresar al paso 2.
Note que en este caso los momentos de la densidad propositiva no dependen del estado anterior de la cadena, lo que evidentemente mejorar´ıa la velocidad del muestreador.
Descripci´
on del ejemplo
Considere los datos dados en Crower(1978,Tabla 3) que consisten
de la proporci´on de semillas germinadas en 21 platos. Las
covariables relevantes del estudio son tipos de semillas (2 tipos),
extracto de la ra´ız (2 tipos) y un termino de interacci´on.
Las probabilidades de ´exitoπi est´an relacionados a las covariables
por medio de la funci´on de enlace logit, es decir:
logit(πi) =xitβ
parai = 1, ...,n.
Introducci´on Estimaci´on cl´asica Estimaci´on bayesiana
Ejemplo de regresi´on logistica
Conclusiones Bibliograf´ıa
Semillas, tipos y raices
Cadenas del muestreador de Gamerman
Cadena de beta 1 Iter beta 1 0 2000 4000 6000 8000 10000 −0.8 −0.4 −0.9 −0.7 −0.5 −0.3 0 2 4 Densidad de beta 1 beta 1 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 1 Lag A utocorrelation Cadena de beta 2 Iter beta 2 0 2000 4000 6000 8000 10000 −0.4 0.2 0.8 −0.4 0.0 0.2 0.4 0.6 0.8 0.0 1.5 Densidad de beta 2 beta 2 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 2 Lag A utocorrelation Cadena de beta 3 Iter beta 3 0 2000 4000 6000 8000 10000 1.0 1.4 1.8 0.8 1.0 1.2 1.4 1.6 1.8 0.0 1.5 3.0 Densidad de beta 3 beta 3 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 3 Lag A utocorrelation Cadena de beta 4 Iter beta 4 0 2000 4000 6000 8000 10000 −1.5 −0.5 −1.5 −1.0 −0.5 0.0 0.0 1.0 Densidad de beta 4 beta 4 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 4 Lag A utocorrelation
Cadenas del muestreador propuesto
Cadena de beta 1 Iter beta 1 0 2000 4000 6000 8000 10000 −1.0 −0.4 −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.0 1.5 3.0 Densidad de beta 1 beta 1 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 1 Lag A utocorrelation Cadena de beta 2 Iter beta 2 0 2000 4000 6000 8000 10000 −0.5 0.5 −0.5 0.0 0.5 1.0 0.0 1.0 Densidad de beta 2 beta 2 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 2 Lag A utocorrelation Cadena de beta 3 Iter beta 3 0 2000 4000 6000 8000 10000 0.6 1.2 1.8 0.5 1.0 1.5 2.0 0.0 1.0 2.0 Densidad de beta 3 beta 3 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 3 Lag A utocorrelation Cadena de beta 4 Iter beta 4 0 2000 4000 6000 8000 10000 −1.5 0.0 −2.0 −1.5 −1.0 −0.5 0.0 0.5 0.0 0.6 1.2 Densidad de beta 4 beta 4 Densidad 0 10 20 30 40 −1.0 0.0 1.0 Autocorrelación de beta 4 Lag A utocorrelationIntroducci´on Estimaci´on cl´asica Estimaci´on bayesiana
Ejemplo de regresi´on logistica
Conclusiones Bibliograf´ıa
Semillas, tipos y raices
Estad´ısticas resumen
Gamerman mean sd 2.5% median 97.5%
(Intercept) -0.558 0.089 -0.737 -0.557 -0.384
x1 0.146 0.160 -0.165 0.145 0.468
x2 1.317 0.125 1.074 1.317 1.561
x1 :x2 -0.775 0.214 -1.191 -0.777 -0.361
Propuesta mean sd 2.5% median 97.5%
(Intercept) -0.559 0.126 -0.808 -0.559 -0.320
x1 0.143 0.225 -0.299 0.144 0.586
x2 1.322 0.176 0.983 1.321 1.673
Resultados fuertes y discusi´
on
La velocidad en el muestreo de la distribuci´on a posteriori a
mejorado notablemente.
La correlaci´on presentada en el m´etodo propuesto por
Gamerman no esta presente en la nueva propuesta para muestrear a π(β)
Se ha disminuido, en gran medida, el gasto computacional.
Introducci´on Estimaci´on cl´asica Estimaci´on bayesiana Ejemplo de regresi´on logistica
Conclusiones
Bibliograf´ıa
Resultados fuertes y discusi´on
Proxima investigaci´on
Investigaciones futuras
El m´etodo propuesto ser´a implementado en los modelos
doblemente generalizados.
Existen problemas de multimodalidad en la verosimilitud.
Modificar el m´etodo de aproximaciones de Laplace iterativa
para funciones que integran a uno.
Aplicar el resultado final a modelos de teor´ıa de respuesta al ´ıtem.
El m´etodo mejorar´a la velocidad y el gasto computacional
Bibliograf´ıa
D. Gamerman,Sampling from the posteriori distribution in
generalized linear models, Statistics and Computing, 7(57-68), 1996.
M.J. Crowder,Beta-binomial ANOVA for proportions,
Applied Statistics, 27(34-37), 1978.