Estimación Bayesiana en el modelo lineal generalizado

(1)

Introducción Estimación clásica Estimación bayesiana Ejemplo de regresión logistica Conclusiones Bibliograf´ıa

Estimaci´

on Bayesiana en el modelo lineal

generalizado

Hernando Alvarado Quintero and Fabian Guillermo Rojas Rodr´ıguez

Universidad Nacional de Colombia

[email protected]@unal.edu.co

(2)

Contenido de la presentaci´

on

1 _Introducci´_on

Modelo lineal generalizado Metodolog´ıa MCMC

Aproximaci´on de Laplace

Notaci´on

2 Estimaci´on cl´asica

Modelo de respuesta normal

Modelo en la familia exponencial conφconocido

Modelo en la familia exponencial conφdesconocido

3 _Estimaci´_{on bayesiana}

Modelo de respuesta normal Modelo de la familia exponencial

Muestreador de Gamerman Muestreador propuesto

4 Ejemplo de regresi´on logistica

Semillas, tipos y raices

5 Conclusiones

Resultados fuertes y discusi´on

Proxima investigaci´on

6 Bibliograf´ıa

(3)

Introducci´on

Estimación clásica Estimación bayesiana Ejemplo de regresión logistica Conclusiones Bibliograf´ıa

Modelo lineal generalizado

Metodolog´ıa MCMC Aproximaci´on de Laplace Notaci´on

Familia exponencial

La familia exponencial es una familia de funciones de distribuci´on

para variables aleatorias reales que toma la forma:

fY(y|θ, φ) = exp yθ−b(θ) a(φ) +c(y;φ) (1)

cuyos momentos est´an dados por:

E(y) = b0(θ) =µ

var(y) = a(φ)b00(θ) =σ2

La funciónb00(θ) expresada en términos deµes llamada función de

varianza y es denotada porV(µ). Generalmente a(φ) es de la

(4)

Elementos del modelo lineal generalizado

Supongase que se tienenn r´eplicas independientes de la variable

aleatoriaY con funci´on de densidad dada por (1) y que para cada

una de estas r´eplicas se tiene un conjunto de covariables

X = (X1, ...,XP) que intentan explicar la media de cada variable

yi,i = 1, ...,n donde se asume homocedasticidad . El modelo que

se plantea para esto es:

g(µi) = ηi

ηi = xitβ

dondeg(·) es conocida como funci´on de enlace,ηi es el predictor

lineal para el individuoi yβ es un vector de par´ametros de

dimensi´onp asociados a las covariabes X.

(5)

Introducci´on

Modelo lineal generalizado

Metodolog´ıa MCMC

Aproximaci´on de Laplace Notaci´on

Markov Chain Monte Carlo

Esta metodolog´ıa se basa en el remplazamiento de la densidad analitica por una muestra de esta. De manera mas simple, la

metodolog´ıa MCMC se basa en la construcci´on de una densidad de

transici´onq(x,x∗) tal que la cadena tiene probabilidad de

equilibrioπ(x) que es la densidad que se quiere reemplazar.

Una muestra dexgenerada de π es obtenida por:

1. Dar un valor inicial x=x(0) y hacer t = 1.

2. Muestrear x(t) de q(x(t−1),x).

3. Incrementart en 1 y regresar al paso 2.

(6)

Esquemas de la metodolog´ıa MCMC

1. Muestreador de Gibbs: Su transici´on es formada por el

muestreo sucesivo de las distribuciones condicionales completas πk(xk|x−k).

2. Metropolis-Hastings: Considere una densidad de transici´on

generalq(x,x∗) y definace α(x,x∗) =min 1,π(x ∗₎_q₍_x∗_,_x₎ π(x)q(x,x∗)

El movimiento del estado x(t−1) al estadox(t) es hecho como

sigue: (a) se muestreax∗ deq(x(t−1),x); (b) se acepta el movimiento ax∗ con probabilidad α(xt−1,x) y se hace

xt =x∗. En otro caso se hacext =x(t−1)

(7)

Introducci´on

Modelo lineal generalizado Metodolog´ıa MCMC

Aproximaci´on de Laplace

Notaci´on

Aproximaci´

on de Laplace a la verosimilitud

Suponga que se tiene la funci´on de verosimilitudL(y;θ) de una

muestra aleatoriay. Tomemos su logaritmo denotado por l(y;θ) y

hallemos su expanci´on de series de Taylor al rededor de un punto

m: l(y;θ) ≈ l(y;m) + (θ−m)t ∂l(y;θ) ∂θ θ=m (2) +1 2(θ−m) t ∂2l(y;θ) ∂θ∂θt θ=m (θ−m)

(8)

La verosimilitud aproximada

Si asumimos quem es la estimaci´on m´aximo-verosimil de θvemos

que el segundo t´ermino a la derecha de la expresi´on (3) es igual a

cero. Adem´as si se aproxima la matriz de segundas derivadas

mostrada arriva por la matriz de informaci´on de Fisher paraθ (o

bien la matriz observada)I(θ) entonces obtenemos que:

l(y;θ)≈l(y;m)−1

2(θ−m)

t_I₍_θ₎₍_θ₋_m₎

finalmente tomando exponencial a ambos lados se obtiene que

L(y;θ)∝L(y;m)N(m,I(θ)−1) (3)

(9)

Introducci´on

Modelo lineal generalizado Metodolog´ıa MCMC Aproximaci´on de Laplace

Notaci´on

Notaci´

on

En lo que sigue de la presentaci´on muchos de los c´alculos estan

basados en ecuaciones impl´ıcitas, donde nuestra variable de inter´es

será un vector de parámetros desconocidosβ que dará los valores

de las funcionesµ(β), H(β) y W(β).

Mientras no se tenga el valor real deβ pero si una estimaci´on de

este ˆβ las funcionesµ(·),H(·) yW(·) deber´an ser escritas como ˆµ, ˆ

H y ˆW respectivamente.

Con el propósito de mejorar la notación se trabajará

indistintamente conµ,H yW en vez de ˆµ, ˆH y ˆW, teniendo en

cuenta que siempre ser´an funciones que dependen de la estimaci´on

(10)

Verosimilitud de la familia exponencial

Para la estimaci´on de par´ametros de un modelo, ya sea la

estimación clásica o bayesiana, es indispensable la función de verosimilitud de los datos en estudio. Para el caso de la familia exponencial la log-verosimilitud es dada por

l(y;θ, φ) = n X i=1 li = n X i=1 ωi φi [yiθi−b(θi)] +c(yi, φi) (4)

dondeli =l(yi;θi, φi) es la log-verosimilitud con respecto a una

sola observación. La derivada con respecto a algún parámetro de

interés se denotará porU(·) y se llamará función de score.

(11)

Introducci´on

Estimaci´on cl´asica

Estimaci´on bayesiana Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa

Modelo en la familia exponencial conφconocido Modelo en la familia exponencial conφdesconocido

M´ınimos cuadrado ordinarios

En el modelo de respuesta normal asumimos independencia entre observaciones y homocedasticidad. Este modelo esta construido como

y =Xβ+ε

en queε∼N(0, σ2I) y µ= E(Y) =Xβ. Recordemos que las

estimaciones de m´axima verosimilitud de los par´ametrosβ yσ2

estan dados por: ˆ

β = (XtX)−1Xty

ˆ

σ2 = (y−Xβˆ)t(y−Xβˆ)/n−p

Pero si no se cumple el supuesto de independencia entre

(12)

M´ınimos cuadrados ponderados

Si no tenemos el supuesto de independencia, pero se tiene un

supuesto de correlaci´on entre individuos que es conocido y se

puede representar a trav´es de una matriz sim´etricaV el modelo

toma la forma

y =Xβ+ε (5)

dondeε∼N(0, σ2V) yµ= E(Y) =Xβ. Las estimaciones de los

par´ametros en este caso vienen dadas por

ˆ

β = (XtVX)−1XtVy (6)

ˆ

σ2 = (y−Xβˆ)tV−1(y−Xβˆ)/n−p (7)

La matrizV se puede ver de dos formas: En la estimaci”on de

βfunciona como una matriz de ponderaci´on en las observaciones,

mientras que en la estimaci´on deσ2 es la estructura de correlaci´on

de los eroresε=y−µ. Note que var( ˆβ) =σ2(XtVX)−1.

(13)

Introducci´on

Funci´

on de score

La estimación de los parámetros se hace via máxima verosimilitud

para el vector de par´ametros β. Nos interesa encontrar unβ = ˆβ

tal queU( ˆβ) = 0 en que

U(βj) = ∂l(θ, φ;y) ∂βj = n X i=1 ∂li ∂θi ∂θi ∂µi ∂µi ∂ηi ∂ηi ∂βj dondeli es dado en (4).

(14)

Derivadas parciales

Tenemos para la familia exponencial, que:

∂li ∂θi = ωi φi [yi−b0(θi)] = ωi φi (yi −µi) ∂θi ∂µi = ∂µi ∂θi −1 = [b00(θi)]−1= 1 V(µi) ∂µi ∂ηi = ∂µi ∂ηi 2 ∂µi ∂ηi −1 ∂ηi ∂βj = xij

(15)

Introducci´on

Funci´

on de score II

lo que nos lleva a que

U(βj) = n X i=1 ωi[yi−µi] φiV(µi) ∂µi ∂ηi −1 ∂µi ∂ηi 2 xij si hacemoswi = ωi φiV(µi) ∂µi ∂ηi 2 yhi = ∂µi ∂ηi entonces U(βj) = n X i=1 yi −µi hi wixij (8)

(16)

Forma matricial de la funci´

on de score

La ecuaci´on (8) es la que se obtiene de derivar la log-verosimilitud

con respecto a unβj. Si llevamos estas expresiones a la forma

matricial se obtiene que

U(β) =XtWH−1(y−µ) (9)

dondeW = diag(wi) yH = diag(hi). Cabe notar que W,H yµ

son funciones que dependen del valor deβ y adem´as que

var(y) =HW−1H.

(17)

Introducci´on

Fisher-Scoring

En este punto para encontrar a ˆβ se usa el algortimo de

Fisher-Scoring que parte de la soluci´on iterativa de

Newton-Raphson: β(t+1) =β(t)− " ∂U(β) ∂β β=β(t) #−1 U(β(t)) y como ∂U(β) ∂β = ∂2l(θ, φ;y) ∂β∂βt ≈ −E ∂2l(θ, φ;y) ∂β∂βt = −E ∂l(θ, φ;y) ∂β ∂l(θ, φ;y) ∂β t = I(β)

(18)

Informaci´

on de Fisher

Para este caso se tiene que

I(β) = −E U(β)U(β)t = −E XtWH−1(y−µ)(y−µ)tH−1WX = −XtWH−1E(y−µ)(y−µ)tH−1WX = −XtWH−1var(y)H−1WX = −XtWX

(19)

Introducci´on

M´ınimos cuadrados ponderados iterativos

Finalmente se obtiene que :

β(t+1) = β(t)+ XtWX−1

XtWH−1(y−µ)

XtWXβ(t+1) = XtWXβ(t)+XtWH−1(y−µ) = XtW hXβ(t)+H−1(y−µ)i

lo que nos lleva finalmente a que

β(t+1)= XtWX−1XtWy˜ (10)

donde ˜y =η+H−1(y−µ) es la expancin lineal deg(y) al rededor deµ. As la varianza de ˆβ viene dada por var( ˆβ) = (XtWX)−1.

(20)

Funci´

on de score

Ahora considere el caso en el queφes desconocido pero constante

para todas las observacionesyi; la estimacin de β parte de la

misma funcin de score:

U(βj) = n X i=1 ωi[yi−µi] φV(µi) ∂µi ∂ηi −1 ∂µi ∂ηi 2 xij

perowi, en este caso, se define como wi =

ωi V(µi) ∂µi ∂ηi 2 y hi = ∂µi ∂ηi

lo que nos lleva a

U(β) =X1

φWH

−1₍_y₋_µ₎

(21)

Introducci´on

Estimaci´

on de par´

ametros

Como nuestro objetivo es encontrar un ˆβ tal que U( ˆβ) = 0

llegamos de nuevo a la soluci´on mostrada en (10) con elW

definido en las lineas de arriva y var( ˆβ) =φ(Xt_WX₎−1_.

Notese ahora que en este caso la varianza de los errores viene dada por

var(y−µ) =φHW−1H

lo que nos lleva a que la estructura de correlaci´on de los errores es

dada porHW−1_H _{asi, de forma natural, un estimador de} _φ_es

dado por ˆ

φ= (y−µ)t(HW−1H)−1(y−µ)/n−p= χ

2

n−p (11)

para la cual χ_φ2 tiene distribuci´on asint´oticaχ2

(22)

Especificaci´

on del modelo

Si el modelo que se considera es dado por (5) y se quiere hacer

una estimaci´on bayesiana de los par´ametros observece que la

verosimilitud es dada por:

L(β, σ2;y) = (2π|V|σ2)−n/2exp 1 2σ2 (y−Xβ) t_V−1₍_y₋_X_β₎ = k(σ2)−n/2exp − 1 2σ2 β−βˆ t (XtV−1X) β−βˆ −(n−p)ˆσ 2 2σ2

en que ˆβ y ˆσ2 son dados por las expresiones (7) y (7)

respectivamente.

(23)

Introducción Estimación clásica

Estimaci´on bayesiana

Ejemplo de regresi´on logistica Conclusiones Bibliograf´ıa

Modelo de la familia exponencial

Distribuciones a priori y a posteriori

Con respecto a las distribuciones a priori paraβ yσ2 se escogen

las priori conjugadas normal e inversa gamma, es decir

π(β) ∝ exp −1 2(β−a) t_R−1₍_β₋_a₎ π(σ2) ∝ (σ2)−ν2−1exp n − s 2σ2 o

Lo que permite construir las dispribuciones a posteriori condicionales completas π(β;σ2,y) = N(m,C) π(σ2;β,y) = IG ν∗ 2 , s∗ 2

(24)

Distribuciones a priori y a posteriori II

donde C = R−1+ 1 σ2X t_VX −1 m = C R−1a+ 1 σ2X t_V−1_y y ν∗ = n+ν s∗ = (y−Xβ)0V−1(y−Xβ) +s

Para muestrear estas distribuciones se puede usar un muestreador de Gibbs.

(25)

Distribuci´

on a priori y a posteriori

Si asumimos el par´ametro de dsipersi´onφi conocido para todos los

individuos y a priori asumimos una distribuci´on normal para el

vector de par´ametrosβ, esto esβ∼N(a,R); asumiendo que la

verosimilitud es la exponencial de la ecuaci´on (4), entonces la

distribuci´on a posteriori deβ es dad por:

π(β)∝exp ( −1 2(β−a) t_R−1₍_β₋_a_{) +} n X i=1 yiθi−b(θi) φi ) (12)

(26)

M´ınimios cuadrados ponderados propositivos

Gamerman(96) propone un muestreador Metropolis-Hastings para la distribuci´on a posterioriπ(β). La densidad de transici´on

q(β, β∗) es construida como si la verosimilitud fuese una densidad

normal de media ˜(y) =η+H−1(y−µ) y matriz de

varianza-covarianza (Xt_WX₎−1 _{y la priori normal}_N₍_a_,_R_{), es decir:}

q(β, β∗) =N(m(β),C(β)) donde

C(β) = (R−1+XtWX)−1 (13)

m(β) =C(R−1a+XtWXy˜) (14)

en queW y ˜y dependen deβ

(27)

Algoritmo Metropolis-Hastings

El algoritmo propuesto por Gamerman es:

1. Dar valores iniciales para β digamosβ(0) y hacemost = 1.

2.a Muestrear β∗ de la normal N(m(β(t−1)),C(β(t−1))), que es la densidad propositiva.

2.b Aceptar este valor con probabilidad α(β(t−1), β∗) y hacer

β(t)=β∗. En otro caso hacer β(t)=β(t−1).

(28)

Densidad propositiva v´ıa aproximaci´

on de Laplace

Como primera parte se aproxima la funci´on de verosimilitud por

medio del m´etodo de Laplace, obteniendo que

L(β;y)≈N(βm,I(βm)−1) dondeβm denota la moda de la

verosimilitud (o la estimaci´on maximo-verosimil) yI(βm) es la

matriz de informaci´on de Fisher para β evaluada en βm. Con esta

distribuci´on y la a prioriN(a,R) obtenemos una distribuci´on a posterioriN(m,C) donde

C = (R−1+XtWX)−1

m = C(R−1a+XtWXβm)

en queW depende de βm.

(29)

Algoritmo Para la t´

ecnica propuesta

La distribuci´on a posteriori que se obtuvo en la lamina anterior ser´a

la densidad propositiva para muestrearπ(β). Usando el algoritmo:

1. Dar valores iniciales para β digamosβ(0) y hacemost = 1.

2.a Muestrear β∗ de la normal N(m(βm),C(βm)), que es la

densidad propositiva.

2.b Aceptar este valor con probabilidad α(β(t−1), β∗) y hacer

β(t)₌_β∗_{. En otro caso hacer} _β(t)₌_β(t−1)_.

Note que en este caso los momentos de la densidad propositiva no dependen del estado anterior de la cadena, lo que evidentemente mejorar´ıa la velocidad del muestreador.

(30)

Descripci´

on del ejemplo

Considere los datos dados en Crower(1978,Tabla 3) que consisten

de la proporci´on de semillas germinadas en 21 platos. Las

covariables relevantes del estudio son tipos de semillas (2 tipos),

extracto de la ra´ız (2 tipos) y un termino de interacci´on.

Las probabilidades de ´exitoπi est´an relacionados a las covariables

por medio de la funci´on de enlace logit, es decir:

logit(πi) =xitβ

parai = 1, ...,n.

(31)

Introducción Estimación clásica Estimación bayesiana

Ejemplo de regresi´on logistica

Conclusiones Bibliograf´ıa

Cadenas del muestreador de Gamerman

Cadena de beta 1 Iter beta 1 0 2000 4000 6000 8000 10000 −0.8 −0.4 −0.9 −0.7 −0.5 −0.3 0 2 4 Densidad de beta 1 beta 1 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 1 Lag A utocorrelation Cadena de beta 2 Iter beta 2 0 2000 4000 6000 8000 10000 −0.4 0.2 0.8 −0.4 0.0 0.2 0.4 0.6 0.8 0.0 1.5 Densidad de beta 2 beta 2 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 2 Lag A utocorrelation Cadena de beta 3 Iter beta 3 0 2000 4000 6000 8000 10000 1.0 1.4 1.8 0.8 1.0 1.2 1.4 1.6 1.8 0.0 1.5 3.0 Densidad de beta 3 beta 3 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 3 Lag A utocorrelation Cadena de beta 4 Iter beta 4 0 2000 4000 6000 8000 10000 −1.5 −0.5 −1.5 −1.0 −0.5 0.0 0.0 1.0 Densidad de beta 4 beta 4 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 4 Lag A utocorrelation

(32)

Cadenas del muestreador propuesto

Cadena de beta 1 Iter beta 1 0 2000 4000 6000 8000 10000 −1.0 −0.4 −1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.0 1.5 3.0 Densidad de beta 1 beta 1 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 1 Lag A utocorrelation Cadena de beta 2 Iter beta 2 0 2000 4000 6000 8000 10000 −0.5 0.5 −0.5 0.0 0.5 1.0 0.0 1.0 Densidad de beta 2 beta 2 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 2 Lag A utocorrelation Cadena de beta 3 Iter beta 3 0 2000 4000 6000 8000 10000 0.6 1.2 1.8 0.5 1.0 1.5 2.0 0.0 1.0 2.0 Densidad de beta 3 beta 3 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 3 Lag A utocorrelation Cadena de beta 4 Iter beta 4 0 2000 4000 6000 8000 10000 −1.5 0.0 −2.0 −1.5 −1.0 −0.5 0.0 0.5 0.0 0.6 1.2 Densidad de beta 4 beta 4 Densidad 0 10 20 30 40 −1.0 0.0 1.0 AutocorrelaciÃ³n de beta 4 Lag A utocorrelation

(33)

Introducción Estimación clásica Estimación bayesiana

Ejemplo de regresi´on logistica

Conclusiones Bibliograf´ıa

Estad´ısticas resumen

Gamerman mean sd 2.5% median 97.5%

(Intercept) -0.558 0.089 -0.737 -0.557 -0.384

x1 0.146 0.160 -0.165 0.145 0.468

x2 1.317 0.125 1.074 1.317 1.561

x1 :x2 -0.775 0.214 -1.191 -0.777 -0.361

Propuesta mean sd 2.5% median 97.5%

(Intercept) -0.559 0.126 -0.808 -0.559 -0.320

x1 0.143 0.225 -0.299 0.144 0.586

x2 1.322 0.176 0.983 1.321 1.673

(34)

Resultados fuertes y discusi´

on

La velocidad en el muestreo de la distribuci´on a posteriori a

mejorado notablemente.

La correlaci´on presentada en el m´etodo propuesto por

Gamerman no esta presente en la nueva propuesta para muestrear a π(β)

Se ha disminuido, en gran medida, el gasto computacional.

(35)

Introducción Estimación clásica Estimación bayesiana Ejemplo de regresión logistica

Conclusiones

Bibliograf´ıa

Resultados fuertes y discusi´on

Proxima investigaci´on

Investigaciones futuras

El m´etodo propuesto ser´a implementado en los modelos

doblemente generalizados.

Existen problemas de multimodalidad en la verosimilitud.

Modificar el m´etodo de aproximaciones de Laplace iterativa

para funciones que integran a uno.

Aplicar el resultado final a modelos de teor´ıa de respuesta al ´ıtem.

El m´etodo mejorar´a la velocidad y el gasto computacional

(36)

Bibliograf´ıa

D. Gamerman,Sampling from the posteriori distribution in

generalized linear models, Statistics and Computing, 7(57-68), 1996.

M.J. Crowder,Beta-binomial ANOVA for proportions,

Applied Statistics, 27(34-37), 1978.