4. Modelos lineales generalizados

(1)

4. Modelos lineales generalizados

Introducción a los modelos de regresión generalizados

 Los modelos de regresión en general, son las herramientas estadísticas más usadas en la práctica. Estudian la relación entre dos o más variables observables “y” y “x”. En general estamos interesados en la distribución condicional de y dado x, parametrizada por f(y|,x), en donde se tienen acceso a n observaciones (xi,yi) condicionalmente independientes.

 Existen muchas formas de especificar la relación entre “y” y “x” (modelos lineales generalizados, regresión lineal y no lineal, paramétricos y no paramétricos).

 La variable de interés “y” se conoce como variable respuesta y puede ser de naturaleza continua, discreta o categórica, mientras que las variables x’(x1,x2,...,xp-1) son llamadas variables explicativas o predictoras y

también pueden ser discretas, continuas o categóricas.

 MODELO LINEAL NORMAL: Sean Yi, xi’ (1,xi1,xi2,...,xi,p-1) , i1,2,..,n un

conjunto de variables aleatorias tal que

i 1 ip 1 p 2 i 2 1 i 1 0 i x x x Y    _ _ _  x_i'_i,

donde, '



₀,₁,,_p_₁



en un vector de p parámetros,

(2)

con Var

 

_i 1/2. Esto implica que



Y , ,x



x ' E _i 2 _i _i





2 i 2 i , ,x 1/ Y Var    

 Alternativamente, el modelo se puede escribir como:



 



 

, ,x N x ' ,

Y_i _i _i , i1,...,n

De manera conjunta, el modelo se puede expresar como:



X , I



N X , , Y     donde, Y'



Y₁,,Y_n



, '



₀,₁,,_p_₁



,                   1 np 1 n 1 p 2 21 1 p 1 11 x x 1 1 x x 1 x x 1 X       .  OBJETIVOs:

1) Estimar el valor de los parámetros y determinar si el efecto particular de una variable explicativa es significativo o no.

2) Predicción de observaciones futuras YF, basados en un valor xF ya sea

conocido o hipotético, i.e.,



 



 

, ,x N x ' ,

Y_F _F _F .

 El modelo de regresión lineal normal es un ejemplo de un modelo de regresión paramétrico y las variables explicativas sólo tienen efecto sobre

(3)

 Sin embargo, es posible que las variables explicativas no nadamás tengan un efecto sobre la media sino también sobre la varianza, i.e.,



Y , ,x



x ' E _i 2 _i _i





2

 

_i i 2 i , ,x x Y Var    e.g. 2

 

_x_i _exi'

En este caso tendríamos un modelo de regresión a la media y a la varianza.

 NOTA: Cuidar el espacio parametral

 ANÁLISIS DEL MODELO: El análisis del modelo desde un punto de vista

Bayesiano requiere de especificar una distribución inicial sobre los parámetros (,). recordemos que 1/2

es la precisión de los errores. Consideremos la función de verosimilitud,







 



     _  _ _ _ _     y X y X 2 exp X , , y f n/2 ' .

Escribiendo yXyXˆ X



ˆ 



, la verosimilitud toma la forma,



 



 _ 





_n_p



_s 



ˆ



_X_'_X



ˆ





_ 2 exp X , , y f n/2 2 ' , donde ˆ 



X'X



1X'y,



 



 



  _y _Xˆ _y _Xˆ p n 1 s2 ' .

A continuación consideraremos dos opciones de distribuciones iniciales y sus correspondientes distribuciones finales:

o Análisis de referencia: Inicial: 

 

, 1

(4)

Final: 



,y,X



N



ˆ,



X'X







Ga



(np)/2,(np)s2/2



, Marginalmente:









 

     __ _    y,X St ˆ, X'X s2 1,n p



y,X



Ga



(n p)/2,(n p)s2/2





Predictiva final: Dado un vector de covariables xF,

 





 

_      _ _ _   y_Fy St y_Fx_F'ˆ,1 x_F' X'X 1x_F 1 s2 1,n p . o_{Análisis conjugado}: Inicial: f

 

, N



b₀,T₀

 

Ga a₀/2,c₀/2



Final: f



,y,X

 

N b₁,T₁

 

Ga a₁/2,c₁/2



donde, b₁



X'XT₀



1



X'Xˆ T₀b₀



0 1 X'X T T   n a a₁ ₀ 



 

' ₀ ₁ ₀



0 1 1 ' 1 0 1 c y Xb y Xb b b T b b c       

Nota: T0 puede ser usada para romper multicolinealidad.

Marginalmente:



y,X

 

St b1,T1,a1



f   



y,X



Ga



a /2,c /2



f    ₁ ₁

Predictiva final: Dado un vector de covariables xF,

 





_         1 x 'Tx  ,n p c a , b ' x y St y y f _F ₁ _F 1 1 1 1 F F F .

(5)

 INFERENCIA: Recordemos que la inferencia se realiza utilizando la

distribución final de los parámetros y la predictiva final.

o Estimación / Predicción puntual. La estimación o predicción puntual puede realizarse utilizando alguna de las funciones de pérdida mencionadas anteriormente (cuadrática, absoluta o vecindad), obteniéndose la media, mediana o moda como estimadores o predictores puntuales.

o Pruebas de hipótesis. La prueba de hipótesis más utilizada en regresión es sobre la significancia de las variables explicativas del modelo, i.e.,

H0: j0 vs. H1: j0

La forma común de tomar la decisión es obteniendo un intervalo de credibilidad de j al (1) de probabilidad, y si el intervalo contiene al

cero se dice que la variable explicativa xj no es significativa para al

modelo, en caso contrario se dice que sí es significativa al nivel .

 AJUSTE DEL MODELO. En estadística frecuentista, una forma de medir el

ajuste del modelo es mediante el coeficiente de determinación R2. Este se basa en una partición de sumas de cuadrados que es válida al usar los estimadores de máxima verosimilitud. Al usar estimadores Bayesianos la partición en sumas de cuadrados ya no es válida.

o Sin embargo se sabe también que R2 



Corr



y_i,yˆ_i





2 con yˆ_i x_i'ˆ. Entonces en el caso Bayesiano es posible calcular una pseudo R2 calculando la correlación entre yi y yˆ y elevándola al cuadrado. i

(6)

o En el caso Bayesiano es más común verificar el ajuste del modelo calculando alguna de las medidas LPML, medida-L o DIC definidas anteriormente.

 EJERCICIO 3. A continuación se presenta una base de datos de

calificaciones de 20 empresas financieras hechas por las dos compañías calificadores más importantes S&P y Moody’s. Realiza un análisis Bayesiano completo de los datos, ajustando un modelo de regresión lineal, tomando como variable respuesta las calificaciones de S&P y como variable explicativa las calificaciones de Moody’s.

 EJERCICIO 4. Un investigador desea evaluar la relación entre el salario

anual de trabajadores de una compañía de nivel medio y alto (Y, en miles de dólares) y el índice de calidad de trabajo (X1), número de años de

experiencia (X2) y el índice de éxito en publicaciones (X3). La muestra

consiste de 24 trabajadores. Realiza un análisis Bayesiano completo de los datos y obtén las predicciones de salarios para 3 nuevos empleados con variables explicativas:



5.4,17,6.0



'

(7)

Modelos lineales generalizados

 Recordemos que el modelo de regresión lineal es una forma de describir la relación entre una variable respuesta “y” y un conjunto de variables explicativas x'



x₁,_,x_p



. Una forma más general de describir la distribución condicional de Y dado X, f(y|,x), es mediante la clase de modelos lineales generalizados.

 La idea general de los modelos lineales generalizados consiste en modelar el valor esperado de Y, digamos 

 

x E

 

Yx , a través de una función paramétrica simple de las variables explicativas, digamos 

 

,x , i.e.,

   

x ,x

 .

 Al considerar distintas distribuciones para la variable respuesta Y y distintas formas para la función (), este modelo produce una clase muy amplia de modelos de regresión generalizados.

 Los modelos lineales generalizados suponen que la función de densidad de la variable respuesta Y (discreta o continua) es un miembro de la familia exponencial, i.e.,



y,



b

 

y, exp







ya

 







f

donde a() y b() son funciones monótonas. El parámetro  es un parámetro de dispersión y cuando es conocido describe una familia exponencial natural. La media y la varianza de Y están dadas por:

 

 

 

   E Y a' y

 

    a '' Y Var .

(8)

 MODELO: Los modelos lineales generalizados se describen a través de una

componente aleatoria, una componente sistemática y una función liga: o Componente aleatoria: Sean Y1,Y2,...,Yn v.a.i. de la función de

densidad



yi i, i



b



yi, i



exp



i



yi i a

 

i





f        

o Componente sistemática: Para cada respuesta Yi se tiene un vector de

covariables o variables explicativas x_i'



1,x_i₁,_x_ip_₁



las cuales producen el predictor lineal

        _i ₀ ₁x_i₁ _ _p_₁x_ip_₁ x_i'

o Función liga: Las componentes aleatoria y sistemática se relacionan a través de una función liga g(), tal que

 

i i g 

 .

Un caso particular importante se obtiene cuando g1

 

 a'

 

 . En este caso, _i _i y g() es llamada liga canónica.

 CASOS PARTICULARES: Algunos de los modelos lineales generalizados más

usados en la práctica son el Normal, el Poisson y el Bernoulli. Sean Y1,Y2,...,Yn v.a.i. de la función de densidad

o Normal: Y_i_i N



_i,_i



, i  













( , )

 

i 2 i i i 2 / 1 i i i i y I y 2 exp 2 , y f  __      _  __      , donde

(9)









 

                         _         i i 2 i i i i 2 i i 2 / 1 i i i i i ' a 2 a y 2 exp 2 , y b Liga canónica: g

 

_i _i       _i _i x_i' (modelo lineal) o Poisson: Y_i_i Po

 

_i , i  +





0,1, 

 

i i y i i i I y ! y e y f i i      , donde



  

_ _

 

                      i _a_' _e i e a log y I ! y 1 y b , y b 1 i i i i i , 1 , 0 i i i i i 

Liga canónica: g

 

_i log_i

    

 log _i _i x_i' (modelo log-lineal)

o Bernoulli: Y_i_i Ber

 

_i , i  (0,1)









1 y _{ }₀_,₁

 

_i i y i i i 1 I y y f   i   i _{, donde}

(10)



  

_{ }

 





 





                                  i _a_' _e i ₁ _e i e 1 log a 1 log y I y b , y b 1 i i i i i i 1 , 0 i i i i Liga canónica:

 

_           i i i 1 log g               x ' 1 log _i _i i i _{(modelo logístico)}

Otras ligas: g

 

_i 1

 

_i , donde () es la función de distribución normal estándar  _i 

 

_i 



x_i'



(modelo probit)

 ANÁLISIS DEL MODELO: Consideremos la forma general del modelo lineal

generalizado, en donde las observaciones Y1,Y2,...,Yn son un conjunto de

v.a.i. de la función de densidad



yi i, i



b



yi, i



exp



i



yi i a

 

i





f         , i1,...,n.

Por simplicidad supongamos que i es conocido y que las componentes

aleatoria y sistemática se relacionan a través dela liga canónica, i.e., 

  

_i _i x_i' . En este caso, la función de verosimilitud es de la forma,

 

  _

_









 

 





_  n 1 i i i i i y x ' a x ' exp y f . Inicial: f

 

 N



b₀,T₀



Final:







 _











 

 



 

 

 





_  0 0 0 n 1 i i i i i b ' T b 2 1 ' x a ' x y exp X , y f

(11)

 

yF y f



yF xF' , F

 

f y,X



d E y,X



f



yF xF' , F





f 



    _   .

 AJUSTE DEL MODELO. Existen varias formas de medir la bondad del ajuste

de un modelo. En modelos lineales generalizados la medida más común es la devianza, la cual se define como dos veces el logaritmo del cociente de verosimilitudes, es decir,

 

ˆ|y L y | ~ L log 2 Dev    ,

donde ˆ y ~ son los valores maximizados de  en dos modelos diferentes. En el caso de modelos lineales generalizados la devianza toma la forma:





 







          n 1 i i i i i i i a ˆ ~ a ˆ ~ y 2 Dev .

Para los tres casos particulares de modelos lineales generalizados vistos anteriormente, la devianza es de la forma:

MODELO DEVIANZA Normal

_

_



   n 1 i 2 i i ˆ y Poisson







                n 1 i i i i i i y ˆ ˆ y log y 2 Bernoulli







                        n 1 i i i i i i i ˆ 1 y 1 log y 1 ˆ y log y 2

(12)

 NOTA. La Devianza es la medida de ajuste frecuentista usada para los

modelos lineales generalizados, son embargo en el caso Bayesiano es posible usar la medida equivalente DIC definida anteriormente.

 EJERCICIO 5. Tasas de mortalidad (Congdon, 2001). Una compañía de

seguros quiere lanzar un nuevo seguro médico para mineros. Para ello desea estimar la probabilidad de muerte (i), con base en el tiempo de

exposición al mineral (xi en horas). Se cuenta con información de las

muertes registradas entre 1950 y 1959, junto con el tiempo de exposición al mineral y el número de mineros expuestos. Realiza un análisis Bayesiano de los datos y obtén la distribución predictiva del número de muertes suponiendo que hay 100 mineros con un tiempo de exposición de 200 horas. El modelo es el siguiente: Para i1,...,N



_i _i



i i Bin n , Y   

 

_i ₀ ₁x_i logit    con ₀ N



0,0.001



y ₁N



0,0.001



.

 EJERCICIO 6. En el mismo contexto del problema anterior, supongamos

ahora que la compañía de seguros está interesada en modelar el número total de desastres (Yt) que ocurren en la mina. Se cuenta con N112

observaciones durante los años 1851 a 1962. Se proponen tres modelos: a) Modelo con tasa variable en función del tiempo:

 

_t t t Po Y   

 

t log _t ₀ ₁

(13)

b) Modelo con tasa constante en dos períodos: Se cree que la tasa promedio de desastres es constante, pero que en el siglo XX la tasa ha disminuido. Esto se traduce en el siguiente modelo:

 

_t t t Po Y   

 

   I



t



log _t ₀ ₁ con ₀ N



0,0.001



, ₁ N



0,0.001



y U



1,_,N



. c) Modelo Poisson dinámico:

Observación: Y_t_t Po

 

_t , log_t _t

Evolución: _t _t_₁_t, _t N



0,W1



 _t _t_₁ N



_t_₁,W1



con ₁ N



0,0.0001



y W1 Ga



0.01,0.01



.