• No se han encontrado resultados

4. Modelos lineales generalizados

N/A
N/A
Protected

Academic year: 2021

Share "4. Modelos lineales generalizados"

Copied!
13
0
0

Texto completo

(1)

4. Modelos lineales generalizados

Introducción a los modelos de regresión generalizados

 Los modelos de regresión en general, son las herramientas estadísticas más usadas en la práctica. Estudian la relación entre dos o más variables observables “y” y “x”. En general estamos interesados en la distribución condicional de y dado x, parametrizada por f(y|,x), en donde se tienen acceso a n observaciones (xi,yi) condicionalmente independientes.

 Existen muchas formas de especificar la relación entre “y” y “x” (modelos lineales generalizados, regresión lineal y no lineal, paramétricos y no paramétricos).

 La variable de interés “y” se conoce como variable respuesta y puede ser de naturaleza continua, discreta o categórica, mientras que las variables x’(x1,x2,...,xp-1) son llamadas variables explicativas o predictoras y

también pueden ser discretas, continuas o categóricas.

 MODELO LINEAL NORMAL: Sean Yi, xi’ (1,xi1,xi2,...,xi,p-1) , i1,2,..,n un

conjunto de variables aleatorias tal que

i 1 ip 1 p 2 i 2 1 i 1 0 i x x x Y      xi'i,

donde, '

0,1,,p1

en un vector de p parámetros,

(2)

con Var

 

i 1/2. Esto implica que

Y , ,x

x ' E i 2 i i

2 i 2 i , ,x 1/ Y Var    

 Alternativamente, el modelo se puede escribir como:

 

 

, ,x N x ' ,

Yi i i , i1,...,n

De manera conjunta, el modelo se puede expresar como:

X , I

N X , , Y     donde, Y'

Y1,,Yn

, '

0,1,,p1

,                   1 np 1 n 1 p 2 21 1 p 1 11 x x 1 1 x x 1 x x 1 X       .  OBJETIVOs:

1) Estimar el valor de los parámetros y determinar si el efecto particular de una variable explicativa es significativo o no.

2) Predicción de observaciones futuras YF, basados en un valor xF ya sea

conocido o hipotético, i.e.,

 

 

, ,x N x ' ,

YF F F .

 El modelo de regresión lineal normal es un ejemplo de un modelo de regresión paramétrico y las variables explicativas sólo tienen efecto sobre

(3)

 Sin embargo, es posible que las variables explicativas no nadamás tengan un efecto sobre la media sino también sobre la varianza, i.e.,

Y , ,x

x ' E i 2 i i

2

 

i i 2 i , ,x x Y Var    e.g. 2

 

xiexi'

En este caso tendríamos un modelo de regresión a la media y a la varianza.

 NOTA: Cuidar el espacio parametral

 ANÁLISIS DEL MODELO: El análisis del modelo desde un punto de vista

Bayesiano requiere de especificar una distribución inicial sobre los parámetros (,). recordemos que 1/2

es la precisión de los errores. Consideremos la función de verosimilitud,

 

          y X y X 2 exp X , , y f n/2 ' .

Escribiendo yXyXˆ X

ˆ 

, la verosimilitud toma la forma,

 

  

np

s

ˆ

X'X

ˆ

 2 exp X , , y f n/2 2 ' , donde ˆ 

X'X

1X'y,

 



 

  y Xˆ y Xˆ p n 1 s2 ' .

A continuación consideraremos dos opciones de distribuciones iniciales y sus correspondientes distribuciones finales:

o Análisis de referencia: Inicial: 

 

, 1

(4)

Final: 

,y,X

N

ˆ,

X'X

Ga

(np)/2,(np)s2/2

, Marginalmente:

 

         y,X St ˆ, X'X s2 1,n p

y,X

Ga

(n p)/2,(n p)s2/2

Predictiva final: Dado un vector de covariables xF,

 

 

       yFy St yFxF'ˆ,1 xF' X'X 1xF 1 s2 1,n p . o Análisis conjugado: Inicial: f

 

, N

b0,T0

 

Ga a0/2,c0/2

Final: f

,y,X

 

N b1,T1

 

Ga a1/2,c1/2

donde, b1

X'XT0

1

X'Xˆ T0b0

0 1 X'X T T   n a a10

 

 

 

' 0 1 0

0 1 1 ' 1 0 1 c y Xb y Xb b b T b b c       

Nota: T0 puede ser usada para romper multicolinealidad.

Marginalmente:

y,X

 

St b1,T1,a1

f   

y,X

Ga

a /2,c /2

f    1 1

Predictiva final: Dado un vector de covariables xF,

 

         1 x 'Tx  ,n p c a , b ' x y St y y f F 1 F 1 1 1 1 F F F .

(5)

 INFERENCIA: Recordemos que la inferencia se realiza utilizando la

distribución final de los parámetros y la predictiva final.

o Estimación / Predicción puntual. La estimación o predicción puntual puede realizarse utilizando alguna de las funciones de pérdida mencionadas anteriormente (cuadrática, absoluta o vecindad), obteniéndose la media, mediana o moda como estimadores o predictores puntuales.

o Pruebas de hipótesis. La prueba de hipótesis más utilizada en regresión es sobre la significancia de las variables explicativas del modelo, i.e.,

H0: j0 vs. H1: j0

La forma común de tomar la decisión es obteniendo un intervalo de credibilidad de j al (1) de probabilidad, y si el intervalo contiene al

cero se dice que la variable explicativa xj no es significativa para al

modelo, en caso contrario se dice que sí es significativa al nivel .

 AJUSTE DEL MODELO. En estadística frecuentista, una forma de medir el

ajuste del modelo es mediante el coeficiente de determinación R2. Este se basa en una partición de sumas de cuadrados que es válida al usar los estimadores de máxima verosimilitud. Al usar estimadores Bayesianos la partición en sumas de cuadrados ya no es válida.

o Sin embargo se sabe también que R2 

Corr

yi,yˆi

2 con yˆi xi'ˆ. Entonces en el caso Bayesiano es posible calcular una pseudo R2 calculando la correlación entre yi y yˆ y elevándola al cuadrado. i

(6)

o En el caso Bayesiano es más común verificar el ajuste del modelo calculando alguna de las medidas LPML, medida-L o DIC definidas anteriormente.

 EJERCICIO 3. A continuación se presenta una base de datos de

calificaciones de 20 empresas financieras hechas por las dos compañías calificadores más importantes S&P y Moody’s. Realiza un análisis Bayesiano completo de los datos, ajustando un modelo de regresión lineal, tomando como variable respuesta las calificaciones de S&P y como variable explicativa las calificaciones de Moody’s.

 EJERCICIO 4. Un investigador desea evaluar la relación entre el salario

anual de trabajadores de una compañía de nivel medio y alto (Y, en miles de dólares) y el índice de calidad de trabajo (X1), número de años de

experiencia (X2) y el índice de éxito en publicaciones (X3). La muestra

consiste de 24 trabajadores. Realiza un análisis Bayesiano completo de los datos y obtén las predicciones de salarios para 3 nuevos empleados con variables explicativas:

5.4,17,6.0

'

(7)

Modelos lineales generalizados

 Recordemos que el modelo de regresión lineal es una forma de describir la relación entre una variable respuesta “y” y un conjunto de variables explicativas x'

x1,,xp

. Una forma más general de describir la distribución condicional de Y dado X, f(y|,x), es mediante la clase de modelos lineales generalizados.

 La idea general de los modelos lineales generalizados consiste en modelar el valor esperado de Y, digamos 

 

x E

 

Yx , a través de una función paramétrica simple de las variables explicativas, digamos 

 

,x , i.e.,

   

x ,x

 .

 Al considerar distintas distribuciones para la variable respuesta Y y distintas formas para la función (), este modelo produce una clase muy amplia de modelos de regresión generalizados.

 Los modelos lineales generalizados suponen que la función de densidad de la variable respuesta Y (discreta o continua) es un miembro de la familia exponencial, i.e.,

y,

b

 

y, exp

ya

 

f

donde a() y b() son funciones monótonas. El parámetro  es un parámetro de dispersión y cuando es conocido describe una familia exponencial natural. La media y la varianza de Y están dadas por:

 

 

 

   E Y a' y

 

 

    a '' Y Var .

(8)

 MODELO: Los modelos lineales generalizados se describen a través de una

componente aleatoria, una componente sistemática y una función liga: o Componente aleatoria: Sean Y1,Y2,...,Yn v.a.i. de la función de

densidad

yi i, i

b

yi, i

exp

i

yi i a

 

i

f        

o Componente sistemática: Para cada respuesta Yi se tiene un vector de

covariables o variables explicativas xi'

1,xi1,xip1

las cuales producen el predictor lineal

        i 0 1xi1 p1xip1 xi'

o Función liga: Las componentes aleatoria y sistemática se relacionan a través de una función liga g(), tal que

 

i i g 

 .

Un caso particular importante se obtiene cuando g1

 

 a'

 

 . En este caso, i i y g() es llamada liga canónica.

 CASOS PARTICULARES: Algunos de los modelos lineales generalizados más

usados en la práctica son el Normal, el Poisson y el Bernoulli. Sean Y1,Y2,...,Yn v.a.i. de la función de densidad

o Normal: Yii N

i,i

, i  

( , )

 

i 2 i i i 2 / 1 i i i i y I y 2 exp 2 , y f              , donde

(9)

 

 

                                  i i 2 i i i i 2 i i 2 / 1 i i i i i ' a 2 a y 2 exp 2 , y b Liga canónica: g

 

i i       i i xi' (modelo lineal) o Poisson: Yii Po

 

i , i  +

0,1, 

 

i i y i i i I y ! y e y f i i      , donde

  

 

 

 

                      i a' e i e a log y I ! y 1 y b , y b 1 i i i i i , 1 , 0 i i i i i 

Liga canónica: g

 

i logi

    

 log i i xi' (modelo log-lineal)

o Bernoulli: Yii Ber

 

i , i  (0,1)

1 y  0,1

 

i i y i i i 1 I y y f   i   i , donde

(10)

  

 

 

 

 

                                  i a' e i 1 e i e 1 log a 1 log y I y b , y b 1 i i i i i i 1 , 0 i i i i Liga canónica:

 

           i i i 1 log g               x ' 1 log i i i i (modelo logístico)

Otras ligas: g

 

i 1

 

i , donde () es la función de distribución normal estándar  i 

 

i 

xi'

(modelo probit)

 ANÁLISIS DEL MODELO: Consideremos la forma general del modelo lineal

generalizado, en donde las observaciones Y1,Y2,...,Yn son un conjunto de

v.a.i. de la función de densidad

yi i, i

b

yi, i

exp

i

yi i a

 

i

f         , i1,...,n.

Por simplicidad supongamos que i es conocido y que las componentes

aleatoria y sistemática se relacionan a través dela liga canónica, i.e., 

  

i i xi' . En este caso, la función de verosimilitud es de la forma,

 

  

 

 

  n 1 i i i i i y x ' a x ' exp y f . Inicial: f

 

 N

b0,T0

Final:



 

 

 

 

 



  0 0 0 n 1 i i i i i b ' T b 2 1 ' x a ' x y exp X , y f

(11)

 

yF y f

yF xF' , F

 

f y,X

d E y,X

f

yF xF' , F

f 

      .

 AJUSTE DEL MODELO. Existen varias formas de medir la bondad del ajuste

de un modelo. En modelos lineales generalizados la medida más común es la devianza, la cual se define como dos veces el logaritmo del cociente de verosimilitudes, es decir,

 

 

ˆ|y L y | ~ L log 2 Dev    ,

donde ˆ y ~ son los valores maximizados de  en dos modelos diferentes. En el caso de modelos lineales generalizados la devianza toma la forma:

 

 

          n 1 i i i i i i i a ˆ ~ a ˆ ~ y 2 Dev .

Para los tres casos particulares de modelos lineales generalizados vistos anteriormente, la devianza es de la forma:

MODELO DEVIANZA Normal

   n 1 i 2 i i ˆ y Poisson

                n 1 i i i i i i y ˆ ˆ y log y 2 Bernoulli

                        n 1 i i i i i i i ˆ 1 y 1 log y 1 ˆ y log y 2

(12)

 NOTA. La Devianza es la medida de ajuste frecuentista usada para los

modelos lineales generalizados, son embargo en el caso Bayesiano es posible usar la medida equivalente DIC definida anteriormente.

 EJERCICIO 5. Tasas de mortalidad (Congdon, 2001). Una compañía de

seguros quiere lanzar un nuevo seguro médico para mineros. Para ello desea estimar la probabilidad de muerte (i), con base en el tiempo de

exposición al mineral (xi en horas). Se cuenta con información de las

muertes registradas entre 1950 y 1959, junto con el tiempo de exposición al mineral y el número de mineros expuestos. Realiza un análisis Bayesiano de los datos y obtén la distribución predictiva del número de muertes suponiendo que hay 100 mineros con un tiempo de exposición de 200 horas. El modelo es el siguiente: Para i1,...,N

i i

i i Bin n , Y   

 

i 0 1xi logit    con 0 N

0,0.001

y 1N

0,0.001

.

 EJERCICIO 6. En el mismo contexto del problema anterior, supongamos

ahora que la compañía de seguros está interesada en modelar el número total de desastres (Yt) que ocurren en la mina. Se cuenta con N112

observaciones durante los años 1851 a 1962. Se proponen tres modelos: a) Modelo con tasa variable en función del tiempo:

 

t t t Po Y   

 

t log t 0 1

(13)

b) Modelo con tasa constante en dos períodos: Se cree que la tasa promedio de desastres es constante, pero que en el siglo XX la tasa ha disminuido. Esto se traduce en el siguiente modelo:

 

t t t Po Y   

 

   I

t

log t 0 1 con 0 N

0,0.001

, 1 N

0,0.001

y U

1,,N

. c) Modelo Poisson dinámico:

Observación: Ytt Po

 

t , logt t

Evolución: t t1t, t N

0,W1

 tt1 N

t1,W1

con 1 N

0,0.0001

y W1 Ga

0.01,0.01

.

Referencias

Documento similar

Las instruc- ciones utilizadas para estimar los diferentes modelos han sido: regress para estimar el modelo de regresión lineal múltiple por MCO, tobit estima el modelo de re-

La invalidez en el MMPI por no respuestas no se considera criterio positivo (sólo se puede considerar tal posibilidad en caso de daño neurológico que justifique tal estilo

Si aplica el principio de coste-beneficio, se dará cuenta de que la reduc- ción del número de alumnos sólo tiene sentido si el valor que tiene para los estudiantes asistir a la

En el estudio de regresión lineal por pasos se intenta calcular una ecuación predictiva tomando como variable independiente las variables de crecimiento

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones

Además, como señalan McCullagh y Nelder (1989), en el contexto del análisis de una variable de recuento mediante el modelo lineal general se topa a menudo con la presencia

Entre los modelos de elección binaria, que sirven para explicar una variable dependiente binaria (0/1), se encuentra la Regresión Logística, que se utiliza

Estos indicadores, junto con los factores sociodemográficos, se incorporaron a un modelo de regresión ordinal, utilizando como variable dependiente la información