Modelos lineales generalizados

(1)

(2)

1 / 57

Modelos lineales generalizados

Guillermo Ayala Gallego

Universidad de Valencia

(3)

(4)

(5)

Componentes de un modelo lineal

generalizado

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados

Componente aleatoria

Identifica la variable

respuesta

Y

y su distribuci´on de probabilidad.

Componente sistem´

atica

Especifica las variables

explicativas (independientes, predictoras)

utilizadas en la funci´on predictora lineal.

Funci´

on link

Especifica la funci´on de

EY

que la

expresa como una combinaci´on lineal de las

variables predictoras.

(6)

Componente aleatoria

3 / 57

La componente aleatoria de un GLM consiste de

una variable aleatoria

Y

con observaciones

independientes

(

y

1 , . . . , y

N

)

.

Suponemos la distribuci´on de

Y

en la

familia

exponencial natural

_.

f

(

y

_i

;

θ

_i

) =

a

(

θ

_i

)

b

(

y

_i

) exp

{y

_i

Q

(

θ

_i

)

}.

θ

i

var´ıa para los distintos

i

dependiendo de los

valores de las variables predictoras.

(7)

Componente sistem´

atica

La componente sistem´atica de un GLM es el

vector

(

η

1 , . . . , η

N

)

η

i

=

X

j

β

j

x

ij

,

con

i

= 1

, . . . , N,

donde

x

ij

es el valor del

j-´esimo predictor en el

i-´esimo individuo.

La combinaci´on lineal

P

_j

β

_j

x

_ij

es el

predictor

lineal

_.

Como es habitual, se suele considerar que uno de

los predictores

x

_ij

vale uno para todos los

i

de

(8)

Funci´

on link

5 / 57

Mediante esta funci´on relacionamos las componentes

aleatoria y sistem´atica.

µ

i

=

E

(

Y

i

)

con

i

= 1

, . . . , N

η

_i

=

g

(

µ

_i

)

g

(

µ

_i

) =

X

j

β

_j

x

_ij

,

con

i

= 1

, . . . , N

(9)

Modelos logit binomiales para datos binarios

Tenemos respuesta binaria (´exito como 1 y fracaso como 0), esto

es,

Y

∼

Bin

(1

, π

)

.

f

(

y

;

π

) =

π

y

(1

−

π

)

1 −

y

₌

(1

−

π

)[

π/

(1

−

π

)]

y

= (1

−

π

) exp

y

log

π

1 −

π

con

y

= 0

,

1 El par´ametro natural ser´ıa

Q

(

p

) = log

p

(10)

Modelos loglineales Poisson para conteos

7 / 57

La variable respuesta

Y

es un conteo (n´umero de defectos,

conteo en una tabla de contingencia)

Asumimos

Y

∼

P o

(

µ

)

donde

EY

=

µ.

f

(

y

;

µ

) =

e

−

µ

_µ

y

!

=

e

−

µ

1 y

!

e

y

log

µ

con

y

= 0

,

1 , . . .

El par´ametro natural ser´ıa

Q

(

µ

) = log

µ

y la funci´on link can´onica

η

= log

µ.

(11)

Desviaci´

on

Los valores observados son

y

= (

y

₁

, . . . , y

_N

)

y el vector de

medias

µ

= (

µ

1 , . . . , µ

N

)

Sea

L

(

µ

;

y

)

la logverosimilitud.

Sea

L

(ˆ

µ

;

y

)

(12)

9 / 57

Si utilizamos un par´ametro distinto para cada

observaci´on entonces tendr´ıamos el ajuste perfecto

con

ˆ

µ

=

y

La logverosimilitud m´axima

L

(

y

;

y

)

.

El modelo con un par´ametro por observaci´on se

llama un

modelo saturado

_.

(13)

La

desviaci´on

es

−

2 L

(ˆ

µ

;

y

)

−

L

(

y

;

y

)

Es el test del cociente de verosimilitud para

contrastar el modelo que asumimos frente a la

alternativa del modelo saturado.

Cuando los conteos de Poisson o bien el n´umero

de pruebas las distintas binomiales con

N

fijo

tenemos que aproximadamente

−

2 L

(ˆ

µ

;

y

)

−

L

(

y

;

y

)

(14)

Modelos lineales generalizados

para datos binarios

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados

11 / 57

(15)

El modelo

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizados

Y

es una respuesta binaria.

EY

=

P

(

Y

= 1)

y la denotamos por

π

(

x

)

dependiente de

x

= (

x

1 , . . . , x

p

)

.

var

(

Y

) =

π

(

x

)(1

−

π

(

x

))

.

(16)

Un ejemplo

13 / 57

Enfermedad card´ıaca

Ronquido

Si

No

Nunca

24 1355

Ocasionalmente

35

603 Casi cada noche 21

192 Cada noche

30

224

(17)

GLM binomial y tablas

2 ×

2 La variable predictora

X

es binaria.

link

[

π

(

x

)] =

α

+

βx.

El efecto de

X

viene descrito por

(18)

15 / 57

Con el link identidad:

β

=

π

(1)

−

π

(0)

es la diferencia de proporciones.

Con el link logar´ıtmico:

β

= log

π

(1)

−

log

π

(0) = log

π

(1)

π

(0)

es el logaritmo del riesgo relativo.

Con el link logit:

β

=

logit

(

π

(1))

−

logit

(

π

(0)) = log

π

(1)

/

(1

−

π

(1))

π

(0)

/

(1

−

π

(0))

(19)

Probit y otras funciones link

Con un solo predictor parece natural el modelo

π

(

x

) =

F

(

x

)

siendo

F

una funci´on de distribuci´on de

probabilidad.

Un caso particular:

F

(

x

) = Φ(

x

)

siendo

Φ(

x

)

la

función de distribución de la normal estándar

entonces

π

(

x

) = Φ(

α

+

βx

)

o equivalentemente

Φ

−

1 ₍

_π

₍

_x

_{)) =}

_α

₊

_βx

y tenemos un

modelo probit

.

(20)

GLM para conteos

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersión en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de contingencia I ×J Verosimilitud de modelos lineales

17 / 57

(21)

Modelo Poisson loglineal

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersión en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de

Asumimos

Y

con distribuci´on de Poisson.

El modelo loglineal con variable explicativa

X

es

log

µ

=

α

+

βx.

En este modelo

µ

= exp(

α

+

βx

) =

e

α

e

β

x

(22)

Ejemplo: cangrejos herradura

19 / 57

Cada animal hembra tiene un macho en su nido.

Pero puede tener m´as, los sat´elites.

La variable respuesta es el n´umero de sat´elites.

Las variables explicativas son: color, estado de la

columna vertebral, peso y anchura del caparaz´on.

En un primer an´alisis solo consideramos la anchura

del caparaz´on.

notaR/notaR015.pdf

: una nota muy larga por

cierto.

(23)

Sobredispersi´

on en GLM Poisson

En una distribuci´on de Poisson, la media y la

varianza son iguales.

Cuando trabajamos con conteos reales no suele ser

cierta esta hip´otesis.

Con frecuencia la varianza es mayor que la media.

A esto se le llama

sobredispersi´

on

.

Interpretaci´on como mixturas de Poisson.

No es un problema cuando

Y

tiene una

distribuci´on normal pues la normal tiene un

par´ametro que la modeliza.

(24)

GLM binomiales negativos

21 / 57

La densidad de la distribuci´on binomial negativa es

f

(

y

;

k, µ

) =

Γ(

y

+

k

)

Γ(

k

)Γ(

y

+ 1)

k

µ

+

k

1 −

k

µ

+

k

y

con

y

= 0

,

1 ,

2 , . . .

donde

k

y

µ

son los

par´ametros.

Se tiene que

(25)

El par´ametro

1 /k

es un

par´

ametro de dispersi´

on

.

Si

1 /k

→

0 , entonces

var

(

Y

)

→

µ

y la

distribuci´on binomial negativa converge a una

distribuci´on de Poisson.

Con

k

fijo esta densidad est´a en la familia

exponencial natural y podr´ıamos hablar de un

GLM binomial negativo.

(26)

GLM Poisson e independencia en tablas de

contingencia

I

×

J

23 / 57

Vamos a utilizar un modelo loglineal Poisson para modelizar

conteos en tablas de contingencia.

Suponemos que el conteo

Y

ij

∼

P o

(

µ

ij

)

.

Suponemos que

µ

ij

=

µα

i

β

j

siendo

α

_i

, β

_j

≥

0 tales que

P

_i

α

_i

= 1

y

P

_j

β

_j

= 1

.

Si consideramos un log link tenemos

log

µ

ij

= log

µ

+ log

α

i

+ log

β

j

Se comprueba que si hay independencia tenemos que

α

_i

=

π

_i

₊

y

β

j

=

π

+

j

.

(27)

Verosimilitud de modelos lineales

generalizados

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersión exponencial Media y varianza de la componente aleatoria Componente sistemática y la

(28)

Familia de dispersi´

on exponencial

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersión exponencial Media y varianza de la componente aleatoria Componente sistemática y la función link Ecuaciones de verosimilitud para un GLM

25 / 57

Tenemos

(

y

₁

, . . . , y

_N

)

independientes.

La variable

y

i

tiene densidad en la

familia de

dispersi´on exponencial

f

(

y

i

;

θ

i

, φ

) = exp

y

i

θ

i

−

b

(

θ

i

)

/a

(

φ

) +

c

(

y

i

, φ

)

θ

_i

es el par´ametro natural.

Si

φ

es conocido entonces la densidad anterior es

de la familia exponencial natural.

(29)

Normal

Poisson

Binomial

f

(

y

)

√

1

2 πσ

exp(

−

(

y

₋

µ

)

2

2 σ

2

)

µ

y

_e

₋

µ

_/y

_!

n

y

(

µ

_n

)(1

−

µ

_n

)

n

−

y

θ

µ

log

µ

log(

µ/

(

n

−

µ

))

φ

σ

2

1

1 a

(

φ

)

φ

b

(

θ

)

θ

₂

2

exp(

θ

)

n

log(1 +

e

θ

)

(30)

Media y varianza de la componente aleatoria

27 / 57

Se verifica:

µ

i

=

E

(

Y

i

) =

b

′

(

θ

i

)

.

y

var

(

Y

i

) =

b

′′

(

θ

i

)

a

(

φ

)

.

(31)

Componente sistem´

atica y la funci´

on link

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersión exponencial Media y varianza de la componente aleatoria Componente sistemática y la

La componente sistem´atica viene dada por

η

i

=

X

j

β

j

x

ij

, i

= 1

, . . . , N.

y en forma matricial

η

=

X

β

con

η

= (

η

1 , . . . , η

p

)

′

y

β

= (

β

1 , . . . , β

p

)

′

siendo

X

la

matriz de modelo

.

(32)

29 / 57

Un GLM relaciona

η

_i

con

µ

_i

con la funci´on link.

η

i

=

g

(

µ

i

) =

X

j

β

j

x

ij

, i

= 1

, . . . , N.

El par´ametro natural

θ

i

es

θ

i

=

g

(

µ

i

) =

X

j

β

j

x

ij

(33)

Ecuaciones de verosimilitud para un GLM

La logverosimilitud ser´ıa

L

(

β

) =

X

i

L

_i

=

X

i

log

f

(

y

_i

;

θ

_i

, φ

) =

X

i

y

i

θ

i

−

b

(

θ

i

)

a

(

φ

)

+

X

i

c

(

y

_i

, φ

)

.

Las ecuaciones de verosimilitud son

N

X

i

=1

(

y

_i

−

µ

_i

)

x

_ij

var

(

Y

_i

)

∂µ

_i

∂η

_i

= 0

,

j

= 1

, . . . , p.

(34)

Matriz de covarianza asint´

otica

31 / 57

Puesto que

−E

_∂β

∂

2

L

(

β

)

h

∂β

j

=

E

∂L

(

β

)

∂β

h

∂L

(

β

)

∂β

j

,

I

hj

=

−E

∂

2 L

(

β

)

∂β

_h

∂β

_j

=

−

N

X

i

=1

E

∂

2 _L

i

(

β

)

∂β

_h

∂β

_j

=

N

X

i

=1

E

∂L

i

(

β

)

∂β

h

∂L

i

(

β

)

∂β

j

=

N

X

i

=1

x

ih

x

ij

var

(

Y

i

)

∂µ

i

∂η

i

2

(35)

Matriz de covarianza asint´

otica

Y la podemos expresar como

I

=

X

′

_{W X}

siendo

W

=

diag

(

w

1 , . . . , w

p

)

con

w

i

=

1 var

(

Y

_i

)

∂µ

_i

∂η

_i

2

(36)

Matriz de covarianza asint´

otica estimada

33 / 57

Estimamos

W

en

β

ˆ

y tendremos

ˆ

_I

₌

_X

′

_{W X}

ˆ

siendo

c

cov

( ˆ

β

) = (

X

′

_{W X}

ˆ

₎

−

1

(37)

Modelo loglineal de Poisson

Tenemos

log

µ

=

Xβ

La componente sistem´atica se relaciona con la media como

η

i

= log

µ

i

de donde

∂µ

i

∂η

i

= exp

η

_i

=

µ

_i

Adem´as

varY

i

=

µ

i

(38)

Modelo loglineal de Poisson

35 / 57

En este caso las ecuaciones de verosimilitud son

X

i

(

y

i

−

µ

i

)

x

ij

= 0

para

j

= 1

, . . . , p.

Estamos igualando los estad´ısticos suficientes

P

_i

y

i

x

ij

a sus

valores esperados

P

_i

µ

_i

x

_ij

Adem´as

w

_i

=

1 var

(

Y

i

)

∂µ

i

∂η

i

2 =

µ

_i

(39)

Inferencia para modelos lineales

generalizados

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados Desviación y bondad de ajuste Desviación para modelos loglineales

(40)

Desviaci´

on y bondad de ajuste

37 / 57

Un GLM saturado es el modelo que tiene un par´ametro distinto

para cada observaci´on.

Nos proporciona un (completamente in´util) ajuste perfecto.

Sea

θ

˜

_i

la estimaci´on de

θ

_i

en el modelo saturado que

corresponde con

µ

˜

i

=

y

i

para cualquier

i.

Consideremos un modelo (insaturado) y denotemos por

θ

ˆ

i

y

µ

ˆ

i

los estimadores m´aximo veros´ımiles.

La

desviaci´on

viene dada por

−

2[

L

(ˆ

µ

;

y

)

−

L

(

y

;

y

)] =

2 X

i

y

i

θ

˜

i

−

b

(˜

θ

i

)

/a

(

φ

)

−

2 X

i

y

i

θ

ˆ

i

−

b

(ˆ

θ

i

)

/a

(

φ

)

(41)

Si asumimos que

a

(

φ

) =

φ

ω

i

entonces

−

2[

L

(ˆ

µ

;

y

)

−

L

(

y

;

y

)] =

2 X

i

ω

i

y

i

(˜

θ

i

−

θ

ˆ

i

)

−

b

(˜

θ

i

) +

b

(ˆ

θ

i

)

/φ

=

D

(

y

; ˆ

µ

)

/φ.

D

(

y

; ˆ

µ

)

/φ

es la

desviaci´

on escalada

y

D

(

y

; ˆ

µ

)

es la desviaci´on.

(42)

Desviaci´

on para modelos loglineales Poisson

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados Desviación y bondad de ajuste Desviación para modelos loglineales Poisson Desviación para modelos loglineales Poisson

39 / 57

Tenemos

θ

ˆ

i

= log ˆ

µ

i

,

b

(ˆ

θ

i

) = exp ˆ

θ

i

= ˆ

µ

i

,

˜

θ

i

= log

y

i

,

b

(˜

θ

) =

y

i

,

a

(

φ

) = 1

.

La desviaci´on es igual a

D

(

y

,

µ

ˆ

) = 2

X

i

[

y

i

log(

y

i

/

µ

ˆ

i

)

−

y

i

+ ˆ

µ

i

]

.

(43)

Desviaci´

on para modelos loglineales Poisson

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados Desviación y bondad de ajuste Desviación para modelos loglineales

Si el modelo incorpora un termino constante

entonces una de las ecuaciones de verosimilitud es

P

i

y

i

=

P

i

µ

ˆ

i

y

D

(

y

,

µ

ˆ

) = 2

X

i

y

i

log(

y

i

/

µ

ˆ

i

)

.

Por tanto, si hay t´ermino constante en el modelo

D

(

y

,

µ

ˆ

) = 2

X

i

Observado

log

Observado

(44)

Desviaci´

on para modelos binomiales

Componentes de un modelo lineal generalizado Componente aleatoria Componente sistemática Función link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviación Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados Desviación y bondad de ajuste Desviación para modelos loglineales Poisson Desviación para modelos loglineales Poisson

41 / 57

Denotamos

y

_i

la proporci´on muestral basada en

una muestra

n

i

.

Tenemos

ˆ

θ

_i

= log[ˆ

π

_i

/

(1

−

π

ˆ

_i

)]

˜

θ

_i

= log[

y

_i

/

(1

−

y

_i

)]

a

(

φ

) =

1 n

i

φ

= 1

, ω

_i

=

n

_i

.

(45)

La desviaci´on viene dada por

2 X

i

n

_i

y

_i

log

n

i

y

i

n

i

π

ˆ

i

+ 2

X

i

(

n

_i

−

n

_i

y

_i

) log

n

i

−

n

i

y

i

n

i

−

n

i

π

ˆ

i

Si consideramos la tabla de contingencia en donde la fila i-´esima

corresponde con el i-´esimo

setting

(todas las covariables o

variables predictoras son comunes) y tenemos dos columnas

correspondiendo con ´exito y fracaso entonces la desviaci´on tiene

la (bonita) interpretaci´on

2 X

i

Observado

log

Observado

(46)

Comparaci´

on de modelos utilizando la

desviaci´

on

43 / 57

En un modelo binomial o Poisson,

φ

= 1

, y la desviaci´on es

D

(

y

; ˆ

µ

) =

−

2[

L

(ˆ

µ

;

y

)

−

L

(

y

;

y

)]

.

Queremos comparar dos modelos

M

0 frente a

M

1 .

M

₀

anidado en

M

₁

(posiblemente eliminando algunas variables).

Se tiene

−

2[

L

(ˆ

µ

0 ;

y

)

−

L

(ˆ

µ

1 ;

y

)] =

D

(

y

; ˆ

µ

0 )

−

D

(

y

; ˆ

µ

1 )

por lo que el estad´ıstico del test del cociente de verosimilitudes

es la diferencia de las desviaciones.

(47)

Comparaci´

on de modelos utilizando la

desviaci´

on

En concreto en modelos loglineales Poisson con t´ermino

constante y en modelos logit binomiales se tiene

D

(

y

; ˆ

µ

0 )

−

D

(

y

; ˆ

µ

1 ) = 2

X

i

Observado

log

Ajustado

1

(48)

Residuos en un GLM

45 / 57

Si definimos

d

_i

= 2

ω

_i

y

_i

(˜

θ

_i

−

θ

ˆ

_i

)

−

b

(˜

θ

_i

) +

b

(ˆ

θ

_i

)

entonces el

residuo de la desviaci´on

es

p

d

_i

×

signo

(

y

_i

−

µ

ˆ

_i

)

El

residuo de Pearson

es

e

i

=

y

_i

−

µ

ˆ

_i

d

var

(

Y

_i

)

1 /

2

(49)

Residuos en un GLM

Pero

cov

(

Y

−

µ

ˆ

) =

cov

(

Y

)(

I

−

H

)

con

H

=

W

12

X

(

X

′

W X

)

−

1 X

′

W

1 2

Sustituyendo

W

por

W

ˆ

obtenemos

H

ˆ

.

Si

h

ˆ

i

es el elemento que ocupa la posici´on i-´esima en la diagonal

principal entonces el

residuo de Pearson estandarizado

es

r

i

=

y

_i

−

µ

ˆ

_i

d

var

(

Y

_i

)(1

−

ˆ

h

_i

)

1 2

.

(50)

Ajuste de un GLM mediante

Newton-Raphson

47 / 57

Sea el vector gradiente

u

=

∂L

(

β

)

∂β

y la matriz hessiana

H

=

∂

2 L

(

β

)

∂β

a

∂β

b

a,b

=1

,...,p

u

(

t

)

y

H

(

t

)

denotan

u

y

H

evaluados en

β

(

t

)

.

Actualizamos nuestra estimaci´on

β

(

t

)

β

(

t

+1)

=

β

(

t

)

−

H

(

t

)

₋

1 u

(

t

)

hasta que no haya una variaci´on apreciable en la estimaci´on

obtenida.

(51)

Ajuste de un GLM mediante Fisher Scoring

Method

Es como el m´etodo Newton-Raphson en donde sustituimos la

matriz hessiana que no es m´as que la informaci´on observada por

la matriz de informaci´on de Fisher o valor esperado de dicha

matriz, es decir, por

I

=

−

E

∂

2 _L

₍

_β

₎

∂β

_a

∂β

_b

a,b

=1

,...,p

Actualizamos la estimaci´on de los par´ametros mediante

β

(

t

+1)

=

β

(

t

)

+

I

(

t

)

₋

1 u

(

t

)

o bien

I

(

t

)

β

(

t

+1)

=

I

(

t

)

β

(

t

)

+

u

(

t

)

(52)

Ajuste de un GLM mediante Fisher Scoring

Method

49 / 57

Notemos que

_I

=

X

′

_{W X}

_y

_I

(

t

)

₌

_X

′

_W

(

t

)

_X

_donde

_W

(

t

)

_es

_W

evaluada en

β

(

t

)

. Cuando finalizamos el proceso iterativo

tendremos la matriz

_I

(

t

)

cuya inversa es la matriz de covarianzas

de los estimadores. Obtenemos pues dicha matriz como un

(53)

ML como m´ınimos cuadrados reponderados

iterativamente

Si consideramos un modelo lineal general

z

=

Xβ

+

ǫ

donde

ǫ

tiene matriz de covarianzas

V

entonces la estimaci´on

m´ınimo cuadr´atica es

(54)

ML como m´ınimos cuadrados reponderados

iterativamente

51 / 57

Se ve f´acilmente que

I

(

t

)

β

(

t

)

+

u

(

t

)

=

X

′

_W

(

t

)

_z

(

t

)

con

z

_i

(

t

)

=

X

j

x

ij

β

_j

(

t

)

+ (

y

i

−

µ

(

_i

t

)

∂η

_i

(

t

)

∂µ

(

_i

t

)

=

η

_i

(

t

)

+ (

y

_i

−

µ

(

_i

t

)

∂η

(

t

)

i

∂µ

(

_i

t

)

(55)

ML como m´ınimos cuadrados reponderados

iterativamente

El m´etodo de actualizaci´on del Fisher scoring method queda

como

(

X

′

_W

(

t

)

_X

₎

_β

(

t

+1)

₌

_X

′

_W

(

t

)

_z

(

t

)

que no son m´as que las ecuaciones normales en un modelo lineal

general donde las respuestas son

z

(

t

)

y la matriz de covarianzas

del error es

W

(

t

)

.

Notemos que

z

i

se relaciona con

y

i

mediante una aproximaci´on

lineal de la funci´on link

g.

g

(

y

i

)

≈

g

(

µ

i

) + (

y

i

−

µ

i

)

g

′

(

µ

i

) =

η

i

+ (

y

i

−

µ

i

)

∂η

i

∂µ

i

(56)

ML como m´ınimos cuadrados reponderados

iterativamente

53 / 57

En cada iteraci´on

z

es estimado mediante

z

(

t

)

y son utilizados

como respuestas mientras que la matriz de covarianzas es

estimada con

W

ˆ

(

t

)

.

Obtenemos

β

(

t

+1)

que nos da una nueva componente

sistem´atica

η

(

t

+1)

(utilizada para calcular

W

ˆ

(

t

+1)

) y un nuevo

vector respuesta

z

(

t

+1)

.

Vemos que estamos aplicando iterativamente unos m´ınimos

cuadrados ponderados donde en cada iteraci´on cambia la matriz

de pesos (la matriz de covarianza estimada).

Por ello se habla de

m´ınimos cuadrado iterativos reponderados

o

iterative reweighted least squares.

(57)

Cuasiverosimilitud Wedderburn(1974)

Las ecuaciones de verosimilitud son

N

X

i

=1

(

y

i

−

µ

i

)

x

ij

var

(

Y

_i

)

∂µ

i

∂η

_i

= 0

,

j

= 1

, . . . , p.

siendo

v

(

µ

i

) =

var

(

Y

i

)

.

Las ecuaciones de verosimilitud depende de la distribuci´on de

Y

i

solamente a trav´es de su media y su varianza,

µ

_i

y

v

(

µ

_i

)

.

Dada una distribuci´on tenemos determinada la relaci´on entre

media y varianza, esto es,

v

(

µ

i

)

.

(58)

Cuasiverosimilitud Wedderburn(1974)

55 / 57

Wedderburn(1974) propuso asumir solamente una relaci´on entre

media y varianza en lugar de una distribuci´on en la variable

respuesta.

Asumimos una funci´on link y un predictor lineal.

No asumimos una distribuci´on para

Y

i

. En lugar de ello,

asumimos

var

(

Y

_i

) =

v

(

µ

_i

)

para alguna funci´on varianza

v.

Las ecuaciones que permiten obtener los estimadores

cuasiveros´ımiles son las mismas.

Pero no son ecuaciones de verosimilitud sin asumir una

distribuci´on.

(59)

Cuasiverosimilitud Wedderburn(1974)

Wedderburn propuso utilizar estos estimadores incluso aunque

no asumamos que

Y

i

est´an en la familia exponencial natural.

La matriz de covarianzas asint´otica es tiene la forma

(

X

′

_{W X}

ˆ

₎

−

1 con

w

_i

=

∂µ

i

∂η

i

2

1 var

(

Y

i

)

(60)

Sobredispersi´

on en GLM Poisson y

cuasiverosimilitud

57 / 57

Una posibilidad es considerar

v

(

µ

i

) =

φµ

i

,

para alguna constante

φ.

En las ecuaciones que utilizamos para estimar (que no son de

verosimilitud) se cancela

φ.

Los estimadores son los mismos que los m´aximo veros´ımiles.