1 / 57
Modelos lineales generalizados
Guillermo Ayala Gallego
Universidad de Valencia
Componentes de un modelo lineal
generalizado
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizadosComponente aleatoria
Identifica la variable
respuesta
Y
y su distribuci´on de probabilidad.
Componente sistem´
atica
Especifica las variables
explicativas (independientes, predictoras)
utilizadas en la funci´on predictora lineal.
Funci´
on link
Especifica la funci´on de
EY
que la
expresa como una combinaci´on lineal de las
variables predictoras.
Componente aleatoria
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados3 / 57
La componente aleatoria de un GLM consiste de
una variable aleatoria
Y
con observaciones
independientes
(
y
1
, . . . , y
N
)
.
Suponemos la distribuci´on de
Y
en la
familia
exponencial natural
.
f
(
y
i
;
θ
i
) =
a
(
θ
i
)
b
(
y
i
) exp
{y
i
Q
(
θ
i
)
}.
θ
i
var´ıa para los distintos
i
dependiendo de los
valores de las variables predictoras.
Componente sistem´
atica
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizadosLa componente sistem´atica de un GLM es el
vector
(
η
1
, . . . , η
N
)
η
i
=
X
j
β
j
x
ij
,
con
i
= 1
, . . . , N,
donde
x
ij
es el valor del
j-´esimo predictor en el
i-´esimo individuo.
La combinaci´on lineal
P
j
β
j
x
ij
es el
predictor
lineal
.
Como es habitual, se suele considerar que uno de
los predictores
x
ij
vale uno para todos los
i
de
Funci´
on link
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados5 / 57
Mediante esta funci´on relacionamos las componentes
aleatoria y sistem´atica.
µ
i
=
E
(
Y
i
)
con
i
= 1
, . . . , N
η
i
=
g
(
µ
i
)
g
(
µ
i
) =
X
j
β
j
x
ij
,
con
i
= 1
, . . . , N
Modelos logit binomiales para datos binarios
Tenemos respuesta binaria (´exito como 1 y fracaso como 0), esto
es,
Y
∼
Bin
(1
, π
)
.
f
(
y
;
π
) =
π
y
(1
−
π
)
1
−
y
=
(1
−
π
)[
π/
(1
−
π
)]
y
= (1
−
π
) exp
y
log
π
1
−
π
con
y
= 0
,
1
El par´ametro natural ser´ıa
Q
(
p
) = log
p
Modelos loglineales Poisson para conteos
7 / 57
La variable respuesta
Y
es un conteo (n´umero de defectos,
conteo en una tabla de contingencia)
Asumimos
Y
∼
P o
(
µ
)
donde
EY
=
µ.
f
(
y
;
µ
) =
e
−
µ
µ
y
y
!
=
e
−
µ
1
y
!
e
y
log
µ
con
y
= 0
,
1
, . . .
El par´ametro natural ser´ıa
Q
(
µ
) = log
µ
y la funci´on link can´onica
η
= log
µ.
Desviaci´
on
Los valores observados son
y
= (
y
1
, . . . , y
N
)
y el vector de
medias
µ
= (
µ
1
, . . . , µ
N
)
Sea
L
(
µ
;
y
)
la logverosimilitud.
Sea
L
(ˆ
µ
;
y
)
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados
9 / 57
Si utilizamos un par´ametro distinto para cada
observaci´on entonces tendr´ıamos el ajuste perfecto
con
ˆ
µ
=
y
La logverosimilitud m´axima
L
(
y
;
y
)
.
El modelo con un par´ametro por observaci´on se
llama un
modelo saturado
.
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados
La
desviaci´on
es
−
2
L
(ˆ
µ
;
y
)
−
L
(
y
;
y
)
Es el test del cociente de verosimilitud para
contrastar el modelo que asumimos frente a la
alternativa del modelo saturado.
Cuando los conteos de Poisson o bien el n´umero
de pruebas las distintas binomiales con
N
fijo
tenemos que aproximadamente
−
2
L
(ˆ
µ
;
y
)
−
L
(
y
;
y
)
Modelos lineales generalizados
para datos binarios
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados
11 / 57
El modelo
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizadosY
es una respuesta binaria.
EY
=
P
(
Y
= 1)
y la denotamos por
π
(
x
)
dependiente de
x
= (
x
1
, . . . , x
p
)
.
var
(
Y
) =
π
(
x
)(1
−
π
(
x
))
.
Un ejemplo
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados13 / 57
Enfermedad card´ıaca
Ronquido
Si
No
Nunca
24
1355
Ocasionalmente
35
603
Casi cada noche 21
192
Cada noche
30
224
GLM binomial y tablas
2
×
2
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizadosLa variable predictora
X
es binaria.
link
[
π
(
x
)] =
α
+
βx.
El efecto de
X
viene descrito por
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizados Inferencia para modelos lineales generalizados
15 / 57
Con el link identidad:
β
=
π
(1)
−
π
(0)
es la diferencia de proporciones.
Con el link logar´ıtmico:
β
= log
π
(1)
−
log
π
(0) = log
π
(1)
π
(0)
es el logaritmo del riesgo relativo.
Con el link logit:
β
=
logit
(
π
(1))
−
logit
(
π
(0)) = log
π
(1)
/
(1
−
π
(1))
π
(0)
/
(1
−
π
(0))
Probit y otras funciones link
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios El modelo Un ejemplo GLM binomial y tablas 2×2 Probit y otras funciones link GLM para conteos Verosimilitud de modelos lineales generalizadosCon un solo predictor parece natural el modelo
π
(
x
) =
F
(
x
)
siendo
F
una funci´on de distribuci´on de
probabilidad.
Un caso particular:
F
(
x
) = Φ(
x
)
siendo
Φ(
x
)
la
funci´on de distribuci´on de la normal est´andar
entonces
π
(
x
) = Φ(
α
+
βx
)
o equivalentemente
Φ
−
1
(
π
(
x
)) =
α
+
βx
y tenemos un
modelo probit
.
GLM para conteos
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de contingencia I ×J Verosimilitud de modelos lineales17 / 57
Modelo Poisson loglineal
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas deAsumimos
Y
con distribuci´on de Poisson.
El modelo loglineal con variable explicativa
X
es
log
µ
=
α
+
βx.
En este modelo
µ
= exp(
α
+
βx
) =
e
α
e
β
x
Ejemplo: cangrejos herradura
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de contingencia I ×J Verosimilitud de modelos lineales19 / 57
Cada animal hembra tiene un macho en su nido.
Pero puede tener m´as, los sat´elites.
La variable respuesta es el n´umero de sat´elites.
Las variables explicativas son: color, estado de la
columna vertebral, peso y anchura del caparaz´on.
En un primer an´alisis solo consideramos la anchura
del caparaz´on.
notaR/notaR015.pdf
: una nota muy larga por
cierto.
Sobredispersi´
on en GLM Poisson
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas deEn una distribuci´on de Poisson, la media y la
varianza son iguales.
Cuando trabajamos con conteos reales no suele ser
cierta esta hip´otesis.
Con frecuencia la varianza es mayor que la media.
A esto se le llama
sobredispersi´
on
.
Interpretaci´on como mixturas de Poisson.
No es un problema cuando
Y
tiene una
distribuci´on normal pues la normal tiene un
par´ametro que la modeliza.
GLM binomiales negativos
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de contingencia I ×J Verosimilitud de modelos lineales21 / 57
La densidad de la distribuci´on binomial negativa es
f
(
y
;
k, µ
) =
Γ(
y
+
k
)
Γ(
k
)Γ(
y
+ 1)
k
µ
+
k
k
1
−
k
µ
+
k
y
con
y
= 0
,
1
,
2
, . . .
donde
k
y
µ
son los
par´ametros.
Se tiene que
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Modelo Poisson loglineal Ejemplo: cangrejos herradura Sobredispersi´on en GLM Poisson GLM binomiales negativos GLM Poisson e independencia en tablas de
El par´ametro
1
/k
es un
par´
ametro de dispersi´
on
.
Si
1
/k
→
0
, entonces
var
(
Y
)
→
µ
y la
distribuci´on binomial negativa converge a una
distribuci´on de Poisson.
Con
k
fijo esta densidad est´a en la familia
exponencial natural y podr´ıamos hablar de un
GLM binomial negativo.
GLM Poisson e independencia en tablas de
contingencia
I
×
J
23 / 57
Vamos a utilizar un modelo loglineal Poisson para modelizar
conteos en tablas de contingencia.
Suponemos que el conteo
Y
ij
∼
P o
(
µ
ij
)
.
Suponemos que
µ
ij
=
µα
i
β
j
siendo
α
i
, β
j
≥
0
tales que
P
i
α
i
= 1
y
P
j
β
j
= 1
.
Si consideramos un log link tenemos
log
µ
ij
= log
µ
+ log
α
i
+ log
β
j
Se comprueba que si hay independencia tenemos que
α
i
=
π
i
+
y
β
j
=
π
+
j
.
Verosimilitud de modelos lineales
generalizados
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersi´on exponencial Media y varianza de la componente aleatoria Componente sistem´atica y laFamilia de dispersi´
on exponencial
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersi´on exponencial Media y varianza de la componente aleatoria Componente sistem´atica y la funci´on link Ecuaciones de verosimilitud para un GLM25 / 57
Tenemos
(
y
1
, . . . , y
N
)
independientes.
La variable
y
i
tiene densidad en la
familia de
dispersi´on exponencial
f
(
y
i
;
θ
i
, φ
) = exp
y
i
θ
i
−
b
(
θ
i
)
/a
(
φ
) +
c
(
y
i
, φ
)
θ
i
es el par´ametro natural.
Si
φ
es conocido entonces la densidad anterior es
de la familia exponencial natural.
Normal
Poisson
Binomial
f
(
y
)
√
1
2
πσ
exp(
−
(
y
−
µ
)
22
σ
2)
µ
y
e
−
µ
/y
!
n
y
(
µ
n
)(1
−
µ
n
)
n
−
y
θ
µ
log
µ
log(
µ/
(
n
−
µ
))
φ
σ
2
1
1
a
(
φ
)
φ
φ
φ
b
(
θ
)
θ
2
2exp(
θ
)
n
log(1 +
e
θ
)
Media y varianza de la componente aleatoria
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersi´on exponencial Media y varianza de la componente aleatoria Componente sistem´atica y la funci´on link Ecuaciones de verosimilitud para un GLM27 / 57
Se verifica:
µ
i
=
E
(
Y
i
) =
b
′
(
θ
i
)
.
y
var
(
Y
i
) =
b
′′
(
θ
i
)
a
(
φ
)
.
Componente sistem´
atica y la funci´
on link
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersi´on exponencial Media y varianza de la componente aleatoria Componente sistem´atica y laLa componente sistem´atica viene dada por
η
i
=
X
j
β
j
x
ij
, i
= 1
, . . . , N.
y en forma matricial
η
=
X
β
con
η
= (
η
1
, . . . , η
p
)
′
y
β
= (
β
1
, . . . , β
p
)
′
siendo
X
la
matriz de modelo
.
Componentes de un modelo lineal generalizado Componente aleatoria Componente sistem´atica Funci´on link Modelos logit binomiales para datos binarios Modelos loglineales Poisson para conteos Desviaci´on Modelos lineales generalizados para datos binarios GLM para conteos Verosimilitud de modelos lineales generalizados Familia de dispersi´on exponencial Media y varianza de la componente aleatoria Componente sistem´atica y la funci´on link Ecuaciones de verosimilitud para un GLM
29 / 57
Un GLM relaciona
η
i
con
µ
i
con la funci´on link.
η
i
=
g
(
µ
i
) =
X
j
β
j
x
ij
, i
= 1
, . . . , N.
El par´ametro natural
θ
i
es
θ
i
=
g
(
µ
i
) =
X
j
β
j
x
ij
Ecuaciones de verosimilitud para un GLM
La logverosimilitud ser´ıa
L
(
β
) =
X
i
L
i
=
X
i
log
f
(
y
i
;
θ
i
, φ
) =
X
i
y
i
θ
i
−
b
(
θ
i
)
a
(
φ
)
+
X
i
c
(
y
i
, φ
)
.
Las ecuaciones de verosimilitud son
N
X
i
=1
(
y
i
−
µ
i
)
x
ij
var
(
Y
i
)
∂µ
i
∂η
i
= 0
,
j
= 1
, . . . , p.
Matriz de covarianza asint´
otica
31 / 57
Puesto que
−E
∂β
∂
2L
(
β
)
h