Modelos Lineales Generalizados (GLM)

(1)

Modelos Lineales Generalizados (GLM)

JUAN JOSÉ FERNÁNDEZ DURÁN1

1_{Departmento de Estadística y Departamento de Administración} ITAM

Seminario ITAM-CONAC Métodos Estadísticos en Actuaría I

Auditorio Raúl Baillères, ITAM 3 de Noviembre de 2011

(2)

1. Conceptos Preliminares

Tipos de Variables

Modelo de Regresión Lineal

2. Modelos Lineales Generalizados (GLM)

Definición

Análisis de Devianza Validación

Casos Particulares

Modelo Binomial (Regresión Logística) Modelo Poisson

Sobredispersión: Modelo Poisson y Modelo Binomial Negativo

Modelo Poisson-Gamma Modelo Tweedie

3. Aplicación en Tarificación

(3)

1. Conceptos Preliminares

Tipos de Variables:

1 Cualitativas: Indican la presencia de una cualidad o

atributo de las unidades experimentales.

1 Nominales: Ejemplo: Variable Género (Hombre, Mujer). 2 Ordinales: Ejemplo: Nivel Socioeconómico, NSE (Alto,

Medio, Bajo).

2 _{Cuantitativas:} _{Surgen de un proceso de medición o}

conteo en las unidades experimentales.

1 Discretas: Ejemplos: Edad en años cumplidos, número

de visitas al doctor en un mes.

(4)

Modelos de Regresión Lineal

Preguntas:

1 _{¿ Cuál es la relación entre la variable Y (variable}

dependiente, variable de respuesta) con el conjunto de variables{X1,X2, . . . ,Xk}(variables independientes, variables explicativas) en cierta población objeto de estudio ?

2 _{¿ Podemos describir el comportamiento de la variable Y}

en términos de las variables X ?

3 _{¿ Es posible construir un modelo estadístico que relacione}

Y con las X ’s de tal forma que dados los valores de las X ’s podamos encontrar un intervalo de predicción para la

variable Y ?

(5)

Objetivos del Análisis de Regresión:

1 _{Estimación y descripción: Resumir la información}

contenida en los datos.

2 _{Predecir (pronosticar) Y en términos de las X ’s.}

3 _{Control: controlar (mantener) Y en un nivel deseado a}

(6)

Base de Datos para un Análisis de Regresión

i-ésimo renglón: datos del i-ésimo individuo

j-ésima columna: valores de la j-ésima variable.

(7)

Características del Modelo de Regresión Lineal:

1 _{Y es una variable univariada, del tipo cuantitativa discreta}

o continua medida en escala de razón.

2 _{Las variabes X pueden ser de cualquier tipo y estar}

medidas en cualquier escala de medición.

3 _{Los modelos son lineales en sus parámetros. Varios}

modelos no lineales se pueden transformar en modelos lineales.

(8)

Ejemplos: 1 _{Modelo 1: Y} = 𝛽 0+ 𝛽1X +e 2 Modelo 2: ln(Y) = 𝛽 0+ 𝛽1eX + 𝛽2X2+e 3 _{Modelo 3: e}Y = 𝛽 0+ 𝛽1cos(X) + 𝛽3eX 3 +e 4 _{Modelo 4: Y} =_e𝛽0+cos(𝛽2X)₊_e e: término de error 𝛽0,𝛽1,𝛽2y𝛽3: parámetros.

Modelos 1, 2 y 3: modelos válidos. Modelo 4: modelo no válido.

(9)

Modelo de Regresión Lineal Simple

Yi = 𝛽0+ 𝛽1Xi+ei i=1, . . . ,n

(10)

Supuestos del Modelo

1 _{VE1) Es tal que cuando n} → ∞_{, su varianza muestral}

1

n

∑n

i=1(Xi− ¯X)2→Q donde Q es una constante fija finita.

2 VE2) El cuarto momento de X es finito. 1 _{E1) Tienen media cero (condicional en X ),}

E(ei ∣Xi) =0⇒Cov(ei,Xi) =0. La variable explicativa X y el error e no están correlacionados.

2 _{E2) Son homoscedásticos (Tienen varianza constante),}

Var(ei ∣Xi) = 𝜎2. Por lo tanto, el error tiene varianza constante que no es función de la variable explicativa.

3 _{E3) No están correlacionados, Cov}₍_e

i,ej ∣Xi,Xj) =0 para toda i ∕=j.

4 _{E4) Tienen una distribución normal, por tanto,}

ei ∼N(0, 𝜎2) Equivalentemente,

e∼N(0, 𝜎2In×n)

(11)

Nótese que dados estos supuestos,

E(Yi ∣Xi) = 𝛽0+ 𝛽1Xi

Var(Yi∣Xi) = 𝜎2

(12)

Estimación por Mínimos Cuadrados

Minimizar: SC(𝛽0, 𝛽1) = n ∑ i=1 (Yi− 𝛽0− 𝛽1Xi)2

Bajo normalidad de los errores es equivalente a Máxima Verosimilitud.

(13)

0 2 4 6 8 hcuartos 2 4 6 8 10 12 hocupantes

(14)

1 _{El valor ajustado de la E}_[_Y _∣_X

i]dado por el modelo (Y gorro)Yˆi:

ˆ

Yi= ˆ𝛽0+ ˆ𝛽1Xi

2 _{Suma de Cuadrados Total SCT :}

SCT =

n

∑

i=1

(Yi− ¯Y)2

Es la variación de Y sin tomar en cuenta la información dada por X .

3 _{Suma de Cuadrados del Modelo SCM:}

SCM =

n

∑

i=1

( ˆYi− ¯Y)2

Es la variación de los valores predichos por el modelo alrededor de su mediaY .¯

4 _{Suma de Cuadrados del Error SCE :}

SCE =

n

∑

i=1

(Yi− ˆYi)2

(15)

A partir de la descomposición en suma de cuadrados

SCT =SCM+SCE

se define el coeficiente de determinación como

R2= SCM SCT = ( 1−SCE SCT ) ×100

(16)

¿ Es significativa (importante) la variable explicativa X ? ˆ 𝛽1− 𝛽1 s√_SC1 XX ∼t₍n−2) t-Student con n−2 g.l. I.C: al(1− 𝛼)100%para𝛽1: ˆ 𝛽1±t(n−2),1−𝛼 2s √ 1 SCXX donde t₍_n−₂_),₁−𝛼 2 es el percentil ( 1−𝛼 2 ) 100% de una distribución t-Student con n−2 grados de libertad (g.l.). Prueba de Hipótesis: H0: 𝛽1=0 vs. Ha: 𝛽1∕=1 ˆ 𝛽1 s√ 1 SCXX

∼t₍_n−2)es una cantidad pivotal bajo H0.

(17)

Recuérdese que E(Y ∣X), para X dada, es un parámetro (cantidad fija desconocida).

ˆ E[Y ∣X =x] = ˆYx ˆ Yx− 𝛽0− 𝛽1x s √ 1 n + (x− ¯X)2 SCXX ∼t₍n−2) I.C. al(1− 𝛼)100%para E[Y ∣X =x] ˆ Yx±t(n−2),1−𝛼 2s √ 1 n + (x − ¯X)2 SCXX

(18)

0 2 4 6 8 hcuartos 2 4 6 8 10 12 hocupantes

Figure: Intervalos de Confianza al 95% para E(Y ∣X).

(19)

Predicción de Valores Futuros:

I.P. al(1− 𝛼)100%para el valor futuro de Y en X =x

ˆ 𝛽0+ ˆ𝛽1x ±t(n−2),1−𝛼 2s √ 1+ 1 n+ (x− ¯X)2 SCXX

(20)

Análisis de Residuales

ˆ

e_i, definido como

ˆ

ei =Yi− ˆYi =observadoi−esperadoi

Determinar la existencia de violaciones a los supuestos del modelo.

Si el modelo ajustado es adecuado entonces los residuales

{ê1, ê2, . . . , ên}se deben comportar como una muestra de los errores{e1,e2, . . . ,en}.

(21)

Inclusión de Variables Cualitativas:

Para incluir una variable cualitativa como variable explicativa con m niveles (m posibles valores) en un modelo de regresión es necesario

construir m−1 variables indicadoras relacionadas

con m−1 de los m niveles de la variable cualitativa.

Una variable indicadora, como su nombre lo señala,

(22)

Por ejemplo,

1 Para la variable Sexo con posibles valores Hombre (H) y

Mujer (M) es necesario construir una variable indicadora:

IH(i) =

{

1 si el i-ésimo individuo es hombre 0 en otro caso

2 Para la variable Carrera con posibles valores Actuaría,

Matemáticas, Administración, Contabilidad y Otra es necesario construir 4 variables indicadoras:

IAct(i) =

{

1 si el i-ésimo individuo estudia Actuaría 0 en otro caso

IMat(i) =

{

1 si el i-ésimo individuo estudia Matemáticas 0 en otro caso

I_Conta(i) = {

1 si el i-ésimo individuo estudia Contabilidad 0 en otro caso

IOtra(i) =

{

1 si el i-ésimo individuo estudia Otra 0 en otro caso

(23)

Término de Interacción: producto de una variable cuantitativa por una variable indicadora.

Ejemplo:

1 Y : Salario. 2 _X

1: NSE (A, B y C).

3 _X

2: Horas de Trabajo (HTrabajo).

Si utilizamos indicadoras para los niveles A y B podemos escribir el modelo de regresión lineal como

Salarioi = 𝛽0+ 𝛽1HTrabajoi+ 𝛽2IA(i) + 𝛽3IB(i)+

𝛽4HTrabajoiIA(i) + 𝛽5HTrabajoiIB(i) +ei

ˆ

(24)

Criterios de Selección de Modelos

Escoger el modelo que maximice la R2(R_a2).

Cp=

SCEreducido

s2

completo

+2p−n

Escoger el modelo final como aquel que minimiza Cpo que

haga Cp≈p.

AIC = −2l+2p=cte+2p+n ln(SCE)

Escoger el modelo con el menor AIC.

BIC = −2l+p ln(n) =cte+p ln(n) +n ln(SCE)

Escoger el modelo con el menor BIC.

PRESS=

n

∑

i=1

(Yi− ˆYi(i))2

Escoger el modelo con el menor PRESS (Validación Cruzada).

(25)

EJEMPLO 1.

REGRESIÓN LINEAL SIMPLE:

ESPERANZA DE VIDA VS. NÚMERO DE HABITANTES POR CADA DOCTOR

(26)

2. Modelos Lineales Generalizados

Los modelos de regresión lineal presentan dos grandes problemas:

1 _{La variable dependiente, Y , debe tener una distribución}

Normal (los errores tienen una distribución Normal).

2 _{La relación debe de ser lineal en los parámetros.}

(27)

En la práctica es posible pensar en varias situaciones en las cuales Y no tiene una distribución normal:

1 _{Número de accidentes en un año para cierta cartera de}

asegurados, Y ∼Poisson(𝜆) =Po(𝜆).

2 _{Número de partidos que ganará cierto equipo de un total}

de n, Y ∼Binomial(n, 𝜋) =Bi(n, 𝜋).

3 _{Monto de reclamaciones, Y} _∼_Gamma_{(𝛼, 𝛽)}_.

(28)

Generalmente consideramos la siguiente ecuación de regresión

E[Yi ∣xi] =gi(x

′

i𝛽)para i=1, . . . ,n donde gi()son funciones monótonas (con inversa) y comúnmente gi() =g()para i =1, . . . ,n.

Las distribuciones para las cuales los modelos lineales generalizados están definidos son aquellas que pertenecen a la familia exponencial.

(29)

Funciones de densidad: f(y; 𝜃, 𝜙) =c(y, 𝜙)e y𝜃−a(𝜃) 𝜙 E[Y] = 𝜇 = ˙a(𝜃) Var(Y) = 𝜙¨a(𝜃) = 𝜙V(𝜇) Ejemplos: 1 Y ∼Po(𝜆)

(30)

Liga canónica y función de varianza:

Modelo Liga Canónica Función de Parámetro de

Varianza V(𝜇) Dispersión𝜙 Bernoulli ln( 𝜇i 1−_𝜇_i ) =x′ i𝛽 𝜇i(1− 𝜇i) 1 Poisson ln(𝜇i) =x′_i𝛽 𝜇i 1 Normal 𝜇i =x′_i𝛽 1 𝜙 Gamma 𝜇−1 i =x ′ i𝛽 𝜇2i 𝜙 Normal Inversa 𝜇−2 i =x ′ i𝛽 𝜇3i 𝜙

Table: Ligas Canónicas.

Pesos para cada observación:

𝜙= 𝜙∗

wi

para i=1, . . . ,n

(31)

Un modelo lineal generalizado se compone de 3 elementos:

1 _{Vector de observaciones de la variable dependiente Y ,}

suponiendo que Y tiene una distribución en la familia exponencial.

2 _{Matriz de diseño, tamaño n}_×_{p (p}₋_{1 covariables)}

Vector de parámetros𝛽 3 _{Función liga g}_(⋅)_: 𝜇i =E(Yi) 𝜂i =X ′ i𝛽 =g(𝜇i) ⇒ 𝜇i =g−1(X ′ i𝛽)

(32)

Por lo tanto, la base de datos es ⎛ ⎜ ⎜ ⎜ ⎝ Y1 X11 X21 . . . Xp−1,1 Y2 X12 X22 . . . Xp−₁_,₂ .. . ... ... . . . ... Yn X1n X2n . . . Xp−1,n ⎞ ⎟ ⎟ ⎟ ⎠

donde Y ∼familia exponencial. Ejemplos:

1 _Binomial

Yi número de reprobados en el salón i

Xi1duración del examen

2 _Poisson

Yi número de accidentes de autos en el año para el sujeto i

Xi1año lluvioso o no

Xi2millas recorridas

Xi3sexo

Xi4edad

(33)

Análisis de Devianza: Selección de Modelos

Objetivo: Determinar si todas las variables explicativas son importantes para explicar el comportamiento de la variable dependiente. Probar hipótesis de la forma:

H0: 𝛽q+1= 𝛽q+2= . . . = 𝛽p−1=0

Regla: A más parámetros mejor ajuste

(34)

Al trabajar con máxima verosimilitud se hace uso de modelos anidados

Ejemplo: Y,X1,X2, . . . ,X10

Modelo completo: 𝜂i = 𝛽0+∑10i=1𝛽iXi Modelo reducido:𝜂i = 𝛽0+ 𝛽1X1+ 𝛽2X10

Modelos anidados: Se dice que los modelos

M1,M2, . . . ,Mk están anidados si M1⊃M2⊃ . . . ⊃Mk Ejemplo: M1:utiliza X1,X2, . . . ,X10 M2:utiliza X1,X3,X5 M3:utiliza X1,X3 M4:utiliza X1

(35)

Prueba de Cociente de Verosimilitudes

La prueba del cociente de verosimilitudes: Modelo completo vs. Modelo reducido: ΛRC = ˆ LR ˆ LC

(36)

La idea principal es que si la hipótesis nula es cierta entonces

ˆ

LRyˆLC deben ser muy cercanos en valor. Si H0es verdadera (bajo H0) entonces

−2 ln(ΛRC) ∼ 𝜒2p−k

grados de libertad: parámetros de más en el modelo completo, los que fueron fijados en la hipótesis nula.

Ahora, denotando porˆL_S el valor máximo de la verosimilitud bajo el modelo saturado, podemos escribir

ΛRC = ˆ LR ˆ LS ˆ LC ˆLS −2 ln(ΛRC) = −2 ( ln ( ˆ LR ˆ LS ) −ln ( ˆ LC ˆ LS )) = −2 ln(ΛRS)−2 ln(ΛCS)

(37)

Cuando el parámetro de escala𝜙del modelo lineal generalizado (e.g. Binomial, Poisson) entonces

D= −2 ln(Λ0)

es la devianza. Si el parámetro de escala es desconocido (e.g. Normal) entonces

D

𝜙

(38)

Para el caso de parámetro de escala conocido se hacen las pruebas mediante la𝜒2.

Para el caso de parámetro de escala desconocido se toman cocientes de devianzas escaladas para eliminar el parámetro de escala y se utilizan pruebas F (cociente de𝜒2’s).

Devianzas pequeñas indican un buen ajuste de los datos.

Devianzas grandes denotan un mal ajuste.

(39)

Tabla de análisis de devianza

S⊃C⊃M1⊃ . . . ⊃Mk

Modelo Devianza gl Decremento en devianza AIC

Mk −2 ln (_ˆ L_Mk ˆLS ) Mk−1 −2 ln (_ˆ L_Mk −1 ˆLS ) DMk₋1−DMk .. . ... ... M1 −2 ln ( ˆ L_M1 ˆLS ) DM1−DM2 C −2 ln(ˆLC_ˆ LS ) DC−DM1 S 0 0 DS−DC

(40)

Análisis de Residuales

Distintos tipos de residuales se pueden definir para un modelo lineal generalizado 1 _Pearson rp= Y −ˆ𝜇 √ ˆ Var(𝜇)_ˆ

2 _{Residual de devianza Cada observación tiene una}

contribución a la devianza D= n ∑ i=1 di D= n ∑ i=1 d_i2 rD=signo(Y−ˆ𝜇) √ di rD=signo(Y−𝜇)ˆ di

(41)

Regresión Logística: Respuesta Binaria

Variable aleatoria de Bernoulli: sólo puede tomar dos posibles valores.

Ejemplos: póliza de seguro de vida. Portafolios de pólizas de automóviles.

Z =1=éxito y Z =0=fracaso Z ∼Ber(p), f(z), está dada por

f(z) = 𝜋z(1− 𝜋)1−z _{para z} ₌₀_,₁ donde𝜋∈ (0,1)es la probabilidad de éxito.

(42)

Función liga logit: ln ( 𝜋i 1− 𝜋i ) =x′ i𝛽= 𝛽0+xi 1𝛽1+ . . . +xi,p−1𝛽p−1 𝜋i = ex′i𝛽 1+ex′i𝛽 = e 𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1 1+e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1

(43)

Momio: 𝜋i

1−_𝜋_i Si denotamos por m al momio, es decir, m= 𝜋 1−_𝜋

entonces𝜋 = ₁₊m_m. Función de verosimilitud:

L(𝛽 ∣z) = n ∏ i=1 𝜋_izi(1− 𝜋i)1 −zi_.

(44)

Interpretación de los coeficientes del modelo de regresión logística: m(xi1, . . . ,xik, . . . ,xi,p−1) = 𝜋i 1− 𝜋i =ex′i𝛽=e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1 De xk a xk +1 m(xi 1, . . . ,xik+1, . . . ,xi,p−1) = 𝜋i∗ 1− 𝜋i∗ = e𝛽0+xi1𝛽1+...+(xik+1)𝛽k+...+xi,p−1𝛽p−1

y, el cociente de momios resulta ser

m(xi 1, . . . ,xik +1, . . . ,xi,p−1) m(xi 1, . . . ,xik, . . . ,xi,p−1)

=e𝛽k o equivalentemente

(45)

(46)

Un modelo alternativo al modelo de regresión logística es el modelo probit que satisface

𝜋i = Φ(𝛽0+xi 1𝛽1+ . . . +xi,p−₁𝛽_p−₁))

dondeΦ(x)es la función de distribución acumulada de una variable normal estándar.

(47)

EJEMPLO 2. REGRESIÓN LOGÍSTICA. HUNDIMIENTO DEL TITANIC.

(48)

Modelo Poisson : Regresión Poisson

Una variable aleatoria Y sigue una función de densidad Poisson (Y ∼Po(𝜆))si f(y) = 𝜆 y y!e −_𝜆 para y =0,1,2, . . . donde el parámetro𝜆 >0.

La variable aleatoria Poisson es útil para modelar el número de ocurrencias de cierto evento en el tiempo (medio continuo).

Nótese que E(Y) = 𝜆y Var(Y) = 𝜆. El objetivo consiste en

modelar𝜆como función de ciertas covariables.

(49)

Liga canónica: logaritmo, ln(𝜆i(xi 1, . . . ,xi,p−1)) =x ′ i𝛽= 𝛽0+xi 1𝛽1+ . . . +xi,p−1𝛽p−1 y 𝜆i(xi 1, . . . ,xi,p−1) =ex ′ i𝛽 =e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1_. De xk a xk +1 𝜆i(xi 1, . . . ,xik+1, . . . ,xi,p−1) =e𝛽0+xi1𝛽1+...+(xik+1)𝛽k+...+xi,p−1𝛽p−1 y entonces 𝜆i(xi 1, . . . ,xik +1, . . . ,xi,p−1) =

(50)

Función de verosimilitud: L(𝛽 ∣y) = n ∏ i=1 𝜆i(xi 1, . . . ,xi,p−1)yi yi! e−𝜆i(xi1,...,xi,p−1)_.

(51)

Modelo Poisson:

Varianza = Media Sobredispersión (Cuasipoisson):

Varianza > Media

Las estimaciones de los parámetros𝛽 para el modelo Poisson

y cuasiPoisson son idénticos pero los errores estándar son diferentes.

(52)

Modelo Binomial Negativo

Y ∣E ∼Poisson(𝜇E)y𝜃E ∼Gamma(𝜃) E(Y) = 𝜇 Var(Y) = 𝜇 + 𝜇_𝜃2 fY(y ∣ 𝜃, 𝜇) = Γ(𝜃+_Γ(𝜃)_yy_!) 𝜇 y_𝜃𝜃 (𝜇+𝜃)𝜃+y

(53)

EJEMPLO 3. REGRESIÓN POISSON. ACCIDENTES DE BARCOS.

(54)

Modelos para Variables Continuas Positivas

Los modelos GLM para respuestas continuas positivas son muy útiles para el análisis de los montos de las reclamaciones en Actuaría.

Gamma,

Normal Inversa y

Modelo Tweedie (para frecuencia y severidad).

(55)

Modelo Gamma

T ∼Gamma(𝜇,r) fT(t) = rr Γ(r)𝜇rt r−1_e−rt 𝜇 _{para t}_,_r_{, 𝜇 >}₀

La liga canónica corresponde a la inversa pero se acostumbra utilizar una liga logaritmo.

(56)

Modelo Normal Inverso

Y ∼IG(𝜇, 𝜆) f(y) = ( 𝜆 2𝜋y3 )1 2 e− 𝜆(y−𝜇)2 2𝜇2y _{para y}_{, 𝜇, 𝜆 >}₀

La media es𝜇y la varianza es 𝜇_𝜆3. La liga canónica es _𝜇12 y la

función de varianza es V(𝜇) = 𝜇3. Nuevamente, en la práctica se prefiere utilizar la liga logaritmo.

(57)

Modelo Tweedie

Sea Y una variable aleatoria tal que

Y = N ∑ k=1 Zk donde

N sigue una distribución Poisson (Po(𝜆))

las Z s son independientes e idénticamente distribuidas como Gamma entonces,

Y sigue una distribución Tweedie la cual asigna una

probabilidad positiva al caso Y =0 siendo una mezcla de una distribución discreta y una distribución continua.

(58)

3. Aplicación en Tarificación

Ideas Fundamentales:

1 Descomponer la tarificación en componentes de

frecuencia y severidad.

2 _{Utilizar factores de tarificación aprovechando la naturaleza}

multiplicativa de las ligas logaritmo en el modelo de frecuencia (p. ej. Poisson o binomial negativa) y el modelo de severidad (p.ej. gamma o normal inversa).

3 Generalmente, es mejor en la práctica modelar por

separado la frecuencia y severidad que utilizar el modelo Tweedie.

4 _{Necesidad de utilizar offsets para definir la exposición.} 5 _{Regresión Logística para modelar la renovación.} 6 La varianza de la prima se puede obtener mediante el

método delta.

(59)

EJEMPLO 4. TARIFICACIÓN.

MODELO DE FRECUENCIA: POISSON-BINOMIAL NEGATIVO