• No se han encontrado resultados

Modelos Lineales Generalizados (GLM)

N/A
N/A
Protected

Academic year: 2021

Share "Modelos Lineales Generalizados (GLM)"

Copied!
59
0
0

Texto completo

(1)

Modelos Lineales Generalizados (GLM)

JUAN JOSÉ FERNÁNDEZ DURÁN1

1Departmento de Estadística y Departamento de Administración ITAM

Seminario ITAM-CONAC Métodos Estadísticos en Actuaría I

Auditorio Raúl Baillères, ITAM 3 de Noviembre de 2011

(2)

1. Conceptos Preliminares

Tipos de Variables

Modelo de Regresión Lineal

2. Modelos Lineales Generalizados (GLM)

Definición

Análisis de Devianza Validación

Casos Particulares

Modelo Binomial (Regresión Logística) Modelo Poisson

Sobredispersión: Modelo Poisson y Modelo Binomial Negativo

Modelo Poisson-Gamma Modelo Tweedie

3. Aplicación en Tarificación

(3)

1. Conceptos Preliminares

Tipos de Variables:

1 Cualitativas: Indican la presencia de una cualidad o

atributo de las unidades experimentales.

1 Nominales: Ejemplo: Variable Género (Hombre, Mujer). 2 Ordinales: Ejemplo: Nivel Socioeconómico, NSE (Alto,

Medio, Bajo).

2 Cuantitativas: Surgen de un proceso de medición o

conteo en las unidades experimentales.

1 Discretas: Ejemplos: Edad en años cumplidos, número

de visitas al doctor en un mes.

(4)

Modelos de Regresión Lineal

Preguntas:

1 ¿ Cuál es la relación entre la variable Y (variable

dependiente, variable de respuesta) con el conjunto de variables{X1,X2, . . . ,Xk}(variables independientes, variables explicativas) en cierta población objeto de estudio ?

2 ¿ Podemos describir el comportamiento de la variable Y

en términos de las variables X ?

3 ¿ Es posible construir un modelo estadístico que relacione

Y con las X ’s de tal forma que dados los valores de las X ’s podamos encontrar un intervalo de predicción para la

variable Y ?

(5)

Objetivos del Análisis de Regresión:

1 Estimación y descripción: Resumir la información

contenida en los datos.

2 Predecir (pronosticar) Y en términos de las X ’s.

3 Control: controlar (mantener) Y en un nivel deseado a

(6)

Base de Datos para un Análisis de Regresión

i-ésimo renglón: datos del i-ésimo individuo

j-ésima columna: valores de la j-ésima variable.

(7)

Características del Modelo de Regresión Lineal:

1 Y es una variable univariada, del tipo cuantitativa discreta

o continua medida en escala de razón.

2 Las variabes X pueden ser de cualquier tipo y estar

medidas en cualquier escala de medición.

3 Los modelos son lineales en sus parámetros. Varios

modelos no lineales se pueden transformar en modelos lineales.

(8)

Ejemplos: 1 Modelo 1: Y = 𝛽 0+ 𝛽1X +e 2 Modelo 2: ln(Y) = 𝛽 0+ 𝛽1eX + 𝛽2X2+e 3 Modelo 3: eY = 𝛽 0+ 𝛽1cos(X) + 𝛽3eX 3 +e 4 Modelo 4: Y =e𝛽0+cos(𝛽2X)+e e: término de error 𝛽0,𝛽1,𝛽2y𝛽3: parámetros.

Modelos 1, 2 y 3: modelos válidos. Modelo 4: modelo no válido.

(9)

Modelo de Regresión Lineal Simple

Yi = 𝛽0+ 𝛽1Xi+ei i=1, . . . ,n

(10)

Supuestos del Modelo

1 VE1) Es tal que cuando n → ∞, su varianza muestral

1

n

n

i=1(Xi− ¯X)2→Q donde Q es una constante fija finita.

2 VE2) El cuarto momento de X es finito. 1 E1) Tienen media cero (condicional en X ),

E(eiXi) =0⇒Cov(ei,Xi) =0. La variable explicativa X y el error e no están correlacionados.

2 E2) Son homoscedásticos (Tienen varianza constante),

Var(eiXi) = 𝜎2. Por lo tanto, el error tiene varianza constante que no es función de la variable explicativa.

3 E3) No están correlacionados, Cov(e

i,ejXi,Xj) =0 para toda i ∕=j.

4 E4) Tienen una distribución normal, por tanto,

eiN(0, 𝜎2) Equivalentemente,

eN(0, 𝜎2In×n)

(11)

Nótese que dados estos supuestos,

E(YiXi) = 𝛽0+ 𝛽1Xi

Var(YiXi) = 𝜎2

(12)

Estimación por Mínimos Cuadrados

Minimizar: SC(𝛽0, 𝛽1) = ni=1 (Yi− 𝛽0− 𝛽1Xi)2

Bajo normalidad de los errores es equivalente a Máxima Verosimilitud.

(13)

0 2 4 6 8 hcuartos 2 4 6 8 10 12 hocupantes

(14)

1 El valor ajustado de la E[Y X

i]dado por el modelo (Y gorro)Yˆi:

ˆ

Yi= ˆ𝛽0+ ˆ𝛽1Xi

2 Suma de Cuadrados Total SCT :

SCT =

n

i=1

(Yi− ¯Y)2

Es la variación de Y sin tomar en cuenta la información dada por X .

3 Suma de Cuadrados del Modelo SCM:

SCM =

n

i=1

( ˆYi− ¯Y)2

Es la variación de los valores predichos por el modelo alrededor de su mediaY .¯

4 Suma de Cuadrados del Error SCE :

SCE =

n

i=1

(Yi− ˆYi)2

(15)

A partir de la descomposición en suma de cuadrados

SCT =SCM+SCE

se define el coeficiente de determinación como

R2= SCM SCT = ( 1−SCE SCT ) ×100

(16)

¿ Es significativa (importante) la variable explicativa X ? ˆ 𝛽1− 𝛽1 sSC1 XXt(n−2) t-Student con n−2 g.l. I.C: al(1− 𝛼)100%para𝛽1: ˆ 𝛽1±t(n−2),1−𝛼 2s √ 1 SCXX donde t(n2),1−𝛼 2 es el percentil ( 1−𝛼 2 ) 100% de una distribución t-Student con n2 grados de libertad (g.l.). Prueba de Hipótesis: H0: 𝛽1=0 vs. Ha: 𝛽1∕=1 ˆ 𝛽1 s√ 1 SCXX

t(n−2)es una cantidad pivotal bajo H0.

(17)

Recuérdese que E(YX), para X dada, es un parámetro (cantidad fija desconocida).

ˆ E[YX =x] = ˆYx ˆ Yx− 𝛽0− 𝛽1x s √ 1 n + (x− ¯X)2 SCXXt(n−2) I.C. al(1− 𝛼)100%para E[YX =x] ˆ Yx±t(n−2),1−𝛼 2s √ 1 n + (x − ¯X)2 SCXX

(18)

0 2 4 6 8 hcuartos 2 4 6 8 10 12 hocupantes

Figure: Intervalos de Confianza al 95% para E(YX).

(19)

Predicción de Valores Futuros:

I.P. al(1− 𝛼)100%para el valor futuro de Y en X =x

ˆ 𝛽0+ ˆ𝛽1x ±t(n−2),1−𝛼 2s √ 1+ 1 n+ (x− ¯X)2 SCXX

(20)

Análisis de Residuales

ˆ

ei, definido como

ˆ

ei =Yi− ˆYi =observadoiesperadoi

Determinar la existencia de violaciones a los supuestos del modelo.

Si el modelo ajustado es adecuado entonces los residuales

e1, ˆe2, . . . , ˆen}se deben comportar como una muestra de los errores{e1,e2, . . . ,en}.

(21)

Inclusión de Variables Cualitativas:

Para incluir una variable cualitativa como variable explicativa con m niveles (m posibles valores) en un modelo de regresión es necesario

construir m1 variables indicadoras relacionadas

con m1 de los m niveles de la variable cualitativa.

Una variable indicadora, como su nombre lo señala,

(22)

Por ejemplo,

1 Para la variable Sexo con posibles valores Hombre (H) y

Mujer (M) es necesario construir una variable indicadora:

IH(i) =

{

1 si el i-ésimo individuo es hombre 0 en otro caso

2 Para la variable Carrera con posibles valores Actuaría,

Matemáticas, Administración, Contabilidad y Otra es necesario construir 4 variables indicadoras:

IAct(i) =

{

1 si el i-ésimo individuo estudia Actuaría 0 en otro caso

IMat(i) =

{

1 si el i-ésimo individuo estudia Matemáticas 0 en otro caso

IConta(i) = {

1 si el i-ésimo individuo estudia Contabilidad 0 en otro caso

IOtra(i) =

{

1 si el i-ésimo individuo estudia Otra 0 en otro caso

(23)

Término de Interacción: producto de una variable cuantitativa por una variable indicadora.

Ejemplo:

1 Y : Salario. 2 X

1: NSE (A, B y C).

3 X

2: Horas de Trabajo (HTrabajo).

Si utilizamos indicadoras para los niveles A y B podemos escribir el modelo de regresión lineal como

Salarioi = 𝛽0+ 𝛽1HTrabajoi+ 𝛽2IA(i) + 𝛽3IB(i)+

𝛽4HTrabajoiIA(i) + 𝛽5HTrabajoiIB(i) +ei

ˆ

(24)

Criterios de Selección de Modelos

Escoger el modelo que maximice la R2(Ra2).

Cp=

SCEreducido

s2

completo

+2pn

Escoger el modelo final como aquel que minimiza Cpo que

haga Cpp.

AIC = −2l+2p=cte+2p+n ln(SCE)

Escoger el modelo con el menor AIC.

BIC = −2l+p ln(n) =cte+p ln(n) +n ln(SCE)

Escoger el modelo con el menor BIC.

PRESS=

n

i=1

(Yi− ˆYi(i))2

Escoger el modelo con el menor PRESS (Validación Cruzada).

(25)

EJEMPLO 1.

REGRESIÓN LINEAL SIMPLE:

ESPERANZA DE VIDA VS. NÚMERO DE HABITANTES POR CADA DOCTOR

(26)

2. Modelos Lineales Generalizados

Los modelos de regresión lineal presentan dos grandes problemas:

1 La variable dependiente, Y , debe tener una distribución

Normal (los errores tienen una distribución Normal).

2 La relación debe de ser lineal en los parámetros.

(27)

En la práctica es posible pensar en varias situaciones en las cuales Y no tiene una distribución normal:

1 Número de accidentes en un año para cierta cartera de

asegurados, YPoisson(𝜆) =Po(𝜆).

2 Número de partidos que ganará cierto equipo de un total

de n, YBinomial(n, 𝜋) =Bi(n, 𝜋).

3 Monto de reclamaciones, Y Gamma(𝛼, 𝛽).

(28)

Generalmente consideramos la siguiente ecuación de regresión

E[Yixi] =gi(x

i𝛽)para i=1, . . . ,n donde gi()son funciones monótonas (con inversa) y comúnmente gi() =g()para i =1, . . . ,n.

Las distribuciones para las cuales los modelos lineales generalizados están definidos son aquellas que pertenecen a la familia exponencial.

(29)

Funciones de densidad: f(y; 𝜃, 𝜙) =c(y, 𝜙)e y𝜃−a(𝜃) 𝜙 E[Y] = 𝜇 = ˙a(𝜃) Var(Y) = 𝜙¨a(𝜃) = 𝜙V(𝜇) Ejemplos: 1 YPo(𝜆)

(30)

Liga canónica y función de varianza:

Modelo Liga Canónica Función de Parámetro de

Varianza V(𝜇) Dispersión𝜙 Bernoulli ln( 𝜇i 1−𝜇i ) =xi𝛽 𝜇i(1− 𝜇i) 1 Poisson ln(𝜇i) =xi𝛽 𝜇i 1 Normal 𝜇i =xi𝛽 1 𝜙 Gamma 𝜇−1 i =xi𝛽 𝜇2i 𝜙 Normal Inversa 𝜇−2 i =xi𝛽 𝜇3i 𝜙

Table: Ligas Canónicas.

Pesos para cada observación:

𝜙= 𝜙∗

wi

para i=1, . . . ,n

(31)

Un modelo lineal generalizado se compone de 3 elementos:

1 Vector de observaciones de la variable dependiente Y ,

suponiendo que Y tiene una distribución en la familia exponencial.

2 Matriz de diseño, tamaño n×p (p1 covariables)

Vector de parámetros𝛽 3 Función liga g(⋅): 𝜇i =E(Yi) 𝜂i =Xi𝛽 =g(𝜇i) ⇒ 𝜇i =g−1(Xi𝛽)

(32)

Por lo tanto, la base de datos es ⎛ ⎜ ⎜ ⎜ ⎝ Y1 X11 X21 . . . Xp−1,1 Y2 X12 X22 . . . Xp1,2 .. . ... ... . . . ... Yn X1n X2n . . . Xp−1,n ⎞ ⎟ ⎟ ⎟ ⎠

donde Y ∼familia exponencial. Ejemplos:

1 Binomial

Yi número de reprobados en el salón i

Xi1duración del examen

2 Poisson

Yi número de accidentes de autos en el año para el sujeto i

Xi1año lluvioso o no

Xi2millas recorridas

Xi3sexo

Xi4edad

(33)

Análisis de Devianza: Selección de Modelos

Objetivo: Determinar si todas las variables explicativas son importantes para explicar el comportamiento de la variable dependiente. Probar hipótesis de la forma:

H0: 𝛽q+1= 𝛽q+2= . . . = 𝛽p−1=0

Regla: A más parámetros mejor ajuste

(34)

Al trabajar con máxima verosimilitud se hace uso de modelos anidados

Ejemplo: Y,X1,X2, . . . ,X10

Modelo completo: 𝜂i = 𝛽0+∑10i=1𝛽iXi Modelo reducido:𝜂i = 𝛽0+ 𝛽1X1+ 𝛽2X10

Modelos anidados: Se dice que los modelos

M1,M2, . . . ,Mk están anidados si M1⊃M2⊃ . . . ⊃Mk Ejemplo: M1:utiliza X1,X2, . . . ,X10 M2:utiliza X1,X3,X5 M3:utiliza X1,X3 M4:utiliza X1

(35)

Prueba de Cociente de Verosimilitudes

La prueba del cociente de verosimilitudes: Modelo completo vs. Modelo reducido: ΛRC = ˆ LR ˆ LC

(36)

La idea principal es que si la hipótesis nula es cierta entonces

ˆ

LRLC deben ser muy cercanos en valor. Si H0es verdadera (bajo H0) entonces

−2 ln(ΛRC) ∼ 𝜒2pk

grados de libertad: parámetros de más en el modelo completo, los que fueron fijados en la hipótesis nula.

Ahora, denotando porˆLS el valor máximo de la verosimilitud bajo el modelo saturado, podemos escribir

ΛRC = ˆ LR ˆ LS ˆ LC ˆLS −2 ln(ΛRC) = −2 ( ln ( ˆ LR ˆ LS ) −ln ( ˆ LC ˆ LS )) = −2 ln(ΛRS)−2 ln(ΛCS)

(37)

Cuando el parámetro de escala𝜙del modelo lineal generalizado (e.g. Binomial, Poisson) entonces

D= −2 ln(Λ0)

es la devianza. Si el parámetro de escala es desconocido (e.g. Normal) entonces

D

𝜙

(38)

Para el caso de parámetro de escala conocido se hacen las pruebas mediante la𝜒2.

Para el caso de parámetro de escala desconocido se toman cocientes de devianzas escaladas para eliminar el parámetro de escala y se utilizan pruebas F (cociente de𝜒2’s).

Devianzas pequeñas indican un buen ajuste de los datos.

Devianzas grandes denotan un mal ajuste.

(39)

Tabla de análisis de devianza

SCM1⊃ . . . ⊃Mk

Modelo Devianza gl Decremento en devianza AIC

Mk −2 ln (ˆ LMk ˆLS ) Mk−1 −2 ln (ˆ LMk −1 ˆLS ) DMk1−DMk .. . ... ... M1 −2 ln ( ˆ LM1 ˆLS ) DM1−DM2 C −2 ln(ˆLCˆ LS ) DCDM1 S 0 0 DSDC

(40)

Análisis de Residuales

Distintos tipos de residuales se pueden definir para un modelo lineal generalizado 1 Pearson rp= Y −ˆ𝜇 √ ˆ Var(𝜇)ˆ

2 Residual de devianza Cada observación tiene una

contribución a la devianza D= ni=1 di D= ni=1 di2 rD=signo(Y−ˆ𝜇) √ di rD=signo(Y−𝜇)ˆ di

(41)

Regresión Logística: Respuesta Binaria

Variable aleatoria de Bernoulli: sólo puede tomar dos posibles valores.

Ejemplos: póliza de seguro de vida. Portafolios de pólizas de automóviles.

Z =1=éxito y Z =0=fracaso ZBer(p), f(z), está dada por

f(z) = 𝜋z(1− 𝜋)1−z para z =0,1 donde𝜋∈ (0,1)es la probabilidad de éxito.

(42)

Función liga logit: ln ( 𝜋i 1− 𝜋i ) =xi𝛽= 𝛽0+xi 1𝛽1+ . . . +xi,p−1𝛽p−1 𝜋i = exi𝛽 1+exi𝛽 = e 𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1 1+e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1

(43)

Momio: 𝜋i

1−𝜋i Si denotamos por m al momio, es decir, m= 𝜋 1−𝜋

entonces𝜋 = 1+mm. Función de verosimilitud:

L(𝛽 ∣z) = ni=1 𝜋izi(1− 𝜋i)1 −zi.

(44)

Interpretación de los coeficientes del modelo de regresión logística: m(xi1, . . . ,xik, . . . ,xi,p−1) = 𝜋i 1− 𝜋i =exi𝛽=e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1 De xk a xk +1 m(xi 1, . . . ,xik+1, . . . ,xi,p−1) = 𝜋i∗ 1− 𝜋i∗ = e𝛽0+xi1𝛽1+...+(xik+1)𝛽k+...+xi,p−1𝛽p−1

y, el cociente de momios resulta ser

m(xi 1, . . . ,xik +1, . . . ,xi,p−1) m(xi 1, . . . ,xik, . . . ,xi,p−1)

=e𝛽k o equivalentemente

(45)
(46)

Un modelo alternativo al modelo de regresión logística es el modelo probit que satisface

𝜋i = Φ(𝛽0+xi 1𝛽1+ . . . +xi,p1𝛽p1))

dondeΦ(x)es la función de distribución acumulada de una variable normal estándar.

(47)

EJEMPLO 2. REGRESIÓN LOGÍSTICA. HUNDIMIENTO DEL TITANIC.

(48)

Modelo Poisson : Regresión Poisson

Una variable aleatoria Y sigue una función de densidad Poisson (YPo(𝜆))si f(y) = 𝜆 y y!e𝜆 para y =0,1,2, . . . donde el parámetro𝜆 >0.

La variable aleatoria Poisson es útil para modelar el número de ocurrencias de cierto evento en el tiempo (medio continuo).

Nótese que E(Y) = 𝜆y Var(Y) = 𝜆. El objetivo consiste en

modelar𝜆como función de ciertas covariables.

(49)

Liga canónica: logaritmo, ln(𝜆i(xi 1, . . . ,xi,p−1)) =xi𝛽= 𝛽0+xi 1𝛽1+ . . . +xi,p−1𝛽p−1 y 𝜆i(xi 1, . . . ,xi,p−1) =exi𝛽 =e𝛽0+xi1𝛽1+...+xi,p−1𝛽p−1. De xk a xk +1 𝜆i(xi 1, . . . ,xik+1, . . . ,xi,p−1) =e𝛽0+xi1𝛽1+...+(xik+1)𝛽k+...+xi,p−1𝛽p−1 y entonces 𝜆i(xi 1, . . . ,xik +1, . . . ,xi,p−1) =

(50)

Función de verosimilitud: L(𝛽 ∣y) = ni=1 𝜆i(xi 1, . . . ,xi,p−1)yi yi! e−𝜆i(xi1,...,xi,p−1).

(51)

Modelo Poisson:

Varianza = Media Sobredispersión (Cuasipoisson):

Varianza > Media

Las estimaciones de los parámetros𝛽 para el modelo Poisson

y cuasiPoisson son idénticos pero los errores estándar son diferentes.

(52)

Modelo Binomial Negativo

YEPoisson(𝜇E)y𝜃EGamma(𝜃) E(Y) = 𝜇 Var(Y) = 𝜇 + 𝜇𝜃2 fY(y ∣ 𝜃, 𝜇) = Γ(𝜃+Γ(𝜃)yy!) 𝜇 y𝜃𝜃 (𝜇+𝜃)𝜃+y

(53)

EJEMPLO 3. REGRESIÓN POISSON. ACCIDENTES DE BARCOS.

(54)

Modelos para Variables Continuas Positivas

Los modelos GLM para respuestas continuas positivas son muy útiles para el análisis de los montos de las reclamaciones en Actuaría.

Gamma,

Normal Inversa y

Modelo Tweedie (para frecuencia y severidad).

(55)

Modelo Gamma

TGamma(𝜇,r) fT(t) = rr Γ(r)𝜇rt r−1ert 𝜇 para t,r, 𝜇 >0

La liga canónica corresponde a la inversa pero se acostumbra utilizar una liga logaritmo.

(56)

Modelo Normal Inverso

YIG(𝜇, 𝜆) f(y) = ( 𝜆 2𝜋y3 )1 2 e− 𝜆(y−𝜇)2 2𝜇2y para y, 𝜇, 𝜆 >0

La media es𝜇y la varianza es 𝜇𝜆3. La liga canónica es 𝜇12 y la

función de varianza es V(𝜇) = 𝜇3. Nuevamente, en la práctica se prefiere utilizar la liga logaritmo.

(57)

Modelo Tweedie

Sea Y una variable aleatoria tal que

Y = Nk=1 Zk donde

N sigue una distribución Poisson (Po(𝜆))

las Z s son independientes e idénticamente distribuidas como Gamma entonces,

Y sigue una distribución Tweedie la cual asigna una

probabilidad positiva al caso Y =0 siendo una mezcla de una distribución discreta y una distribución continua.

(58)

3. Aplicación en Tarificación

Ideas Fundamentales:

1 Descomponer la tarificación en componentes de

frecuencia y severidad.

2 Utilizar factores de tarificación aprovechando la naturaleza

multiplicativa de las ligas logaritmo en el modelo de frecuencia (p. ej. Poisson o binomial negativa) y el modelo de severidad (p.ej. gamma o normal inversa).

3 Generalmente, es mejor en la práctica modelar por

separado la frecuencia y severidad que utilizar el modelo Tweedie.

4 Necesidad de utilizar offsets para definir la exposición. 5 Regresión Logística para modelar la renovación. 6 La varianza de la prima se puede obtener mediante el

método delta.

(59)

EJEMPLO 4. TARIFICACIÓN.

MODELO DE FRECUENCIA: POISSON-BINOMIAL NEGATIVO

Referencias

Documento similar

El m´ aximo y el m´ınimo de variables aleatorias definidas sobre un mismo espacio de probabilidad son trans- formaciones medibles y, por tanto, cada una de ellas es variable

Esta línea de investigación presenta una oportunidad de estudio para la vivienda, no sólo porque ha sido poco abordada desde este enfoque, sino también porque

A continuaci ´on analizaremos con algo m ´as de profundidad los problemas que surgen al considerar un modelo de regresi ´on lineal cl ´asico en el que la variable dependiente

• Variable aleatoria es la variable que surge de un experimento aleatorio, consistente en considerar todos los posibles valores de una variable en una población. La variable

 Variable aleatoria es la variable que surge de un experimento aleatorio, consistente en considerar todos los posibles valores de una variable en una población. La

Los miste-iosos, La lq~enda mora y Los tesoros de la sultana. Una primen lectura clel material permitió conocer que se trataba de una copia positiva para la exhibición

También aquí la parodia deja oír tras lo dicho otro discurso relativo a un con- texto diferente, que es en esta ocasión poético (“Me gustas cuando callas por- que estás como

Entre los modelos de elección binaria, que sirven para explicar una variable dependiente binaria (0/1), se encuentra la Regresión Logística, que se utiliza