Regresión Polinomial y Regresión Logística

(1)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Polinomial y Regresión Logística

M.L. Gámiz Pérez

Departamento Estadística e Inv. Operativa

Universidad de Granada

(2)

Contenido

Regresión Polinomial Introducción y ejemplos Aproximaciones alternativas Regresión Logística Introducción

Estimación de los parámetros del modelo Evaluación del modelo

Contraste de regresión

Estudio de la bondad del ajuste Tests de significación de los coeficientes Capacidad predictiva del modelo

Regresión Logística Múltiple Análisis de residuos

(3)

Introducción

I Polinomio de segundo orden:

Y = β0+ β1X + β2X2+ (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)

I Se usan cuando la respuesta es curvilínea

I Y = f (X ) para f compleja → desarrollo en serie de Taylor

I Modelo de orden k en 1 variable

Y = β0+ β1X + . . . + βkXk +

I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal

múltiple

(4)

Introducción

Y = β0+ β1X + β2X2+ (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)

Y = β0+ β1X + . . . + βkXk +

múltiple

(5)

Introducción

Y = β0+ β1X + β2X2+ (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)

Y = β0+ β1X + . . . + βkXk +

múltiple

(6)

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I _β₂_{: Parámetro de efecto cuadrático, etc...}

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(7)

Principios básicos

I Interpretación:

I Extrapolación !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(8)

Principios básicos

I Interpretación:

I Extrapolación !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(9)

Principios básicos

I Interpretación:

I Extrapolación !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(10)

Principios básicos

I Interpretación:

I Extrapolación !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(11)

Principios básicos

I Interpretación:

I Extrapolación !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+ SI

(12)

Extensiones

Análisis de regresión usando funciones base...

I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] + con d = 2 y λ a determinar.

I Regresión por splines

Modelo lineal con un nodo (x0)

Y = β0+ β1aX + β1b(X − x0)++ con (X − x0)+= 1 si X > x0 0 en otro caso

(13)

Extensiones

Análisis de regresión usando funciones base...

I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] + con d = 2 y λ a determinar.

I Regresión por splines

Modelo lineal con un nodo (x0)

Y = β0+ β1aX + β1b(X − x0)++ con (X − x0)+= 1 si X > x0 0 en otro caso

(14)

El modelo de regresión con respuesta binaria

I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp

Y = f (X1, X2, . . . , Xp)

I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante

I Estrategias:

I _{mínimos cuadrados ponderados} I _{transformación de los datos}

I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.

(15)

El modelo de regresión con respuesta binaria

Y = f (X1, X2, . . . , Xp)

I Estrategias:

(16)

El modelo de regresión con respuesta binaria

Y = f (X1, X2, . . . , Xp)

I Estrategias:

(17)

El modelo de regresión con respuesta binaria

Y = f (X1, X2, . . . , Xp)

I Estrategias:

(18)

El modelo de regresión con respuesta binaria simple

I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:

I _{que un estudiante apruebe o no un examen;} I _{que un transplante de corazón sea aceptado o no;}

I _{que una empresa llegue a estar en problemas financieros o no;} I _{que un paciente de un hospital sobreviva o no antes de que le}

den de alta;

I _{que un cliente devuelva un crédito bancario o no.}

I Se considera la siguiente codificación de Y :

Y =

1, el suceso tiene lugar 0, el suceso no tiene lugar

I Se considera un solo regresor o variable explicativa X

I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.

(19)

El modelo de regresión con respuesta binaria simple

den de alta;

Y =

I Se considera un solo regresor o variable explicativa X

I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.

(20)

El modelo de regresión con respuesta binaria simple

den de alta;

Y =

(21)

El modelo lineal no es aplicable

I Supongamos el siguiente modelo

Y = β0+ β1X + ,

donde representa el error, con → N(0, σ): E (Y |X = x) = β0+ β1x

I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0

y... i = 1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...

(22)

El modelo lineal no es aplicable

I Supongamos el siguiente modelo

Y = β0+ β1X + ,

donde representa el error, con → N(0, σ): E (Y |X = x) = β0+ β1x

I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0

y... i = 1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...

(23)

Ejemplo

Notación: E (Yi|Xi) = π(Xi) = πi

I Queremos evaluar la probabilidad de desarrollar una

enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.

Es lógico esperar

I πi → 1 a medida que Xi% ∞, y

I πi → 0 a medida que Xi& 0.

I Con datos binarios, E (Y |X = x ) ∈ [0, 1].

I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.

(24)

Ejemplo

Es lógico esperar

(25)

Ejemplo

Es lógico esperar

(26)

(27)

Función de distribución logística

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I _{Flexibilidad;} I _{Interpretación práctica;} I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x

(28)

Función de distribución logística

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I _{Flexibilidad;} I _{Interpretación práctica;} I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x

(29)

Modelo de regresión logística binario

I Y{X =x}→ Binomial (1, π(x))

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Es un método predictivo y explicativo:

I Finalidades:

1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .

2. Clasificar individuos dentro de las categorías

(presente/ausente) de la variable Y en función de la

probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).

(30)

Modelo de regresión logística binario

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Finalidades:

(31)

Modelo de regresión logística binario

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Finalidades:

(32)

Modelo de regresión logística binario

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Finalidades:

(33)

Interpretación de los coeficientes: odds (ventaja)

I Definición:

O(x) = π(x ) 1 − π(x)

I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”

I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.

I Modelo log-lineal...

g (x) = ln π(x )

(34)

Interpretación de los coeficientes: odds (ventaja)

I Definición:

O(x) = π(x ) 1 − π(x)

I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”

I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.

I Modelo log-lineal...

g (x) = ln π(x )

(35)

Interpretación de los coeficientes: odds ratio (OR)

I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),

j = 1, 2;

I El logaritmo de la razón de los odds

ln " _π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1) = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).

I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y

equivalentemente OR = eβ1.

I Interpretación del signo:

I _{OR > 1} I _{OR < 1}

(36)

Interpretación de los coeficientes: odds ratio (OR)

I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),

j = 1, 2;

I El logaritmo de la razón de los odds

ln " _π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1) = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).

I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y

equivalentemente OR = eβ1.

(37)

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi

I Función de verosimilitud: L(β0, β1) =Qni =1Li

I Log-verosimilitud:

`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}

I Diferenciando con respecto a β0 y β1

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

I Si no hay una separación completa existe solución.

I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).

I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)

(38)

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

(39)

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

(40)

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

(41)

Ejemplo: Hosmer y Lemeshow (1989), pg. 2

Se pretende estudiar la influencia de la edad (X = Edad ) en la presencia/ausencia de evidencia de enfermedad coronaria (Y = CHD). Se seleccionaron 100 sujetos para participar en el estudio. La tabla siguiente representa la información referente a los primeros individuos ID GrupoEdad Edad CHD 1 1 20 0 2 1 23 0 3 1 24 0 4 1 25 0 5 1 25 1 6 1 26 0 7 1 26 0 8 1 28 0

(42)

Diagrama de dispersión

Y =

1, enfermedad está presente 0, otro caso

(43)

(44)

Resultado del ajuste

I Modelo: lnP(CHD=1|Edad )_{P(CHD=0|Edad )} = β0+ β1Edad

I Coeficientes estimados (SPSS ):

Coeficiente estimado Error estándar

Edad βb₁ = 0,111 0,024

Constante βb₀ = −5,309 1,134

Log -verosimilitud = −53,6765

I Probabilidad estimada de presentar la enfermedad en función de la Edad:

b

π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )

(45)

Resultado del ajuste

I Modelo: lnP(CHD=1|Edad )_{P(CHD=0|Edad )} = β0+ β1Edad

I Coeficientes estimados (SPSS ):

Coeficiente estimado Error estándar

Edad βb₁ = 0,111 0,024

Constante βb₀ = −5,309 1,134

Log -verosimilitud = −53,6765

I Probabilidad estimada de presentar la enfermedad en función de la Edad:

b

π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )

(46)

Contraste de regresión

I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).

I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?

I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)

I Regresion lineal:

Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )

Modelo lineal βb₀; bβ₁ 6= 0 P(Y_i − bY_i)2

Medida de diferencia V .E .

I Regresión logística: la medida se basa en el log de la función de verosimilitud

(47)

Contraste de regresión

I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).

I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?

I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)

I Regresion lineal:

Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )

Modelo lineal βb₀; bβ₁ 6= 0 P(Y_i − bY_i)2

Medida de diferencia V .E .

I Regresión logística: la medida se basa en el log de la función de verosimilitud

(48)

El test de razón de verosimilitudes

I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0

H1 : β1 6= 0

I Se basa en el estadístico (Hosmer y Lemeshow, 1989)

G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X

I En el modelo univariante comparamos con el modelo nulo

G = −2 ln " _n1 n n1 _n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). I Ejemplo...

(49)

El test de razón de verosimilitudes

I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0

H1 : β1 6= 0

I Se basa en el estadístico (Hosmer y Lemeshow, 1989)

G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X

I En el modelo univariante comparamos con el modelo nulo

G = −2 ln " _n1 n n1 _n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). Ejemplo...

(50)

El coeficiente R

2

en regresión logística

Alternativas al coeficiente de determinación usado en regresión lineal (Maddala-Magee)

R2= 1 − {L(0)/L( bβ0, bβ1)}2/n

I No es una verdadera medida de la bondad de ajuste: sólo compara 2 modelos

I L(0) = p₁n1(1 − p1)n−n1, F. de verosimilitud del modelo nulo

(sólo β0); con p1 = n1/n =P Yi/n.

I L( bβ0, bβ1), F. de verosimilitud evaluada en el estimador.

I L ≤ 1, entonces

R2 ≤ 1 − (pp1₁ (1 − p1)1−p1)2 2 _{≥ 0}

(51)

El test de Hosmer-Lemeshow

Pasos:

1. Calcular _bπ1 =π(Xb 1), . . . ,πbn=bπ(Xn), a partir del modelo ajustado (suponemos que no hay valores repetidos de la variable X ).

2. Ordenar los n valores de menor a mayor.

3. Agrupar los valores calculados siguiendo uno de los dos criterios siguientes:

(a) Dividir la secuencia ordenada en cuartiles, deciles u otra clasificación similar.

(b) Formar el primer grupo con todos los individuos para los que b

πi es menor que 0.1; en el segundo grupo considerar los individuos cuyo_bπi esté entre 0.1 y 0.2, etc.

(52)

4. Sumar los valores de _bπi dentro de cada grupo. Estos

sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.

5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (O_i∗− E_i∗)2 E_i∗ , donde E_i∗ = ni − Ei y Oi∗= ni− Oi.

(53)

4. Sumar los valores de _bπi dentro de cada grupo. Estos

sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.

5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (O_i∗− E_i∗)2 E_i∗ , donde E_i∗ = ni − Ei y Oi∗ = ni− Oi.

(54)

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2_∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(55)

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2_∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(56)

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2_∂βu`(β0_∂βj,β1) 0≤u,j ≤1

(57)

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2_∂βu`(β0_∂βj,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(58)

Prueba Score

I Contraste:

H0 : βj = 0

H1 : βj 6= 0

I Requiere menos esfuerzo computacional que los anteriores

I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .

I ST tiene distribución Normal estándar

(59)

Prueba Score

I Contraste:

H0 : βj = 0

H1 : βj 6= 0

I Requiere menos esfuerzo computacional que los anteriores

I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .

I ST tiene distribución Normal estándar

(60)

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)

(61)

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)

(62)

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN)

(63)

Modelo de regresión logística múltiple

P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;

(64)

Modelo de regresión logística múltiple

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;

(65)

Modelo de regresión logística múltiple

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi− πi) = 0 ∂`(β) ∂β = n X (Yi − πi)Xij = 0;

(66)

I Forma matricial: X0(Y − π) = 0, donde

X =       1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp       ; Y =      Y1 Y2 .. . Yn      ; π =      π1 π2 .. . πn     

I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b

I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))

donde

I _{U(·) es la funcion score, el vector de derivadas parciales de `;} I H(·) =

_∂2_`(·)

∂βj∂βu

(67)

donde

I _{U(·) es la funcion score, el vector de derivadas parciales de `;} I H(·) =

_∂2_`(·)

∂βj∂βu

(68)

donde

(69)

Método de Newton-Raphson

El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β_(k)= bβ_(k−1)+ X0W_(k−1)X−1 X0 Y−π_b_(k−1) I W_(k−1) = diag π_b(k−1)(1 −πb(k−1)) n×n

I π_b_(k−1) son probabilidades estimadas en el paso anterior

I βb_(k−1) es el vector de coeficientes obtenido en el paso anterior.

I Se necesita un valor inicial para empezar el proceso iterativo.

(70)

Método de Newton-Raphson

El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β_(k)= bβ_(k−1)+ X0W_(k−1)X−1 X0 Y−π_b_(k−1) I W_(k−1) = diag π_b(k−1)(1 −πb(k−1)) n×n

I π_b_(k−1) son probabilidades estimadas en el paso anterior

I βb_(k−1) es el vector de coeficientes obtenido en el paso anterior.

I Se necesita un valor inicial para empezar el proceso iterativo.

(71)

Interpretación de los coeficientes

I β0= logit de presentar el suceso de interés cuando todas las

covariables toman valor 0.

I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2₎ = exp " _p X i =1 βi(Xi1− Xi2) #

Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.

I Caso particular: X1

j = Xj2+ 1 y el resto igual,

O(X1)/O(X2) = exp(βj)

I βj= cambio en logit cuando Xj aumenta en una unidad y el

resto de variables se mantienen iguales.

(72)

Interpretación de los coeficientes

I β0= logit de presentar el suceso de interés cuando todas las

covariables toman valor 0.

I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2₎ = exp " _p X i =1 βi(Xi1− Xi2) #

Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.

I Caso particular: X1

j = Xj2+ 1 y el resto igual,

O(X1)/O(X2) = exp(βj)

(73)

Contrastes de significación del modelo

(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.

Estadístico de contraste (Wald): Wj = b βj

se( bβj) → N(0, 1)

Intervalo de confianza al nivel 100 × (1 − α) %: b

(74)

Contrastes de significación del modelo

(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.

Estadístico de contraste (Wald): Wj = b βj

se( bβj) → N(0, 1)

(75)

(C) Pruebas de hipótesis de subconjuntos de parámetros

I Sea β = (β₍₁₎, β(2)), con dim(β(1)) = r < p.

I Contraste:

H0: β(1) = 0 H1: β(1) 6= 0,

I _{Estadístico de contraste:}

(76)

Selección de variables

(Silva y Barroso, 2004)

Adelante:

1. Se inicia con un modelo vacio (solo β0)

2. Se ajusta un modelo y se calcula el p-valor de incluir cada variable por separado

3. Se selecciona el modelo con la variable más significativa

4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de añadir cada variable no seleccionada por separado

5. Se selecciona el modelo con la más significativa

(77)

Atrás:

1. Se inicia con un modelo con TODAS las variables candidatas

2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar

3. Se selecciona para eliminar la menos significativa

4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.

Stepwise:

a) Se combinan los métodos adelante y atrás.

b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar

c) No todos los métodos llegan a la misma solución necesariamente

(78)

Atrás:

1. Se inicia con un modelo con TODAS las variables candidatas

2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar

3. Se selecciona para eliminar la menos significativa

4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.

Stepwise:

a) Se combinan los métodos adelante y atrás.

b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar

(79)

Consideraciones importantes en regresión logística múltiple

I Multicolinealidad

I _{Consiste en: dos o más variables linealmente correlacionadas;} I _{Efecto: Incremento exagerado en los errores estándar y en los}

coeficientes estimados. Modelo poco creible I Posibles estrategias:

I Examinar la matriz de correlaciones;

I Formular modelos con las variables correlacionadas y estudiar el coeficiente R2

(80)

I Confusión e interacción

I _{Variable confusora: Covariable que está asociada a la variable} respuesta y a un factor de riesgo

I _{Interacción: La asociación entre el factor de riesgo y la} respuesta depende de la covariable (efecto modificador ). I _Ejemplo:

I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);

I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0

I Modelo: logit = β0+ β1X + β2F + δX ∗ F

I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0

I Variables categóricas

I _{Se introducen como variables dummy} I _{Se aceptan o se rechazan en bloque.}

(81)

I Confusión e interacción

I _{Variable confusora: Covariable que está asociada a la variable} respuesta y a un factor de riesgo

I _{Interacción: La asociación entre el factor de riesgo y la} respuesta depende de la covariable (efecto modificador ). I _Ejemplo:

I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);

I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0

I Modelo: logit = β0+ β1X + β2F + δX ∗ F

I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0

I Variables categóricas

I _{Se introducen como variables dummy} I _{Se aceptan o se rechazan en bloque.}

(82)

Análisis de residuos

Residuo. Medida que expresa la diferencia entre las

respuestas observadas y predichas por el modelo. Alertan de...

1. que no se cumpla el supuesto de linealidad entre el

modelo logit de la probabilidad de Y = 1 y la(s) variable(s) independiente(s);

2. la presencia de algunas observaciones extremas que

perturbe la calidad del ajuste; o

3. que una función distinta de la logística describiese más

adecuadamente el conjunto de observaciones. Tipos:

(83)

Datos agrupados

Consideramos perfiles de covariables que definen grupos de individuos

I mj= número total de individuos con mismo perfil de

covariables.

I Hay J combinaciones distintas: X1, . . . , XJ

I Y˜j= número de individuos con perfil j que presentan el suceso

Y = 1

I π_bj =bπ(Xj) = valor de probabilidad estimado según el modelo logístico para el perfil j -ésimo.

I Las aproximaciones normales asintóticas se sustentan en la aproximación normal de la variable binomial ˜Y , por esto mj

(84)

Residuos de Pearson

I Residuos: Se definen...

rj = ˜Yj − mjbπj

I Residuos estandarizados o residuos de Pearson:

rej =

˜

Yj − mjπbj pmjbπj(1 −bπj)

I _{Si |r}_ej| > 2 dato a examinar!

I _{Si J no es grande (m}_j _{suficientemente grande para cada j ), r}_ej son NORMALES.

I _{Si m}_j = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2_{(J − (p + 1))} (J ≈ n problema!).

(85)

Residuos de Pearson

rej =

˜

I _{Si m}_j = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2_{(J − (p + 1))} (J ≈ n problema!).

(86)

Residuos de Pearson

rej =

˜

I _{Si m}_j = 1, rj solo toma 2 valores y no puede esperarse Normalidad.

(87)

Residuos deviance

Definición: dj = sign( ˜Yj−mjbπj) v u u t2 " ˜ Yjln ˜ Yj mjbπj ! + (mj − ˜Yj) ln mj − ˜Yj mj(1 −bπj) !#

I Mide la discrepancia entre la j -ésima componente del

logaritmo de la función de verosimilitud del modelo ajustado y la correspondiente componente del logaritmo de la función de verosimilitud que resultaría si cada punto fuese ajustado exactamente.

(88)

I Datos no agrupados (mj = 1) I _d_i= −{2[− ln(1 −_bπi)]}1/2, si Yi = 0; y I _d_i= {2[− ln(_bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 d_j2 es χ2 _{si J << n.}

(89)

I Datos no agrupados (mj = 1) I _d_i= −{2[− ln(1 −_bπi)]}1/2, si Yi = 0; y I _d_i= {2[− ln(_bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 d_j2 es χ2 _{si J << n.}

(90)

Influencia o leverage

¿Qué efecto tiene eliminar todos aquellos sujetos que tienen un determinado perfil de covariables en los coeficientes estimados y las medidas de resumen global, X2 _{y D?}

Se define... ∆ bβj = bβ − bβ(−j ) Pregibon (1981) aproxima... ∆ bβj = r2 ejhj 1 − hj

donde hj son los leverages,

(91)

Otros diagnósticos

Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...

Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆X2 j = rej2 I Deviance: ∆Dj = d2 j 1−hj

Considerar las representaciones gráficas

I Detectar perfiles con gran influencia en el modelo: (_bπj, ∆ bβj)

I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X

2

(92)

Otros diagnósticos

Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...

Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆X_j2 = r_ej2 I Deviance: ∆Dj = d2 j 1−hj

Considerar las representaciones gráficas

I Detectar perfiles con gran influencia en el modelo: (_bπj, ∆ bβj)

I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X

2

(93)

Otros diagnósticos

Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de (_bπj, rj) o (πbj, dj) porque:

1. Cuando J ≈ n la mayoría de los residuos positivos corresponden a perfiles en los que ˜Yj = mj, por ejemplo

mj = 1, y los residuos negativos se corresponden con aquellos

con ˜Yj = 0. Por lo que el signo no es informativo.

2. Grandes residuos se corresponden con puntos que no están bien reflejados en el modelo. Si consideramos los residuos al cuadrado se enfatiza aún más la falta de ajuste.

3. La forma de los gráficos ayuda a determinar qué perfiles se corresponden con ˜Yj = 0 y cuáles tienen ˜Yj = mj

(94)

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

I Se estima mediante el método de máxima-verosimilitud

I Métodos númericos implementados en software estadístico (SPSS)

(95)

Regresión Logística Multinomial

(96)

Regresión Logística Multinomial

(97)

Regresión Logística Multinomial

(98)

Regresión Logística Multinomial

(99)

Bibliografía I

Hosmer,D.W. y Lemeshow, S. (1989). Applied Logistic Regression, Wiley

Kleinbaum, D.G. (1994). Logistic Regression. A Self-Learning Text. Springer.

Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002). Introducción al análisis de regresión lineal, CECSA Pérez López, C. (2001). Técnicas Estadísticas con SPSS (Versión 10), Pearson Alhambra

Ryan, T. (1997). Modern Regression Methods, Wiley