METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Polinomial y Regresión Logística
M.L. Gámiz PérezDepartamento Estadística e Inv. Operativa
Universidad de Granada
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Contenido
Regresión Polinomial Introducción y ejemplos Aproximaciones alternativas Regresión Logística IntroducciónEstimación de los parámetros del modelo Evaluación del modelo
Contraste de regresión
Estudio de la bondad del ajuste Tests de significación de los coeficientes Capacidad predictiva del modelo
Regresión Logística Múltiple Análisis de residuos
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I Polinomio de segundo orden:
Y = β0+ β1X + β2X2+ (1)
Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)
I Se usan cuando la respuesta es curvilínea
I Y = f (X ) para f compleja → desarrollo en serie de Taylor
I Modelo de orden k en 1 variable
Y = β0+ β1X + . . . + βkXk +
I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal
múltiple
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I Polinomio de segundo orden:
Y = β0+ β1X + β2X2+ (1)
Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)
I Se usan cuando la respuesta es curvilínea
I Y = f (X ) para f compleja → desarrollo en serie de Taylor
I Modelo de orden k en 1 variable
Y = β0+ β1X + . . . + βkXk +
I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal
múltiple
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I Polinomio de segundo orden:
Y = β0+ β1X + β2X2+ (1)
Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+ (2)
I Se usan cuando la respuesta es curvilínea
I Y = f (X ) para f compleja → desarrollo en serie de Taylor
I Modelo de orden k en 1 variable
Y = β0+ β1X + . . . + βkXk +
I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal
múltiple
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I Interpretación:
I β0: Promedio de Y cuando X = 0
I β1: Parámetro de efecto lineal
I β2: Parámetro de efecto cuadrático, etc...
I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.
I Extrapolación !!
I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.
I Multicolinealidad !!
I Jerarquía:
Y = β0+ β1X + β2X2+ β3X3+ SI
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Extensiones
Análisis de regresión usando funciones base...
I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] + con d = 2 y λ a determinar.
I Regresión por splines
Modelo lineal con un nodo (x0)
Y = β0+ β1aX + β1b(X − x0)++ con (X − x0)+= 1 si X > x0 0 en otro caso
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Extensiones
Análisis de regresión usando funciones base...
I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] + con d = 2 y λ a determinar.
I Regresión por splines
Modelo lineal con un nodo (x0)
Y = β0+ β1aX + β1b(X − x0)++ con (X − x0)+= 1 si X > x0 0 en otro caso
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp
Y = f (X1, X2, . . . , Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante
I Estrategias:
I mínimos cuadrados ponderados I transformación de los datos
I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp
Y = f (X1, X2, . . . , Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante
I Estrategias:
I mínimos cuadrados ponderados I transformación de los datos
I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp
Y = f (X1, X2, . . . , Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante
I Estrategias:
I mínimos cuadrados ponderados I transformación de los datos
I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp
Y = f (X1, X2, . . . , Xp)
I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante
I Estrategias:
I mínimos cuadrados ponderados I transformación de los datos
I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:
I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;
I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le
den de alta;
I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
1, el suceso tiene lugar 0, el suceso no tiene lugar
I Se considera un solo regresor o variable explicativa X
I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:
I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;
I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le
den de alta;
I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
1, el suceso tiene lugar 0, el suceso no tiene lugar
I Se considera un solo regresor o variable explicativa X
I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:
I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;
I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le
den de alta;
I que un cliente devuelva un crédito bancario o no.
I Se considera la siguiente codificación de Y :
Y =
1, el suceso tiene lugar 0, el suceso no tiene lugar
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicable
I Supongamos el siguiente modelo
Y = β0+ β1X + ,
donde representa el error, con → N(0, σ): E (Y |X = x) = β0+ β1x
I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0
y... i = 1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicable
I Supongamos el siguiente modelo
Y = β0+ β1X + ,
donde representa el error, con → N(0, σ): E (Y |X = x) = β0+ β1x
I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0
y... i = 1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi|Xi) = π(Xi) = πi
I Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.
Es lógico esperar
I πi → 1 a medida que Xi% ∞, y
I πi → 0 a medida que Xi& 0.
I Con datos binarios, E (Y |X = x ) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi|Xi) = π(Xi) = πi
I Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.
Es lógico esperar
I πi → 1 a medida que Xi% ∞, y
I πi → 0 a medida que Xi& 0.
I Con datos binarios, E (Y |X = x ) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi|Xi) = π(Xi) = πi
I Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.
Es lógico esperar
I πi → 1 a medida que Xi% ∞, y
I πi → 0 a medida que Xi& 0.
I Con datos binarios, E (Y |X = x ) ∈ [0, 1].
I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I Flexibilidad; I Interpretación práctica; I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I Flexibilidad; I Interpretación práctica; I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X =x}→ Binomial (1, π(x))
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)
I Es un método predictivo y explicativo:
I Finalidades:
1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .
2. Clasificar individuos dentro de las categorías
(presente/ausente) de la variable Y en función de la
probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X =x}→ Binomial (1, π(x))
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)
I Es un método predictivo y explicativo:
I Finalidades:
1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .
2. Clasificar individuos dentro de las categorías
(presente/ausente) de la variable Y en función de la
probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X =x}→ Binomial (1, π(x))
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)
I Es un método predictivo y explicativo:
I Finalidades:
1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .
2. Clasificar individuos dentro de las categorías
(presente/ausente) de la variable Y en función de la
probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I Y{X =x}→ Binomial (1, π(x))
π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)
I Es un método predictivo y explicativo:
I Finalidades:
1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .
2. Clasificar individuos dentro de las categorías
(presente/ausente) de la variable Y en función de la
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I Definición:
O(x) = π(x ) 1 − π(x)
I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”
I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.
I Modelo log-lineal...
g (x) = ln π(x )
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I Definición:
O(x) = π(x ) 1 − π(x)
I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”
I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.
I Modelo log-lineal...
g (x) = ln π(x )
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)
I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),
j = 1, 2;
I El logaritmo de la razón de los odds
ln " π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1) = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).
I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y
equivalentemente OR = eβ1.
I Interpretación del signo:
I OR > 1 I OR < 1
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)
I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),
j = 1, 2;
I El logaritmo de la razón de los odds
ln " π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1) = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).
I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y
equivalentemente OR = eβ1.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I Datos: {(Xi, Yi); i = 1, . . . , n}
I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi
I Función de verosimilitud: L(β0, β1) =Qni =1Li
I Log-verosimilitud:
`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}
I Diferenciando con respecto a β0 y β1
Pn
i =1[Yi − π(Xi)] = 0
Pn
i =1Xi[Yi− π(Xi)] = 0
I Si no hay una separación completa existe solución.
I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).
I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I Datos: {(Xi, Yi); i = 1, . . . , n}
I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi
I Función de verosimilitud: L(β0, β1) =Qni =1Li
I Log-verosimilitud:
`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}
I Diferenciando con respecto a β0 y β1
Pn
i =1[Yi − π(Xi)] = 0
Pn
i =1Xi[Yi− π(Xi)] = 0
I Si no hay una separación completa existe solución.
I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).
I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I Datos: {(Xi, Yi); i = 1, . . . , n}
I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi
I Función de verosimilitud: L(β0, β1) =Qni =1Li
I Log-verosimilitud:
`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}
I Diferenciando con respecto a β0 y β1
Pn
i =1[Yi − π(Xi)] = 0
Pn
i =1Xi[Yi− π(Xi)] = 0
I Si no hay una separación completa existe solución.
I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).
I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I Datos: {(Xi, Yi); i = 1, . . . , n}
I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi
I Función de verosimilitud: L(β0, β1) =Qni =1Li
I Log-verosimilitud:
`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}
I Diferenciando con respecto a β0 y β1
Pn
i =1[Yi − π(Xi)] = 0
Pn
i =1Xi[Yi− π(Xi)] = 0
I Si no hay una separación completa existe solución.
I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo: Hosmer y Lemeshow (1989), pg. 2
Se pretende estudiar la influencia de la edad (X = Edad ) en la presencia/ausencia de evidencia de enfermedad coronaria (Y = CHD). Se seleccionaron 100 sujetos para participar en el estudio. La tabla siguiente representa la información referente a los primeros individuos ID GrupoEdad Edad CHD 1 1 20 0 2 1 23 0 3 1 24 0 4 1 25 0 5 1 25 1 6 1 26 0 7 1 26 0 8 1 28 0
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Diagrama de dispersión
Y =
1, enfermedad está presente 0, otro caso
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I Modelo: lnP(CHD=1|Edad )P(CHD=0|Edad ) = β0+ β1Edad
I Coeficientes estimados (SPSS ):
Coeficiente estimado Error estándar
Edad βb1 = 0,111 0,024
Constante βb0 = −5,309 1,134
Log -verosimilitud = −53,6765
I Probabilidad estimada de presentar la enfermedad en función de la Edad:
b
π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I Modelo: lnP(CHD=1|Edad )P(CHD=0|Edad ) = β0+ β1Edad
I Coeficientes estimados (SPSS ):
Coeficiente estimado Error estándar
Edad βb1 = 0,111 0,024
Constante βb0 = −5,309 1,134
Log -verosimilitud = −53,6765
I Probabilidad estimada de presentar la enfermedad en función de la Edad:
b
π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresión
I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).
I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?
I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)
I Regresion lineal:
Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )
Modelo lineal βb0; bβ1 6= 0 P(Yi − bYi)2
Medida de diferencia V .E .
I Regresión logística: la medida se basa en el log de la función de verosimilitud
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresión
I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).
I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?
I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)
I Regresion lineal:
Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )
Modelo lineal βb0; bβ1 6= 0 P(Yi − bYi)2
Medida de diferencia V .E .
I Regresión logística: la medida se basa en el log de la función de verosimilitud
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudes
I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0
H1 : β1 6= 0
I Se basa en el estadístico (Hosmer y Lemeshow, 1989)
G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X
I En el modelo univariante comparamos con el modelo nulo
G = −2 ln " n1 n n1 n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). I Ejemplo...
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudes
I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0
H1 : β1 6= 0
I Se basa en el estadístico (Hosmer y Lemeshow, 1989)
G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X
I En el modelo univariante comparamos con el modelo nulo
G = −2 ln " n1 n n1 n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). Ejemplo...
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El coeficiente R
2en regresión logística
Alternativas al coeficiente de determinación usado en regresión lineal (Maddala-Magee)
R2= 1 − {L(0)/L( bβ0, bβ1)}2/n
I No es una verdadera medida de la bondad de ajuste: sólo compara 2 modelos
I L(0) = p1n1(1 − p1)n−n1, F. de verosimilitud del modelo nulo
(sólo β0); con p1 = n1/n =P Yi/n.
I L( bβ0, bβ1), F. de verosimilitud evaluada en el estimador.
I L ≤ 1, entonces
R2 ≤ 1 − (pp11 (1 − p1)1−p1)2 2 ≥ 0
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
El test de Hosmer-Lemeshow
Pasos:1. Calcular bπ1 =π(Xb 1), . . . ,πbn=bπ(Xn), a partir del modelo ajustado (suponemos que no hay valores repetidos de la variable X ).
2. Ordenar los n valores de menor a mayor.
3. Agrupar los valores calculados siguiendo uno de los dos criterios siguientes:
(a) Dividir la secuencia ordenada en cuartiles, deciles u otra clasificación similar.
(b) Formar el primer grupo con todos los individuos para los que b
πi es menor que 0.1; en el segundo grupo considerar los individuos cuyobπi esté entre 0.1 y 0.2, etc.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de bπi dentro de cada grupo. Estos
sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.
5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (Oi∗− Ei∗)2 Ei∗ , donde Ei∗ = ni − Ei y Oi∗= ni− Oi.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de bπi dentro de cada grupo. Estos
sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.
5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (Oi∗− Ei∗)2 Ei∗ , donde Ei∗ = ni − Ei y Oi∗ = ni− Oi.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu`(β0∂βj,β1) 0≤u,j ≤1METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu`(β0∂βj,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Prueba Score
I Contraste:
H0 : βj = 0
H1 : βj 6= 0
I Requiere menos esfuerzo computacional que los anteriores
I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .
I ST tiene distribución Normal estándar
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Prueba Score
I Contraste:
H0 : βj = 0
H1 : βj 6= 0
I Requiere menos esfuerzo computacional que los anteriores
I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .
I ST tiene distribución Normal estándar
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).
I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).
I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).
I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi− πi) = 0 ∂`(β) ∂β = n X (Yi − πi)Xij = 0;
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X0(Y − π) = 0, donde
X = 1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp ; Y = Y1 Y2 .. . Yn ; π = π1 π2 .. . πn
I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b
I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))
donde
I U(·) es la funcion score, el vector de derivadas parciales de `; I H(·) =
∂2`(·)
∂βj∂βu
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X0(Y − π) = 0, donde
X = 1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp ; Y = Y1 Y2 .. . Yn ; π = π1 π2 .. . πn
I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b
I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))
donde
I U(·) es la funcion score, el vector de derivadas parciales de `; I H(·) =
∂2`(·)
∂βj∂βu
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Forma matricial: X0(Y − π) = 0, donde
X = 1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp ; Y = Y1 Y2 .. . Yn ; π = π1 π2 .. . πn
I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b
I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))
donde
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β(k)= bβ(k−1)+ X0W(k−1)X−1 X0 Y−πb(k−1) I W(k−1) = diag πb(k−1)(1 −πb(k−1)) n×n
I πb(k−1) son probabilidades estimadas en el paso anterior
I βb(k−1) es el vector de coeficientes obtenido en el paso anterior.
I Se necesita un valor inicial para empezar el proceso iterativo.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β(k)= bβ(k−1)+ X0W(k−1)X−1 X0 Y−πb(k−1) I W(k−1) = diag πb(k−1)(1 −πb(k−1)) n×n
I πb(k−1) son probabilidades estimadas en el paso anterior
I βb(k−1) es el vector de coeficientes obtenido en el paso anterior.
I Se necesita un valor inicial para empezar el proceso iterativo.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes
I β0= logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.
I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2) = exp " p X i =1 βi(Xi1− Xi2) #
Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.
I Caso particular: X1
j = Xj2+ 1 y el resto igual,
O(X1)/O(X2) = exp(βj)
I βj= cambio en logit cuando Xj aumenta en una unidad y el
resto de variables se mantienen iguales.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes
I β0= logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.
I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2) = exp " p X i =1 βi(Xi1− Xi2) #
Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.
I Caso particular: X1
j = Xj2+ 1 y el resto igual,
O(X1)/O(X2) = exp(βj)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo
(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.
Estadístico de contraste (Wald): Wj = b βj
se( bβj) → N(0, 1)
Intervalo de confianza al nivel 100 × (1 − α) %: b
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo
(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.
Estadístico de contraste (Wald): Wj = b βj
se( bβj) → N(0, 1)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
(C) Pruebas de hipótesis de subconjuntos de parámetros
I Sea β = (β(1), β(2)), con dim(β(1)) = r < p.
I Contraste:
H0: β(1) = 0 H1: β(1) 6= 0,
I Estadístico de contraste:
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Selección de variables
(Silva y Barroso, 2004)Adelante:
1. Se inicia con un modelo vacio (solo β0)
2. Se ajusta un modelo y se calcula el p-valor de incluir cada variable por separado
3. Se selecciona el modelo con la variable más significativa
4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de añadir cada variable no seleccionada por separado
5. Se selecciona el modelo con la más significativa
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Atrás:
1. Se inicia con un modelo con TODAS las variables candidatas
2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar
3. Se selecciona para eliminar la menos significativa
4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.
Stepwise:
a) Se combinan los métodos adelante y atrás.
b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar
c) No todos los métodos llegan a la misma solución necesariamente
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Atrás:
1. Se inicia con un modelo con TODAS las variables candidatas
2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar
3. Se selecciona para eliminar la menos significativa
4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.
Stepwise:
a) Se combinan los métodos adelante y atrás.
b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Consideraciones importantes en regresión logística múltiple
I Multicolinealidad
I Consiste en: dos o más variables linealmente correlacionadas; I Efecto: Incremento exagerado en los errores estándar y en los
coeficientes estimados. Modelo poco creible I Posibles estrategias:
I Examinar la matriz de correlaciones;
I Formular modelos con las variables correlacionadas y estudiar el coeficiente R2
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Confusión e interacción
I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo
I Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). I Ejemplo:
I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);
I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0
I Modelo: logit = β0+ β1X + β2F + δX ∗ F
I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0
I Variables categóricas
I Se introducen como variables dummy I Se aceptan o se rechazan en bloque.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Confusión e interacción
I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo
I Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). I Ejemplo:
I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);
I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0
I Modelo: logit = β0+ β1X + β2F + δX ∗ F
I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0
I Variables categóricas
I Se introducen como variables dummy I Se aceptan o se rechazan en bloque.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Análisis de residuos
Residuo. Medida que expresa la diferencia entre las
respuestas observadas y predichas por el modelo. Alertan de...
1. que no se cumpla el supuesto de linealidad entre el
modelo logit de la probabilidad de Y = 1 y la(s) variable(s) independiente(s);
2. la presencia de algunas observaciones extremas que
perturbe la calidad del ajuste; o
3. que una función distinta de la logística describiese más
adecuadamente el conjunto de observaciones. Tipos:
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Datos agrupados
Consideramos perfiles de covariables que definen grupos de individuos
I mj= número total de individuos con mismo perfil de
covariables.
I Hay J combinaciones distintas: X1, . . . , XJ
I Y˜j= número de individuos con perfil j que presentan el suceso
Y = 1
I πbj =bπ(Xj) = valor de probabilidad estimado según el modelo logístico para el perfil j -ésimo.
I Las aproximaciones normales asintóticas se sustentan en la aproximación normal de la variable binomial ˜Y , por esto mj
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I Residuos: Se definen...
rj = ˜Yj − mjbπj
I Residuos estandarizados o residuos de Pearson:
rej =
˜
Yj − mjπbj pmjbπj(1 −bπj)
I Si |rej| > 2 dato a examinar!
I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.
I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2(J − (p + 1)) (J ≈ n problema!).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I Residuos: Se definen...
rj = ˜Yj − mjbπj
I Residuos estandarizados o residuos de Pearson:
rej =
˜
Yj − mjπbj pmjbπj(1 −bπj)
I Si |rej| > 2 dato a examinar!
I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.
I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2(J − (p + 1)) (J ≈ n problema!).
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I Residuos: Se definen...
rj = ˜Yj − mjbπj
I Residuos estandarizados o residuos de Pearson:
rej =
˜
Yj − mjπbj pmjbπj(1 −bπj)
I Si |rej| > 2 dato a examinar!
I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.
I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Residuos deviance
Definición: dj = sign( ˜Yj−mjbπj) v u u t2 " ˜ Yjln ˜ Yj mjbπj ! + (mj − ˜Yj) ln mj − ˜Yj mj(1 −bπj) !#I Mide la discrepancia entre la j -ésima componente del
logaritmo de la función de verosimilitud del modelo ajustado y la correspondiente componente del logaritmo de la función de verosimilitud que resultaría si cada punto fuese ajustado exactamente.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Datos no agrupados (mj = 1) I di= −{2[− ln(1 −bπi)]}1/2, si Yi = 0; y I di= {2[− ln(bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 dj2 es χ2 si J << n.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
I Datos no agrupados (mj = 1) I di= −{2[− ln(1 −bπi)]}1/2, si Yi = 0; y I di= {2[− ln(bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 dj2 es χ2 si J << n.
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Influencia o leverage
¿Qué efecto tiene eliminar todos aquellos sujetos que tienen un determinado perfil de covariables en los coeficientes estimados y las medidas de resumen global, X2 y D?
Se define... ∆ bβj = bβ − bβ(−j ) Pregibon (1981) aproxima... ∆ bβj = r2 ejhj 1 − hj
donde hj son los leverages,
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...
Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆X2 j = rej2 I Deviance: ∆Dj = d2 j 1−hj
Considerar las representaciones gráficas
I Detectar perfiles con gran influencia en el modelo: (bπj, ∆ bβj)
I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X
2
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...
Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆Xj2 = rej2 I Deviance: ∆Dj = d2 j 1−hj
Considerar las representaciones gráficas
I Detectar perfiles con gran influencia en el modelo: (bπj, ∆ bβj)
I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X
2
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de (bπj, rj) o (πbj, dj) porque:
1. Cuando J ≈ n la mayoría de los residuos positivos corresponden a perfiles en los que ˜Yj = mj, por ejemplo
mj = 1, y los residuos negativos se corresponden con aquellos
con ˜Yj = 0. Por lo que el signo no es informativo.
2. Grandes residuos se corresponden con puntos que no están bien reflejados en el modelo. Si consideramos los residuos al cuadrado se enfatiza aún más la falta de ajuste.
3. La forma de los gráficos ayuda a determinar qué perfiles se corresponden con ˜Yj = 0 y cuáles tienen ˜Yj = mj
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimar
I Se estima mediante el método de máxima-verosimilitud
I Métodos númericos implementados en software estadístico (SPSS)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimar
I Se estima mediante el método de máxima-verosimilitud
I Métodos númericos implementados en software estadístico (SPSS)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimar
I Se estima mediante el método de máxima-verosimilitud
I Métodos númericos implementados en software estadístico (SPSS)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimar
I Se estima mediante el método de máxima-verosimilitud
I Métodos númericos implementados en software estadístico (SPSS)
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I La variable respueste tiene r + 1 ≥ 2 categorías
I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp
I Tenemos un total de r ∗ (p + 1) parémetros a estimar
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES
Bibliografía I
Hosmer,D.W. y Lemeshow, S. (1989). Applied Logistic Regression, Wiley
Kleinbaum, D.G. (1994). Logistic Regression. A Self-Learning Text. Springer.
Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002). Introducción al análisis de regresión lineal, CECSA Pérez López, C. (2001). Técnicas Estadísticas con SPSS (Versión 10), Pearson Alhambra
Ryan, T. (1997). Modern Regression Methods, Wiley