• No se han encontrado resultados

Regresión Polinomial y Regresión Logística

N/A
N/A
Protected

Academic year: 2021

Share "Regresión Polinomial y Regresión Logística"

Copied!
99
0
0

Texto completo

(1)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Polinomial y Regresión Logística

M.L. Gámiz Pérez

Departamento Estadística e Inv. Operativa

Universidad de Granada

(2)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Contenido

Regresión Polinomial Introducción y ejemplos Aproximaciones alternativas Regresión Logística Introducción

Estimación de los parámetros del modelo Evaluación del modelo

Contraste de regresión

Estudio de la bondad del ajuste Tests de significación de los coeficientes Capacidad predictiva del modelo

Regresión Logística Múltiple Análisis de residuos

(3)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Introducción

I Polinomio de segundo orden:

Y = β0+ β1X + β2X2+  (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+  (2)

I Se usan cuando la respuesta es curvilínea

I Y = f (X ) para f compleja → desarrollo en serie de Taylor

I Modelo de orden k en 1 variable

Y = β0+ β1X + . . . + βkXk + 

I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal

múltiple

(4)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Introducción

I Polinomio de segundo orden:

Y = β0+ β1X + β2X2+  (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+  (2)

I Se usan cuando la respuesta es curvilínea

I Y = f (X ) para f compleja → desarrollo en serie de Taylor

I Modelo de orden k en 1 variable

Y = β0+ β1X + . . . + βkXk + 

I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal

múltiple

(5)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Introducción

I Polinomio de segundo orden:

Y = β0+ β1X + β2X2+  (1)

Y = β0+ β1X1+ β2X2+ β11X12+ β22X22+ β12X1X2+  (2)

I Se usan cuando la respuesta es curvilínea

I Y = f (X ) para f compleja → desarrollo en serie de Taylor

I Modelo de orden k en 1 variable

Y = β0+ β1X + . . . + βkXk + 

I Si Xj = Xj, para j = 1, . . . , k: Modelo de regresión lineal

múltiple

(6)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(7)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(8)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(9)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(10)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(11)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Principios básicos

I Interpretación:

I β0: Promedio de Y cuando X = 0

I β1: Parámetro de efecto lineal

I β2: Parámetro de efecto cuadrático, etc...

I Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2.

I Extrapolación !!

I Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0X se vuelve mal acondicionada.

I Multicolinealidad !!

I Jerarquía:

Y = β0+ β1X + β2X2+ β3X3+  SI

(12)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Extensiones

Análisis de regresión usando funciones base...

I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] +  con d = 2 y λ a determinar.

I Regresión por splines

Modelo lineal con un nodo (x0)

Y = β0+ β1aX + β1b(X − x0)++  con (X − x0)+=  1 si X > x0 0 en otro caso

(13)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Extensiones

Análisis de regresión usando funciones base...

I Regresion trigonométrica Y = d X j =0 βjXj + λ X k=1 [γkcos(kX ) + δksin(kX )] +  con d = 2 y λ a determinar.

I Regresión por splines

Modelo lineal con un nodo (x0)

Y = β0+ β1aX + β1b(X − x0)++  con (X − x0)+=  1 si X > x0 0 en otro caso

(14)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria

I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp

Y = f (X1, X2, . . . , Xp)

I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante

I Estrategias:

I mínimos cuadrados ponderados I transformación de los datos

I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.

(15)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria

I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp

Y = f (X1, X2, . . . , Xp)

I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante

I Estrategias:

I mínimos cuadrados ponderados I transformación de los datos

I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.

(16)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria

I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp

Y = f (X1, X2, . . . , Xp)

I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante

I Estrategias:

I mínimos cuadrados ponderados I transformación de los datos

I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.

(17)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria

I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1, X2, . . . , Xp

Y = f (X1, X2, . . . , Xp)

I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante

I Estrategias:

I mínimos cuadrados ponderados I transformación de los datos

I Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc.

(18)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria simple

I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:

I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;

I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le

den de alta;

I que un cliente devuelva un crédito bancario o no.

I Se considera la siguiente codificación de Y :

Y = 

1, el suceso tiene lugar 0, el suceso no tiene lugar

I Se considera un solo regresor o variable explicativa X

I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.

(19)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria simple

I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:

I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;

I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le

den de alta;

I que un cliente devuelva un crédito bancario o no.

I Se considera la siguiente codificación de Y :

Y = 

1, el suceso tiene lugar 0, el suceso no tiene lugar

I Se considera un solo regresor o variable explicativa X

I Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x.

(20)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo de regresión con respuesta binaria simple

I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo:

I que un estudiante apruebe o no un examen; I que un transplante de corazón sea aceptado o no;

I que una empresa llegue a estar en problemas financieros o no; I que un paciente de un hospital sobreviva o no antes de que le

den de alta;

I que un cliente devuelva un crédito bancario o no.

I Se considera la siguiente codificación de Y :

Y = 

1, el suceso tiene lugar 0, el suceso no tiene lugar

(21)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo lineal no es aplicable

I Supongamos el siguiente modelo

Y = β0+ β1X + ,

donde  representa el error, con  → N(0, σ): E (Y |X = x) = β0+ β1x

I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0

y... i =  1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...

(22)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El modelo lineal no es aplicable

I Supongamos el siguiente modelo

Y = β0+ β1X + ,

donde  representa el error, con  → N(0, σ): E (Y |X = x) = β0+ β1x

I Si Y es binaria, entonces para un individuo i : Yi = 1 ó Yi = 0

y... i =  1 − β0− β1Xi, si Yi = 1 −β0− β1Xi, si Yi = 0 , I Además...

(23)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Ejemplo

Notación: E (Yi|Xi) = π(Xi) = πi

I Queremos evaluar la probabilidad de desarrollar una

enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.

Es lógico esperar

I πi → 1 a medida que Xi% ∞, y

I πi → 0 a medida que Xi& 0.

I Con datos binarios, E (Y |X = x ) ∈ [0, 1].

I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.

(24)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Ejemplo

Notación: E (Yi|Xi) = π(Xi) = πi

I Queremos evaluar la probabilidad de desarrollar una

enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.

Es lógico esperar

I πi → 1 a medida que Xi% ∞, y

I πi → 0 a medida que Xi& 0.

I Con datos binarios, E (Y |X = x ) ∈ [0, 1].

I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.

(25)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Ejemplo

Notación: E (Yi|Xi) = π(Xi) = πi

I Queremos evaluar la probabilidad de desarrollar una

enfermedad cardiaca en un determinado intervalo de tiempo πi, para un sujeto con un determinado nivel de colesterol Xi.

Es lógico esperar

I πi → 1 a medida que Xi% ∞, y

I πi → 0 a medida que Xi& 0.

I Con datos binarios, E (Y |X = x ) ∈ [0, 1].

I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1.

(26)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

(27)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Función de distribución logística

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I Flexibilidad; I Interpretación práctica; I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x

(28)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Función de distribución logística

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x) I Propiedades: I Flexibilidad; I Interpretación práctica; I Transformación logit: g (x) = ln π(x ) 1−π(x ) = β0+ β1x

(29)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística binario

I Y{X =x}→ Binomial (1, π(x))

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Es un método predictivo y explicativo:

I Finalidades:

1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .

2. Clasificar individuos dentro de las categorías

(presente/ausente) de la variable Y en función de la

probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).

(30)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística binario

I Y{X =x}→ Binomial (1, π(x))

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Es un método predictivo y explicativo:

I Finalidades:

1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .

2. Clasificar individuos dentro de las categorías

(presente/ausente) de la variable Y en función de la

probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).

(31)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística binario

I Y{X =x}→ Binomial (1, π(x))

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Es un método predictivo y explicativo:

I Finalidades:

1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .

2. Clasificar individuos dentro de las categorías

(presente/ausente) de la variable Y en función de la

probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ).

(32)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística binario

I Y{X =x}→ Binomial (1, π(x))

π(x ) = exp(β0+ β1x) 1 + exp(β0+ β1x)

I Es un método predictivo y explicativo:

I Finalidades:

1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y .

2. Clasificar individuos dentro de las categorías

(presente/ausente) de la variable Y en función de la

(33)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes: odds (ventaja)

I Definición:

O(x) = π(x ) 1 − π(x)

I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”

I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.

I Modelo log-lineal...

g (x) = ln π(x )

(34)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes: odds (ventaja)

I Definición:

O(x) = π(x ) 1 − π(x)

I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra”

I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.

I Modelo log-lineal...

g (x) = ln π(x )

(35)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes: odds ratio (OR)

I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),

j = 1, 2;

I El logaritmo de la razón de los odds

ln " π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1)  = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).

I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y

equivalentemente OR = eβ1.

I Interpretación del signo:

I OR > 1 I OR < 1

(36)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes: odds ratio (OR)

I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj),

j = 1, 2;

I El logaritmo de la razón de los odds

ln " π1 1−π1 π2 1−π2 # = ln π1(1 − π2) π2(1 − π1)  = β1(X1− X2). I Es decir... ln(OR) = β1(X1− X2).

I Caso particular: X1 = X2+ 1 se tiene que ln(OR) = β1 y

equivalentemente OR = eβ1.

(37)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi

I Función de verosimilitud: L(β0, β1) =Qni =1Li

I Log-verosimilitud:

`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}

I Diferenciando con respecto a β0 y β1

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

I Si no hay una separación completa existe solución.

I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).

I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)

(38)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi

I Función de verosimilitud: L(β0, β1) =Qni =1Li

I Log-verosimilitud:

`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}

I Diferenciando con respecto a β0 y β1

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

I Si no hay una separación completa existe solución.

I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).

I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)

(39)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi

I Función de verosimilitud: L(β0, β1) =Qni =1Li

I Log-verosimilitud:

`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}

I Diferenciando con respecto a β0 y β1

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

I Si no hay una separación completa existe solución.

I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).

I Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas)

(40)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El método de máxima-verosimilitud

I Datos: {(Xi, Yi); i = 1, . . . , n}

I Contribución del dato (Xi, Yi): Li = π(Xi)Yi[1 − π(Xi)]1−Yi

I Función de verosimilitud: L(β0, β1) =Qni =1Li

I Log-verosimilitud:

`(β0, β1) =Pni =1{Yiln(π(Xi)) + (1 − Yi) ln(1 − π(Xi))}

I Diferenciando con respecto a β0 y β1

Pn

i =1[Yi − π(Xi)] = 0

Pn

i =1Xi[Yi− π(Xi)] = 0

I Si no hay una separación completa existe solución.

I Métodos numéricos: Newton-Raphson (veremos en el caso múltiple).

(41)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Ejemplo: Hosmer y Lemeshow (1989), pg. 2

Se pretende estudiar la influencia de la edad (X = Edad ) en la presencia/ausencia de evidencia de enfermedad coronaria (Y = CHD). Se seleccionaron 100 sujetos para participar en el estudio. La tabla siguiente representa la información referente a los primeros individuos ID GrupoEdad Edad CHD 1 1 20 0 2 1 23 0 3 1 24 0 4 1 25 0 5 1 25 1 6 1 26 0 7 1 26 0 8 1 28 0

(42)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Diagrama de dispersión

Y =



1, enfermedad está presente 0, otro caso

(43)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

(44)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Resultado del ajuste

I Modelo: lnP(CHD=1|Edad )P(CHD=0|Edad ) = β0+ β1Edad

I Coeficientes estimados (SPSS ):

Coeficiente estimado Error estándar

Edad βb1 = 0,111 0,024

Constante βb0 = −5,309 1,134

Log -verosimilitud = −53,6765

I Probabilidad estimada de presentar la enfermedad en función de la Edad:

b

π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )

(45)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Resultado del ajuste

I Modelo: lnP(CHD=1|Edad )P(CHD=0|Edad ) = β0+ β1Edad

I Coeficientes estimados (SPSS ):

Coeficiente estimado Error estándar

Edad βb1 = 0,111 0,024

Constante βb0 = −5,309 1,134

Log -verosimilitud = −53,6765

I Probabilidad estimada de presentar la enfermedad en función de la Edad:

b

π(Edad ) = exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad )

(46)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Contraste de regresión

I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).

I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?

I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)

I Regresion lineal:

Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )

Modelo lineal βb0; bβ1 6= 0 P(Yi − bYi)2

Medida de diferencia V .E .

I Regresión logística: la medida se basa en el log de la función de verosimilitud

(47)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Contraste de regresión

I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s).

I No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados?

I Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos)

I Regresion lineal:

Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y )

Modelo lineal βb0; bβ1 6= 0 P(Yi − bYi)2

Medida de diferencia V .E .

I Regresión logística: la medida se basa en el log de la función de verosimilitud

(48)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El test de razón de verosimilitudes

I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0

H1 : β1 6= 0

I Se basa en el estadístico (Hosmer y Lemeshow, 1989)

G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X



I En el modelo univariante comparamos con el modelo nulo

G = −2 ln " n1 n n1 n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). I Ejemplo...

(49)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El test de razón de verosimilitudes

I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β1 = 0

H1 : β1 6= 0

I Se basa en el estadístico (Hosmer y Lemeshow, 1989)

G = −2 ln función de verosimilitud del modelo sin X función de verosimilitud del modelo con X



I En el modelo univariante comparamos con el modelo nulo

G = −2 ln " n1 n n1 n0 n n0 Qn i =1bπ Yi i (1 −bπi) (1−Yi) # I Bajo H0, G → χ2(1). Ejemplo...

(50)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El coeficiente R

2

en regresión logística

Alternativas al coeficiente de determinación usado en regresión lineal (Maddala-Magee)

R2= 1 − {L(0)/L( bβ0, bβ1)}2/n

I No es una verdadera medida de la bondad de ajuste: sólo compara 2 modelos

I L(0) = p1n1(1 − p1)n−n1, F. de verosimilitud del modelo nulo

(sólo β0); con p1 = n1/n =P Yi/n.

I L( bβ0, bβ1), F. de verosimilitud evaluada en el estimador.

I L ≤ 1, entonces

R2 ≤ 1 − (pp11 (1 − p1)1−p1)2 2 ≥ 0

(51)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

El test de Hosmer-Lemeshow

Pasos:

1. Calcular bπ1 =π(Xb 1), . . . ,πbn=bπ(Xn), a partir del modelo ajustado (suponemos que no hay valores repetidos de la variable X ).

2. Ordenar los n valores de menor a mayor.

3. Agrupar los valores calculados siguiendo uno de los dos criterios siguientes:

(a) Dividir la secuencia ordenada en cuartiles, deciles u otra clasificación similar.

(b) Formar el primer grupo con todos los individuos para los que b

πi es menor que 0.1; en el segundo grupo considerar los individuos cuyobπi esté entre 0.1 y 0.2, etc.

(52)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

4. Sumar los valores de bπi dentro de cada grupo. Estos

sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.

5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (Oi∗− Ei∗)2 Ei∗ , donde Ei∗ = ni − Ei y Oi∗= ni− Oi.

(53)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

4. Sumar los valores de bπi dentro de cada grupo. Estos

sumatorios serán los valores esperados, que denotamos E1, E2, . . . , E10.

5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1, O2, . . . , O10. Estadístico de Hosmer-Lemeshow χ2 = 10 X i =1 (Oi− Ei)2 Ei + 10 X i =1 (Oi∗− Ei∗)2 Ei∗ , donde Ei∗ = ni − Ei y Oi∗ = ni− Oi.

(54)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(55)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu∂βj`(β0,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(56)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu`(β0∂βj,β1) 0≤u,j ≤1

(57)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Tests individuales

Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj se b βj , con se b βj = q Var ( bβj). I Sea H =∂2∂βu`(β0∂βj,β1) 0≤u,j ≤1 I La matriz de covarianzas Σ( bβ0, bβ1) = −(H( bβ0, bβ1))−1

(58)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Prueba Score

I Contraste:

H0 : βj = 0

H1 : βj 6= 0

I Requiere menos esfuerzo computacional que los anteriores

I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .

I ST tiene distribución Normal estándar

(59)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Prueba Score

I Contraste:

H0 : βj = 0

H1 : βj 6= 0

I Requiere menos esfuerzo computacional que los anteriores

I Estimador ST = Pn i =1Xi(Yi− Y ) q Y (1 − Y )Pn i =1(Xi − X )2 .

I ST tiene distribución Normal estándar

(60)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)

(61)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN) I Especifidad = VN/(VN + FP)

(62)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Estudio de la capacidad predictiva del modelo

Objetivo:Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. Clasificacion = ( b πi > 0,5 ⇒ bYi = 1 b πi ≤ 0,5 ⇒ bYi = 0 Y Yb 1 0 1 VP FN 0 FP VN I CP = (VP + VN)/n I Sensibilidad = VP/(VP + FN)

(63)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística múltiple

P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;

(64)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística múltiple

P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi − πi) = 0 ∂`(β) ∂βj = n X i =1 (Yi − πi)Xij = 0;

(65)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Modelo de regresión logística múltiple

P(Y = 1) = exp(β0+ β1X1+ · · · + βpXp) 1 + exp(β0+ β1X1+ · · · + βpXp) I F. de verosimilitud: L(β) = n X i =1 {Yiln πi + (1 − Yi) ln(1 − πi)} , con πi = π(Xi 1, Xi 2, . . . , Xip).

I Ecuaciones de verosimilitud, para j = 1, . . . , p ∂`(β) ∂β0 = n X i =1 (Yi− πi) = 0 ∂`(β) ∂β = n X (Yi − πi)Xij = 0;

(66)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Forma matricial: X0(Y − π) = 0, donde

X =       1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp       ; Y =      Y1 Y2 .. . Yn      ; π =      π1 π2 .. . πn     

I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b

I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))

donde

I U(·) es la funcion score, el vector de derivadas parciales de `; I H(·) =

2`(·)

∂βj∂βu 

(67)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Forma matricial: X0(Y − π) = 0, donde

X =       1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp       ; Y =      Y1 Y2 .. . Yn      ; π =      π1 π2 .. . πn     

I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b

I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))

donde

I U(·) es la funcion score, el vector de derivadas parciales de `; I H(·) =

2`(·)

∂βj∂βu 

(68)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Forma matricial: X0(Y − π) = 0, donde

X =       1 X11 · · · X1p 1 X21 · · · X2p .. . ... · · · ... 1 Xn1· · · ... Xnp       ; Y =      Y1 Y2 .. . Yn      ; π =      π1 π2 .. . πn     

I Buscamos solución del siguiente sistema de ecuaciones: U( bβ) = X0(Y −π) = 0b

I Desarrollo de Taylor → bβ = β(0)− H−1(β(0))U(β(0))

donde

(69)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Método de Newton-Raphson

El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β(k)= bβ(k−1)+ X0W(k−1)X−1 X0 Y−πb(k−1) I W(k−1) = diag πb(k−1)(1 −πb(k−1))  n×n

I πb(k−1) son probabilidades estimadas en el paso anterior

I βb(k−1) es el vector de coeficientes obtenido en el paso anterior.

I Se necesita un valor inicial para empezar el proceso iterativo.

(70)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Método de Newton-Raphson

El estimador se obtiene de modo iterativo, en el paso k del algoritmo b β(k)= bβ(k−1)+ X0W(k−1)X−1 X0 Y−πb(k−1) I W(k−1) = diag πb(k−1)(1 −πb(k−1))  n×n

I πb(k−1) son probabilidades estimadas en el paso anterior

I βb(k−1) es el vector de coeficientes obtenido en el paso anterior.

I Se necesita un valor inicial para empezar el proceso iterativo.

(71)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes

I β0= logit de presentar el suceso de interés cuando todas las

covariables toman valor 0.

I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2) = exp " p X i =1 βi(Xi1− Xi2) #

Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.

I Caso particular: X1

j = Xj2+ 1 y el resto igual,

O(X1)/O(X2) = exp(βj)

I βj= cambio en logit cuando Xj aumenta en una unidad y el

resto de variables se mantienen iguales.

(72)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Interpretación de los coeficientes

I β0= logit de presentar el suceso de interés cuando todas las

covariables toman valor 0.

I Sean X1 y X2 dos perfiles distintos: O(X1) O(X2) = exp " p X i =1 βi(Xi1− Xi2) #

Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2.

I Caso particular: X1

j = Xj2+ 1 y el resto igual,

O(X1)/O(X2) = exp(βj)

(73)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Contrastes de significación del modelo

(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.

Estadístico de contraste (Wald): Wj = b βj

se( bβj) → N(0, 1)

Intervalo de confianza al nivel 100 × (1 − α) %: b

(74)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Contrastes de significación del modelo

(A) Desviación del modelo: “Contraste de regresión” H0: β1= β2 = · · · = βp= 0 H1: ∃βj 6= 0, Estadístico de contraste: G → χ2(p). (B) Contrastes individuales: H0: βj = 0 H1: βj 6= 0, j = 1, . . . , p.

Estadístico de contraste (Wald): Wj = b βj

se( bβj) → N(0, 1)

(75)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

(C) Pruebas de hipótesis de subconjuntos de parámetros

I Sea β = (β(1), β(2)), con dim(β(1)) = r < p.

I Contraste:

H0: β(1) = 0 H1: β(1) 6= 0,

I Estadístico de contraste:

(76)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Selección de variables

(Silva y Barroso, 2004)

Adelante:

1. Se inicia con un modelo vacio (solo β0)

2. Se ajusta un modelo y se calcula el p-valor de incluir cada variable por separado

3. Se selecciona el modelo con la variable más significativa

4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de añadir cada variable no seleccionada por separado

5. Se selecciona el modelo con la más significativa

(77)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Atrás:

1. Se inicia con un modelo con TODAS las variables candidatas

2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar

3. Se selecciona para eliminar la menos significativa

4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.

Stepwise:

a) Se combinan los métodos adelante y atrás.

b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar

c) No todos los métodos llegan a la misma solución necesariamente

(78)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Atrás:

1. Se inicia con un modelo con TODAS las variables candidatas

2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar

3. Se selecciona para eliminar la menos significativa

4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.

Stepwise:

a) Se combinan los métodos adelante y atrás.

b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar

(79)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Consideraciones importantes en regresión logística múltiple

I Multicolinealidad

I Consiste en: dos o más variables linealmente correlacionadas; I Efecto: Incremento exagerado en los errores estándar y en los

coeficientes estimados. Modelo poco creible I Posibles estrategias:

I Examinar la matriz de correlaciones;

I Formular modelos con las variables correlacionadas y estudiar el coeficiente R2

(80)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Confusión e interacción

I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo

I Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). I Ejemplo:

I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);

I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0

I Modelo: logit = β0+ β1X + β2F + δX ∗ F

I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0

I Variables categóricas

I Se introducen como variables dummy I Se aceptan o se rechazan en bloque.

(81)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Confusión e interacción

I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo

I Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). I Ejemplo:

I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m);

I logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F = 0

I Modelo: logit = β0+ β1X + β2F + δX ∗ F

I Importante: Determinar la evidencia o no de interacción en el modelo. H0: δ = 0

I Variables categóricas

I Se introducen como variables dummy I Se aceptan o se rechazan en bloque.

(82)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Análisis de residuos

Residuo. Medida que expresa la diferencia entre las

respuestas observadas y predichas por el modelo. Alertan de...

1. que no se cumpla el supuesto de linealidad entre el

modelo logit de la probabilidad de Y = 1 y la(s) variable(s) independiente(s);

2. la presencia de algunas observaciones extremas que

perturbe la calidad del ajuste; o

3. que una función distinta de la logística describiese más

adecuadamente el conjunto de observaciones. Tipos:

(83)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Datos agrupados

Consideramos perfiles de covariables que definen grupos de individuos

I mj= número total de individuos con mismo perfil de

covariables.

I Hay J combinaciones distintas: X1, . . . , XJ

I Y˜j= número de individuos con perfil j que presentan el suceso

Y = 1

I πbj =bπ(Xj) = valor de probabilidad estimado según el modelo logístico para el perfil j -ésimo.

I Las aproximaciones normales asintóticas se sustentan en la aproximación normal de la variable binomial ˜Y , por esto mj

(84)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Residuos de Pearson

I Residuos: Se definen...

rj = ˜Yj − mjbπj

I Residuos estandarizados o residuos de Pearson:

rej =

˜

Yj − mjπbj pmjbπj(1 −bπj)

I Si |rej| > 2 dato a examinar!

I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.

I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2(J − (p + 1)) (J ≈ n problema!).

(85)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Residuos de Pearson

I Residuos: Se definen...

rj = ˜Yj − mjbπj

I Residuos estandarizados o residuos de Pearson:

rej =

˜

Yj − mjπbj pmjbπj(1 −bπj)

I Si |rej| > 2 dato a examinar!

I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.

I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. I Estadístico resumen: X2=PJ j =1r 2 ej → χ 2(J − (p + 1)) (J ≈ n problema!).

(86)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Residuos de Pearson

I Residuos: Se definen...

rj = ˜Yj − mjbπj

I Residuos estandarizados o residuos de Pearson:

rej =

˜

Yj − mjπbj pmjbπj(1 −bπj)

I Si |rej| > 2 dato a examinar!

I Si J no es grande (mj suficientemente grande para cada j ), rej son NORMALES.

I Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad.

(87)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Residuos deviance

Definición: dj = sign( ˜Yj−mjbπj) v u u t2 " ˜ Yjln ˜ Yj mjbπj ! + (mj − ˜Yj) ln mj − ˜Yj mj(1 −bπj) !#

I Mide la discrepancia entre la j -ésima componente del

logaritmo de la función de verosimilitud del modelo ajustado y la correspondiente componente del logaritmo de la función de verosimilitud que resultaría si cada punto fuese ajustado exactamente.

(88)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Datos no agrupados (mj = 1) I di= −{2[− ln(1 −bπi)]}1/2, si Yi = 0; y I di= {2[− ln(bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 dj2 es χ2 si J << n.

(89)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

I Datos no agrupados (mj = 1) I di= −{2[− ln(1 −bπi)]}1/2, si Yi = 0; y I di= {2[− ln(bπi)]}1/2 si Yi = 1. I Estadístico resumen: D = J X j =1 dj2 es χ2 si J << n.

(90)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Influencia o leverage

¿Qué efecto tiene eliminar todos aquellos sujetos que tienen un determinado perfil de covariables en los coeficientes estimados y las medidas de resumen global, X2 y D?

Se define... ∆ bβj = bβ − bβ(−j ) Pregibon (1981) aproxima... ∆ bβj = r2 ejhj 1 − hj

donde hj son los leverages,

(91)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Otros diagnósticos

Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...

Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆X2 j = rej2 I Deviance: ∆Dj = d2 j 1−hj

Considerar las representaciones gráficas

I Detectar perfiles con gran influencia en el modelo: (bπj, ∆ bβj)

I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X

2

(92)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Otros diagnósticos

Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre...

Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆Xj2 = rej2 I Deviance: ∆Dj = d2 j 1−hj

Considerar las representaciones gráficas

I Detectar perfiles con gran influencia en el modelo: (bπj, ∆ bβj)

I Detectar perfiles que no son bien ajustados por el modelo: (bπj, ∆X

2

(93)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Otros diagnósticos

Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de (bπj, rj) o (πbj, dj) porque:

1. Cuando J ≈ n la mayoría de los residuos positivos corresponden a perfiles en los que ˜Yj = mj, por ejemplo

mj = 1, y los residuos negativos se corresponden con aquellos

con ˜Yj = 0. Por lo que el signo no es informativo.

2. Grandes residuos se corresponden con puntos que no están bien reflejados en el modelo. Si consideramos los residuos al cuadrado se enfatiza aún más la falta de ajuste.

3. La forma de los gráficos ayuda a determinar qué perfiles se corresponden con ˜Yj = 0 y cuáles tienen ˜Yj = mj

(94)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

I Se estima mediante el método de máxima-verosimilitud

I Métodos númericos implementados en software estadístico (SPSS)

(95)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

I Se estima mediante el método de máxima-verosimilitud

I Métodos númericos implementados en software estadístico (SPSS)

(96)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

I Se estima mediante el método de máxima-verosimilitud

I Métodos númericos implementados en software estadístico (SPSS)

(97)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

I Se estima mediante el método de máxima-verosimilitud

I Métodos númericos implementados en software estadístico (SPSS)

(98)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Regresión Logística Multinomial

I La variable respueste tiene r + 1 ≥ 2 categorías

I Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) Prob(Y = 0); k = 1, . . . , r I Modelo lnProb(Y = k) Prob(Y = 0) = β0k+ β1kX 1 + · · · + βpkXp

I Tenemos un total de r ∗ (p + 1) parémetros a estimar

(99)

METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES

Bibliografía I

Hosmer,D.W. y Lemeshow, S. (1989). Applied Logistic Regression, Wiley

Kleinbaum, D.G. (1994). Logistic Regression. A Self-Learning Text. Springer.

Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002). Introducción al análisis de regresión lineal, CECSA Pérez López, C. (2001). Técnicas Estadísticas con SPSS (Versión 10), Pearson Alhambra

Ryan, T. (1997). Modern Regression Methods, Wiley

Referencias

Documento similar

Se implementan modelos de regresión logística multivariados para detectar que variables se asocian de forma independiente a la respuesta afirmativa de ¿Estarías

Entre los modelos de elección binaria, que sirven para explicar una variable dependiente binaria (0/1), se encuentra la Regresión Logística, que se utiliza

La presencia de una fuerte estructura de dependencia espacial en esa variable está demostrada, tanto a nivel provincial como a nivel municipal en el caso de la Región de Murcia en

El resultado fue la obtención de tres escenarios que mostraban la configuración espacial de distintas posibilidades de evolución del crecimiento urbano y de la red de

Nuestro análisis de regresión logística mostró que existe 2 veces más de Riesgo de presentar retraso diagnóstico y 4 veces más de Riesgo de presentar enfermedad

Además, se utilizaron modelos de regresión logística para calcular odds ratios (OR) de la asociación entre consumo de chocolate (variable indepen- diente) y deterioro cognitivo

Utilizando análisis de regresión logística se comprobó que, en el caso del alcohol, la urgencia positiva y la falta de premeditación distinguían entre participantes con

– Regresión Lineal, Análisis Discriminante, Regresión logística, Análisis de Varianza, Análisis Conjunto, Análisis de Supervivencia, Análisis de.. Estructuras de