MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

Texto completo

(1)

MODELS DE CAPTACIÓ,

ANÀLISI I INTERPRETACIÓ DE

DADES

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA

APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 4 – PART 1: MODELS DE RESPOSTA BINÀRIA

(2)

TEMA 4-1: TABLA DE CONTENIDOS

4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL __________________________________________________________ 3

4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES ___________________________________________________________________ 10

4-1-2.1 FUNCIONES DE LINK ___________________________________________________________________________________________________ 11

4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS ___________________________________________________________________ 19

4-1-3.1 MEDIDAS DE BONDAD DEL MODELO ______________________________________________________________________________________ 23

4-1-3.2 DIAGNÓSTICO DEL MODELO ____________________________________________________________________________________________ 34

4-1-4. TEMA 4-1: EJEMPLOS _________________________________________________________________________________________________ 38

4-1-4.1 EJEMPLO 1(DOBSON) _________________________________________________________________________________________________ 38

4-1-4.2 EJEMPLO 2(FOX) _____________________________________________________________________________________________________ 52

(3)

Clasificación de los métodos estadísticos de análisis:

Variables Explicativas

Variable de respuesta

Binaria Politómica

Cuantitativa

Discreta

Normal Tiempo

Cuantitativa Continua

entre

eventos

Binaria

Tablas de contingencia Regresión logística Modelos log-lineales Tablas de contingencia * Modelos log-lineales Modelos log-lineales Tests en medias de 2 grupos: t.test Análisis de la Supervivencia

Politómicas

Tablas de contingencia Regresión logística Modelos log-lineales Tablas de contingencia Modelos log-lineales Modelos log-lineales ONEWAY, ANOVA Análisis de la Supervivencia

Continuas

Regresión logística * Modelos

log-lineales Regresión Múltiple Análisis de la Supervivencia

Factores y

covariables

Regresión logística * log-lineales Modelos

ANCOVA Análisis de la Supervivencia

Efectos

Aleatorios

Modelos mixtos Modelos mixtos Modelos mixtos

(4)

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Estas variables de respuesta suelen aparecer cuando se investiga si un individuo ostenta una característica (

Y=1

) o no (

Y=0

).

Por ejemplo, en la selección de modos de transporte, dentro de un colectivo de ciudadanos de un ámbito de estudio, se puede investigar si emplean en sus desplazamientos de movilidad obligada a primera hora de la mañana un modo de transporte privado (moto, coche, etc.) o público (metro, autobús, etc.), de manera que

arbitrariamente se

puede suponer que el empleo por parte de un individuo de transporte público facilita el valor de la variable de respuesta

Y=1 (éxito, genéricamente)

, y el transporte privado

Y=0 (fracaso, genéricamente)

.

Más adelante, se verá la extensión a más de 2 categorías en la variable de respuesta.

Las probabilidades genéricas de éxito y fracaso se van a notar por la letra griega

, de manera que,

Y

k

k

P

 1

: Probabilidad de respuesta satisfactoria en el individuo k-ésimo.

Y

k

k

P

0

1

: Probabilidad de respuesta NO satisfactoria en el individuo k-ésimo.

Cada individuo de un determinado colectivo, tiene asociado un conjunto de variables explicativas, factores y covariables:

x

1

x

p

T k

(5)

Las variables explicativas

x

k

x

1

x

p

pueden ser:  Variables cuantitativas.

 Transformaciones de variables cuantitativas.

 Regresores polinómicos formados a partir de variables cuantitativas.  Variables mudas (

dummies

) que representan variables cualitativas.

 Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.

Por ejemplo, en el problema del reparto modal público-privado, cada individuo tiene asociadas variables explicativas como: la zona de transporte donde reside, la disponibilidad de vehículo, el nivel de ingresos, el valor del tiempo, su nivel de estudios, etc.

El objetivo que se persigue en el presente tema consiste en investigar la relación entre la probabilidad

de la respuesta y las variables explicativas:

 

x

.

En diseño de experimentos suelen definirse grupos de individuos, cada uno sometido a la misma

combinación de condiciones experimentales, en general, en este tipo de problemas se suelen considerar factores como variables explicativas, de manera que la combinación experimental

k

-ésima viene representada por idénticos valores del vector de variables explicativas

x

1

x

p

T k

x

aplicadas

(6)

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

En total, el número de individuos en el estudio es la suma de los individuos en cada una de las

combinaciones de condiciones experimentales, si se definen

n

combinaciones de condiciones o grupos de individuos, entonces el número total de individuos es

N

m

1

m

n .

Cada combinación define una

covariate class

o clase de las covariables y todos los individuos pertenecientes a ella comparten los mismos valores de las covariables.

La anterior diferenciación entre individuos y clases de la covariable (grupos de individuos) es crucial a la hora de especificar los datos a un paquete estadístico, en general, ambas representaciones, por individuos o por clases de covariable, suelen ser posibles:

1. Algunos métodos de análisis son apropiados para datos agrupados en clases de covariables, pero no para datos individualizados, por ejemplo las aproximaciones normales.

(7)

Datos por individuo

Datos por clase de covariable

Individuo Variables

explicativas

Respuesta Clase

Covariable

de

Tamaño de la

clase

satisfactorias

Respuestas

1 (1,1) 0 (1,1) 2 1 2 (1,2) 1 (1,2) 3 2 3 (1,2) 0 (2,1) 1 0 4 (2,1) 0 (2,2) 1 1 5 (2,2) 1 6 (1,2) 1 7 (1,1) 1

La tabla anterior ilustra un experimento no balanceado con 2 factores A y C, cada uno de ellos con dos categorías, por tanto

n=4=2x2 y un total de individuos N=7

. Por ejemplo, el factor A puede ser una categorización de la edad de un individuo: categoría 1 si es menor de 21 años, categoría 2 el resto. El factor C puede ser la disponibilidad de coche en el hogar: categoría 1 disponible y categoría 2 no disponible.

La simple observación de los datos parece indicar que a más edad y ante disponibilidad de coche en el

(8)

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

… Representación individual o por clases de covariables …

La representación de los datos en clases de la covariable es más eficiente en cuestión de espacio y

facilita la detección de los efectos significativos por inspección visual.

La representación en clases de la covariable implica la pérdida de la información sobre el orden serial

de los individuos, es más agregada y no permite reconstruir la información por individuos original, aspecto que en la mayoría de los estudios no resulta relevante.

La representación en clases de la covariable implica que la respuesta tiene la forma n

n

m

y

m

y

1 1

,

,

, donde

0

y

k

m

k es el número de resultados satisfactorios (éxitos) en

la clase de la covariable k-ésima entre los

m

k individuos que la constituyen.

El vector de tamaño de las clases de las covariables se denomina

vector índice binomial

o

vector

denominador binomial

y se nota por

m

m

1

m

n

.

(9)

los factores que la definen, continuando con el ejemplo anterior, son la respuesta Y (en columnas), el factor A (subtabla) y el factor C (filas):

Y=0 Y=1

Y=0 Y=1

x1=1 x2=1 1 1 x1=2 x2=1 1 0

x2=2 1 2 x2=2 0 1

 O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas):

FACTOR

C

C1 =1 CK=2 =2

FACTOR A

FACTOR B – Respuesta

Y

FACTOR B – Respuesta Y

TOTAL

B1 Y=0 BJ=2 Y=1 SUBTOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL

A1 = 1 1 1 2 1 2 3 5

AI=2 =2 1 0 1 0 1 1 2

SUBTOTAL 2 1 1 3

(10)

4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES

El contexto y justificación de los

procesos binomiales se ha estudiado detalladamente en cursos de Estadística de primer ciclo de las titulaciones:

Si

Y

B

m

,

entonces la variable aleatoria modeliza el número de respuestas satisfactorias (

éxitos)

en

m

repeticiones de experiencias base de Bernoulli mútuamente independientes y de probabilidad individual de éxito común igual a

.

(11)

4-1-2.1 Funciones de link

El objetivo que se persigue es establecer una relación funcional entre la probabilidad de la respuesta

y el vector de variables explicativas o covariables

x

1

x

p

T

x

:

 

x

.

Se va a detallar la construcción de un modelo capaz de describir como los cambios en los valores de las covariables afectan a la probabilidad de la respuesta.

El modelo formal a detallar consiste en las tres componentes habituales en los Modelos Lineales

Generalizados:

La componente aleatoria asume independencia de las observaciones de

n

T

Y

Y

,

,

Y

1

y

pertenencia a la distribución binomial (miembro de la familia exponencial), con

 

Y

.

La componente sistemática del modelo consiste en la especificación de un vector

, el predictor lineal a partir de un número reducido de parámetros a estimar y regresores; parámetros

p

T

,

,

1

y regresores

X

X

1

,

,

X

p

.

En notación matricial,

X

donde

es

nx1

,

X

es

nxp

y

es

px1

.

(12)

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El vector

está funcionalmente relacionado con el predictor lineal

, a través de la

función de link

, notada como

g(.)

, de manera

g

 

,

es

nx1.

El link canónico es la

función logit

:

 

logit

.

El link canónico es el más empleado en la práctica rutinaria, por ser el más sencillo de interpretar como

el logaritmo de los

odds

, sin embargo no tiene porqué adaptarse bien a los datos: es importante entender bien

el rol de la función de link

y no actuar automáticamente.

Las funciones de

link

más habitualmente empleadas para respuestas binarias son:

1. La función logit o logística:

g

1

 

logit

 

log

1

.

O bien,

1

 

g

11

 

1

exp

exp

 

 

. La ley logística da lugar a esta transformación, la derivada de

 

 

 

 

2 1 1

1

exp

exp

'

g

es la función densidad de probabilidad de la ley logística estándar de media

(13)

2. La función probit o función normal estándar inversa:

2

 

1

 

g

Y

 

 

 

1

2

2

g

. La ley normal estándar (media 0 y varianza 1) es la que da lugar a la definición de esta función de

link.

3. La función log-log complementaria

g

3

 

log

log

1

. Donde la función respuesta es,

 

 

 

3

g

31

1

exp

exp

.

La función de link es la inversa de la

distribución del valor extremo

mínimo (ley de Gompertz),

con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de e=-0.577216 (derivada primera de la función gamma evaluada en 1) y una varianza de

2

6

.

4. La función log-log

 g

4

 

log

log

 

1

, donde la función respuesta es

 

 

 

exp

exp

1

1 4

4

g

. La f. link es la inversa de la

distribución del valor

extremo

máximo (ley de Gumbel),

con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de - e y una varianza de

2

6

.

Las funciones

de link

anteriores pueden obtenerse como las inversas de las probabilidades acumuladas

(14)

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

Por ejemplo, si el predictor lineal se limita a tomar valores en el intervalo cerrado

 

a,

b

, entonces se

(15)

La función de link logit se puede analizar a partir de la función densidad de probabilidad y la función

distribución de la ley logística:

 

 

 

 

exp

exp

1

1 1 1

g

y

 

 

 

 

 

 

2 1 1 1 1

1

1

exp

exp

'

g

En general,

 

 

T

i

x

i i

,

donde

P(.)

indica la función de distribución de alguna variable aleatoria continua que tome valores reales serviría para la transformación del predictor lineal al intervalo

 

0

,

1

; por supuesto, las

hay algunas con mejores propiedades que otras, ya sean estadísticas o de cálculo, no todas ellas se adaptan del mismo modo a

(16)

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El cambio de escala que suponen las funciones de link

logit

y

probit

numéricamente es:

(17)

 













4 3

g

g

log

log

log

log

Todas las funciones de link anteriormente indicadas son continuas y crecientes en el intervalo abierto

(0,1)

.

Las funciones logit y probit están prácticamente relacionadas linealmente en el intervalo entre 0.1 y

0.9.

Para probabilidades pequeñas, la función logit y la función log-log complementaria son muy parecidas.

Para probabilidades que tienden a 1, la función log-log complementaria tiende a infinito más

lentamente que la función logit.

(18)
(19)

Para resumir las conclusiones de un estudio es conveniente expresar las magnitudes de los efectos estimados en una escala de fácil interpretación, que no tiene porqué coincidir con la escala representada por la función de link.

Si se empleado el link canónico y continuando con el ejemplo de la selección modal público-privado, con

2 factores A y C, el modelo para los log-odds de una respuesta satisfactoria (transporte público):

T

x

log

 

0 2 1

1

x

x

O bien, en función de los

odds

de una respuesta positiva (satisfactoria):

 

 

0

1

x

1

2

x

2

exp

exp

x

exp

T

Lo que permite encontrar la expresión de la probabilidad de una respuesta positiva

11

 

 g

(inversa de la función de link) como,

(20)

TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS

… y por tanto la probabilidad de respuesta negativa es,

 

 

1

0 1 1 2 2

1

1

1

1

1

x

x

exp

X

exp

exp

La interpretación del modelo en la escala de los

log-odds

seria:

1. Si se supone que los factores representados por los regresores

x

1 y

x

2 son no correlacionados, entonces el efecto de un cambio en una unidad de

x

2 es incrementar el

log-odd

de una respuesta positiva en una cantidad igual a su parámetro

2 .

2. Equivalentemente en la escala de los

odds

, el efecto de un cambio en una unidad de

x

2 es incrementar el

odd

de una respuesta positiva en una cantidad igual a la exponencial de su parámetro

 

2

exp

.

3. La interpretación en la escala de las probabilidades de respuesta positiva son más complicadas, ya que el efecto sobre la probabilidad de una unidad de cambio en

x

2 depende de los valores de

x

1 y

x

2.

La derivada parcial de la probabilidad de respuesta positiva

respecto es

2 2



x

,

(21)

   

 

'

1

para



expresado en función de

,

'

, ayuda a visualizar las conclusiones, ya que se detecta un máximo en



:

(22)

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS

El procedimiento iterativo método de los scores no suele presentar problemas de convergencia,

excepto cuando uno o más estimadores de los parámetros toman valor infinito, en cuyo caso no converge, lo que implica que las probabilidades ajustadas son cero o uno, debido a que hay observaciones

y

i

0

o

y

i

m

i. A pesar de que el proceso de estimación de los parámetros

no

converge, los valores ajustados si que convergen hacia un valor

ˆ

y la devianza también hacia un valor límite.

La implicación es que la función de log-verosimilitud es muy plana o tiene una asíntota y por tanto ni los estimadores de los parámetros ni las estimaciones de su error estándar deben ser creídos.

Se han demostrado resultados de existencia y unicidad de los estimadores de los parámetros si la

función de link empleada es cualquiera de las 4 indicadas en el apartado 4-1-2.1 y si

0

y

i

m

i para

todas las clases definidas por las covariables.

(23)

4-1-3.1 Medidas de bondad del modelo

Sean

ˆ

los estimadores resultantes del proceso iterativo, estos estimadores determinan un valor del predictor lineal

ˆ

y a través de la función de link unas probabilidades ajustadas (valores medios ajustados por clase de covariable):

ˆ

i

g

 

ˆ

i

1 

.

La función devianza escalada tiene por expresión,

D

'

 

y,

ˆ

2

(y,

y)

2

 

ˆ

,

y

.

La devianza se define como la devianza escalada por el parámetro de dispersión y son idénticas en este

caso:

 

y,

ˆ

D

'

 

y,

ˆ

D

'

 

y,

ˆ

D

si

Y

i

B

m

i

,

i

El modelo maximal

(y,

y)

implica unas probabilidades ajustadas

i i i

m

y

~

(24)

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

Quedándonos con el resultado final, la expresión de la devianza resulta:

 

 









n i i i i i i i i i i i i

m

m

y

m

y

m

m

y

y

D

D

1

2

ˆ

log

ˆ

log

ˆ

y,

ˆ

y,

En muchos textos específicos de regresión logística, el estadístico D, devianza, suele expresarse como,

 

negativa postiva n i i i i

e

o

o

D

,

log

1

2

donde,

1. El sumatorio interno indica por

o

i

y

i los valores observados en el grupo con respuesta positiva.

2. El sumatorio interno indica por

o

i

m

i

y

i los valores observados en el grupo con respuesta

negativa.

3. El sumatorio interno indica por

e

i

m

i

ˆ

i los valores esperados en el grupo con respuesta positiva.

4. El sumatorio interno indica por

e

i

m

i

m

i

ˆ

i los valores observados en el grupo con respuesta

(25)

su distribución y se le suele atribuir a menudo, a la ligera, que

D

Y

,

ˆ

se distribuye asintóticamente como una

2

p

n

(

no confundir

con 2 p N

).

Recordar que el p valor de la Devianza (Escalada y siempre entendida como residual) es la probabilidad

que la distribución de referencia tome un valor superior a la devianza. Si el p valor supera el límite del 5% habitual, entonces no hay evidencia para rechazar la hipótesis nula y por tanto la discrepancia entre valores observados y predichos es ‘pequeña’ y se acepta la bondad del modelo.

Semejante al Cp Mallows se emplea para valorar la calidad de modelos, el AIC, definido por Akaike

(1974). Sea MB el modelo con p parámetros

AIC

B

2

ˆ

B

,

y

p

. Se busca el mínimo

AIC.

Dentro de la misma línea y con idea de penalizar la log-V a medida que aumenta p, se calcula el

estadístico BIC (

Bayesian Information Criteria

) (en SAS©), también denominado criterio de Schwartz

p

n

BIC

B

2

ˆ

B

,

y

log

. Se da preferencia a modelos con mínimo BIC.

Tanto el AIC, como el BIC pueden emplearse para comparar modelos no forzosamente

(26)

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

La distribución asintótica sólo es cierta ante condiciones muy restrictivas y que difícilmente se van a

dar en estudios prácticos (McCullagh, para detalles técnicos); por tanto, la devianza no es directamente utilizable como medida de la bondad del ajuste, pero sí para comparar dos modelos jerárquicos: por ejemplo,

Sea MA el modelo actual con q parámetros y sea MB el modelo con p > q parámetros, sean

ˆ

A y

B

ˆ

, las respectivas probabilidades estimadas, es decir

T T

2 1

,

 

Y

 

1T  

con dim( A

)=q<p,

La reducción en la devianza

D

AB se expresa:

,

ˆ

A

,

ˆ

B

2

(

~

,

y)

2

ˆ

A

,

y

2

(

~

,

y)

2

ˆ

B

,

y

2

ˆ

B

,

y

2

ˆ

A

,

y

AB

D

D

D

y

y

A

B

AB

D

D

D

y

,

ˆ

y

,

ˆ

tiene una distribución aproximada de

2pq si

n

es grande o bien el

(27)

El test equivalente al test

t de Student

para los coeficientes del modelo es el

test de Wald

. El

estadístico de Wald para el contraste de H0:

j

ˆ

j seria: 0

 

0

,

1

ˆ

ˆ

.

ˆ

N

asint

Z

j j j

, si H0 es cierta.

El intervalo de confianza asintótico bilateral a un nivel  viene dado por

ˆ

j

z

/2

ˆ

ˆj , donde

2

/

z

es el valor de la ley normal estándar que deja una probabilidad por la derecha de

2

.

El contraste de hipótesis múltiples en algunos textos se propone a través del estadístico de Wald, sin embargo tiene poca potencia y el procedimiento sugerido en este curso es a través de la reducción de la devianza.

El estadístico de Wald surge de manera natural en el contexto de estimación de los parámetros por

maximización de verosimilitud, ya que asintóticamente (ver el Tema 1) :

ˆ

N

p

0,

1

,

donde

 

UU

T es la matriz de información esperada de Fisher (varianza de los

scores

), que se

(28)

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

O equivalentemente, en términos de la ley

2p ,

 

2p T

ˆ

ˆ

, donde el estadístico de

Wald es W=

ˆ

 

T

ˆ

. Recordar que:

V

 

ˆ

1

IE

 

IE

   

ˆ

IO

ˆ

.

0

:

0 puede contrastarse por

 

2 0 1 0

ˆ

ˆ

ˆ

p T

V

W

.

Si

T

1T

,

2T

con dim(

2 )=q<p y

0

:

2

0

entonces

 

2 2 1 2 2

ˆ

ˆ

ˆ

q T

V

W

.

Si dim(

2 )=1 entonces

0

:

2

0

se toma la raíz cuadrada del estadístico de Wald y se trata

habitualmente el cociente como una normal estándar:

 

 

0,1 ˆ ˆ 2 2 N V z  

.

La devianza tiene un papel análogo a la suma de cuadrados residual de los modelos lineales generales

clásicos, lo que permite definir el análogo al coeficiente de determinación

R

2 de los modelos lineales, que se define como,

(29)

…. donde

D

y

,

A

es la devianza del modelo A a contrastar (debe contener término independiente),

D

y

,

0

es la devianza del modelo .

La esparsidad en los modelos de respuesta binaria se da cuando el número de observaciones por clase

de covariable es pequeño, en el caso extremo

m

i

1

, no habrán problemas en la estimación ni en los

estadísticos de

goodness of fit

si

n

(número de clases de covariables) es grande.

Otra medida de bondad del ajuste empleada en muchos textos sobre regresión logística es el

estadístico de Pearson

X

2, asintóticamente distribuido como una

n2p , al igual que el estadístico

D

,

devianza. El estadístico de Pearson generalizado coincide en respuesta binaria con el clásico y es:



     , 1 2 1 2 1 2 2

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

n i i i i n i i i i i i i n i i i i i i i

e

e

o

m

y

m

1

m

m

y

X

Entre paréntesis aparece la expresión habitual en muchos textos, en función de términos de valores observados y esperados de respuestas positivas en cada grupo (clase definida por las covariables).

Ante esparsidad la reducción de la devianza se puede todavía aproximar por una distribución de

2 .

La extrapolación o predicción fuera del rango de las observaciones de las covariables es delicada, ya

(30)

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

 Hosmer y Lemeshow (1980,1989) han propuesto un estadístico alternativo que no requiere de agrupaciones en clases de la covariable, la idea consiste en usar las probabilidades predichas por el modelo para crear 10 grupos 0–0.1, 0.1–0.2, hasta el último grupo de 0.9–1. Para cada grupo se cuentan las respuestas positivas y negativas observadas y predichas por el modelo, mediante el estadístico de Pearson tradicional (valores observados menos predichos al cuadrado dividido por valor predicho), que mediante simulaciones se ha comprobado tiende a una ley de

2 con el número de grupos menos 2 grados de libertad.

(31)

Se va a definir en general una tabla de clasificación donde se contabilicen para todas las clases de la covariable n, el número de efectivos en las categorías cruzadas de valor observado (1 o 0) y valor predicho (1 o 0), donde se considera

y

ˆ

i

1

si

i

s

~

, donde

s

es un umbral entre 0 y 1. Para cada valor del umbral

s

que se desee tantear se puede escribir una tabla:

Y=1 Y=0 Total 1 ˆiy a b a+b 0 ˆiy c d c+d a+c b+d n

La

sensibilidad

es la proporción de verdaderos valores 1 que son estimados 1 : Sn =a/(a+c).

La

especificidad

es la proporción de verdaderos valores 0 que son estimados 0: Sp = d/(b+d).

Los

valores predictivos positivos y negativos

del modelo se definen como: P+=a/(a+b) y P- =d/(c+d).

La curva ROC (

Receiver Operating Characteristic

) permite representar las repercusiones de la selección del umbral s respecto la sensibilidad y la especificidad. En abcisas se pone para cada valor s, 1-Sp y en ordenadas Sn. Si para todo s, la proporción de

y

ˆ

i

1

es la misma para las observaciones 1 o 0, entonces

Sn=1-Sp, la curva ROC es la diagonal y el modelo no es informativo (área bajo la curva ½). Un umbral s es ideal si permite separar totalmente las observaciones 1 y 0, es decir, si c=b=0 y por tanto Sn=1 y 1-Sp=0. Una buena referencia electrónica para trabajar el tema se encuentra en

(32)

TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

1

ˆ

y

0

ˆ

y

1

y

Parte de

Especificidad Sp

0

y

Parte de

Sensibilidad Sn

El gráfico de la izquierda indica el proceso de construcción de una curva ROC para s fijado y la gráfica de la derecha muestra 3 curvas ROC que representan modelos con capacidades predictivas respectivas excelente, buena y muy mala. La

capacidad predictiva depende de cuan bien separe el modelo de grupo de verdaderos positivos y es el área bajo la curva ROC. A título de guía para

clasificar la capacidad predictiva del modelo en

cuestión se da el siguiente criterio en función del área bajo la curva ROC:

(33)

Se definen cuatro índices de asociación entre las probabilidades observadas y las probabilidades

predichas. Para definirlas se consideran todos los pares de observaciones con valores de Y distintos, son H= (a+c)(b+d).

o … para cada par se calcula la probabilidad predicha y si es superior para la observación y=1 que para y=0 se dice que el par es concordante.

o … si la probabilidad predicha es inferior para la observación y=1 que para y=0 se dice que el par es discordante.

o Y si tiene la misma probabilidad se dice que hay empate (tie).

o Sea C el número de pares concordantes, D el número de pares discordantes y T el número de empates.

Los índices de asociación relativos a la capacidad predictiva del modelo son:

Tau de Kendall = (C-D)/H Gamma = (C-D)/(C+D)

D de Sommer = (C-D)/(C+D+T) C=0.5(1+D de Sommer)

(34)

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

4-1-3.2 Diagnóstico del modelo

Los procedimientos de análisis de los residuos y detección de valores influyentes para la diagnosis de la calidad del modelo de regresión lineal normal clásico, han sido extendidos, con mayor o menor fortuna, a los modelos lineales generalizados.

En la presente sección, se presentan los procedimientos de diagnosis del modelo de respuesta binaria

(génesis debida a Pregibon (1981), exposición según Fox (1991)): residuos estudentizados, leverages, estadístico de Cook, plots de los residuos, etc.

El residuo se define como la diferencia entre el valor observado y el valor ajustado, para cada observación:

e

i

y

i

y

ˆ

i

y

i

m

i

ˆ

i .

El residuo de Pearson o el residuo de la devianza, definidos en el Tema 1, facilitan la noción de

contraste entre los valores observados y los valores ajustados por el modelo.

(35)

en la escala logit

ˆ

i

x

Ti

ˆ

y el residuo logit

i i i i i

m

e

e

ˆ

ˆ

*

1

.

El diagrama bivariante de los valores ajustados en la escala logit (abcisas) frente a los

residuos logit

(ordenadas), permiten una interpretación similar, pero en la escala logit, a sus homónimos en la regresión lineal normal clásica.

Los problemas de no linealidad en la escala logit pueden detectarse a veces mediante diagramas bivariantes, tantos como regresores, de los residuos logit (en ordenadas) frente a cada regresor.

La matriz sombrero (matriz de proyección,

Y

ˆ

PY

) empleada para la detección de valores

influyentes a priori en la regresión lineal normal clásica a través de cotas a sus valores diagonales, se redefine en los MLGz según Pregibon como,

T

1 T 1 2 2 1

W

X

WX

X

X

W

P

(36)

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La matriz

W

debe corresponder a la iteración en que ha detectado la convergencia del método de los scores en la estimación de los parámetros.

El empleo de la matriz de pseudo- proyección

P permite definir los residuos estudentizados, aunque

formalmente interesantes a pesar de su compleja justificación, en la práctica como ya se indicó en el Tema 2 no resultan imprescindibles.

Los valores influyentes a posteriori se detectan mediante el análogo al estadístico de Cook de los

modelos clásicos que se justifica a partir del estadístico de Wald para el contraste de significación H0:

0

,

 

0

 

0

0

1 0 2 0

ˆ

WX

X

ˆ

ˆ

ˆ

ˆ

ˆ

T T T

V

Z

Sea el estadístico de Wald

Z

 

2i calculado para la prueba de hipótesis H0:

ˆ

 i , es decir, si

(37)

correspondiente en la matriz de pseudo-proyección

P

). Se realiza:

1. Un diagrama bivariante con el leverage en ordenadas y el número de observación

i

en abcisas. Se buscan observaciones con valores superiores a 2p/n.

2. Un diagrama bivariante con la “distancia” de Cook en ordenadas y el número de observación

i

en abcisas.

3. Un diagrama bivariante con los residuos (Pearson o devianza o logit, según gusto y talento interpretativo del estadístico) en ordenadas y el número de observación

i

en abcisas.

4. Si el paquete estadístico lo permite fácilmente, los 3 gráficos se pueden fusionar en 2: primero, diagrama bivariante de residuos en ordenadas y leverages en abcisas con identificador del número de observación en cada punto del diagrama; segundo, diagrama bivariante de residuos en ordenadas y “distancia” de Cook en abcisas con identificador del número de observación en cada punto del diagrama

Se aconseja detectar valores atípicos por criterios de estadística descriptiva, más que emplear

(38)

4-1-4. TEMA 4-1: EJEMPLOS

4-1-4.1 Ejemplo 1 (Dobson)

Se desea estudiar la germinación de cultivos de algas en base a un factor de almacenamiento que tiene dos categorías, 1 (

base-line

, sin almacenamiento posterior al cultivo) y 2 (con almacenamiento posterior durante 48 horas a 3ºC); y una covariable X que indica la fuerza centrífuga aplicada durante la preparación del cultivo, de hecho X sólo puede tomar 3 valores, 40, 150 y 300. Los resultados de germinación se ilustran en la siguiente tabla. Se desea determinar el modelo logístico más adecuado.

(39)

 O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas):

FACTOR C

C1 =log 40 C2 =log 150 CK=3 =log 350

FACTOR A FACTOR B – Respuesta

Y FACTOR B – Respuesta

Y FACTOR B – Respuesta Y TOTAL

B1

Y=0

BJ=2

Y=1 SUBTOTAL Y=0B1 BY=1J=2 SUBTOTAL Y=0B1 BY=1J=2 SUBTOTAL

A1 = 1 Nada 47 55 102 47 52 99 51 57 108 309

AI=2 =2 Nevera 21 55 76 31 50 81 40 50 90 247

SUBTOTAL 68 110 178 78 102 180 91 107 198

(40)

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

El número de grupos o clases de las covariables es

n=6=2x3

. Para recuperar la notación habitual en el análisis de la covarianza clásico, la clases

i

se identificaran por la categoría del factor (

j=1

- nada,

j=2

- nevera) y por valor ascendente de la covariable X’ (

k=1

para 40,

k=2

para 150 y

k=3

para 350) que va a recibir un tratamiento continuo. Sea

X=log(X’)

.

Modelo 3: Interacciones entre factor y covariable, rectas con distintos

intercept

y pendiente

 

2

1

1

1 2 1 2 1 1

j

x

j

x

x

k k k j j jk jk

log

,

Modelo completo con

p=

4 parámetros:





2 1 2 1 2 2

1

1

log

i i i i i

I

x

x

.

(41)

Modelo 2: Sin interacciones entre factor y covariable, rectas paralelas, j k jk jk

x

1

log

,

Modelo con

p=

3 parámetros:

2 1 2

1

1

log

i i i i

I

x

.

Modelo 1: Sin efecto del factor, recta única, k jk jk

x

1

log

,

Modelo con

p=

2 parámetros:





i i i

1

x

1

log

. Modelo 0: Constante,

jk jk

1

(42)

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

MTB > Name c6 = 'PRES1' c7 = 'DRES1' c8 = 'HI1'

MTB > BLogistic 'Yjk' 'm_i' = c1 c5 c1*c5; SUBC> ST;

SUBC> Factors c1; SUBC> Logit;

SUBC> Reference Factor 1; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Hi 'HI1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2.

Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit

Response Information

Variable Value Count Yjk Success 319 Failure 237 m_i Total 556

Logistic Regression Table MODELO 3

Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,2339 0,6284 0,37 0,710

Factor

(43)

Pearson 0,028 2 0,986 Deviance 0,028 2 0,986 Hosmer-Lemeshow 0,028 4 1,000

Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 56,7 52,5 54,8 49,7 50,4 54,8 Failure Obs 51 47 47 40 31 21 237 Exp 51,3 46,5 47,2 40,3 30,6 21,2 Total 108 99 102 90 81 76 556 Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0%

(44)

SUBC> ST;

SUBC> Factors c1; SUBC> Logit;

SUBC> Reference Factor 1; SUBC> Presiduals 'PRES3'; SUBC> Dresiduals 'DRES3'; SUBC> Hi 'HI3'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2.

Binary Logistic Regression: Yjk; m_i versus Factor; X

Link Function: Logit

Response Information

Variable Value Count Yjk Success 319 Failure 237 m_i Total 556

Logistic Regression Table MODELO 2

Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,8767 0,4870 1,80 0,072

Factor

2 0,4068 0,1746 2,33 0,020 1,50 1,07 2,12 X -0,15459 0,09702 -1,59 0,111 0,86 0,71 1,04

Log-Likelihood = -375,404

Test that all slopes are zero: G = 7,833; DF = 2; P-Value = 0,020

(45)

Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 53,2 52,0 58,8 53,4 50,6 51,0 Failure Obs 51 47 47 40 31 21 237 Exp 54,8 47,0 43,2 36,6 30,4 25,0 Total 108 99 102 90 81 76 556 Measures of Association:

(Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures

Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0%

MTB > Name c15 = 'PRES4' c16 = 'DRES4' c17 = 'HI4' MTB > BLogistic 'Yjk' 'm_i' = c5 ;

SUBC> ST; SUBC> Logit;

SUBC> Presiduals 'PRES4'; SUBC> Dresiduals 'DRES4'; SUBC> Hi 'HI4';

SUBC> Brief 2.

(46)

Response Information

Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 1

Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,0213 0,4813 2,12 0,034

X -0,14784 0,09650 -1,53 0,125 0,86 0,71 1,04 Log-Likelihood = -378,141

Test that all slopes are zero: G = 2,360; DF = 1; P-Value = 0,124

Goodness-of-Fit Tests

Method Chi-Square DF P Pearson 0,010 1 0,921 Deviance 0,010 1 0,921 Hosmer-Lemeshow 0,010 1 0,921

Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 Total Success Obs 107 102 110 319 Exp 106,7 102,5 109,8 Failure Obs 91 78 68 237 Exp 91,3 77,5 68,2 Total 198 180 178 556 Measures of Association:

(Between the Response Variable and Predicted Probabilities)

(47)
(48)

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

Interpretación de los parámetros:

Modelo 3

Modelo 2

Modelo 1

a1= 0.238 a1 = 0.877 a = 1.021

a2= 1.977 a2 = 0.407

b1= - 0.023 b= - 0.155 b= - 0.148

b2= - 0.319

LogL= -374.109 LogL= -375.404 LogL= -378.141 D3= 0.0277 D2= 2.619 D1= 8.092

591

2

23

.

D

y

D

12

5

.

473

deben contrastarse con una 2 1

.

En el primer caso se aceptaría la hipótesis nula (pendientes idénticas) aunque la potencia del test es

muy baja y en el segundo caso se rechazaría la hipótesis nula y se concluiría que el efecto del almacenamiento es relevante.

En base únicamente al análisis de la devianza, el mejor modelo es el Modelo 2 de pendientes paralelas.

Obsérvese que se ha definido la categoría 1 (

Nada

) del Factor como la categoría de referencia.

(49)

modelos se indica de manera sintética, si la salida de Minitab no facilitara la devianza, sinó únicamente el valor de la función de log-verosimilitud en el óptimo, a partir de éste pueden calcularse los incrementos de devianza entre modelos jerárquicos:

 

 

2

 

p

q

D

pq

2

y,

y

ˆ

p

,

y

2

y,

y

ˆ

q

,

y

ˆ

p

,

y

ˆ

q

,

y

Análisis de la Devianza

Modelo

n-p Devianza

o

Log-Verosimilitud

Devianza

g.l.

Modelo

0 1 5 ¿? ¿? 1 Constante 1 X 4 -378.141 5.473 1 Recta simple 2 F+X 3 -375.404 2.591 1 Rectas Paralelas 3 F*X 2 -374.109 Interacción Factor-Cov.

2

.

619

7

.

833

0

.

749

833

.

7

,

,

,

2 2 2 2

y

y

y

D

G

G

R

(50)

1-ESPECIF Y-D a ta 1,0 0,8 0,6 0,4 0,2 0,0 1,0 0,8 0,6 0,4 0,2 0,0 Variable SENSIB 1-ESPECIF 0,700000 0,671129 0,624563 0,593385 0,576020 0,525508 0,492784 0,250000 0,700000 0,671129 0,624563 0,593385 0,576020 0,525508 0,492784 0,250000

Scatterplot of SENSIB; 1-ESPECIF vs 1-ESPECIF

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

La capacidad predictiva del modelo depende del valor c=0.5(1+D Sommer)=0.5*(1+0.13)=0.575, por tanto es muy mala.

Veamos el proceso de construcción de la curva ROC.

(51)

sum( resid( model, ‘pearson’) ^2 )

Es pot comprovar que sumant els quadrats dels residus de la deviança, surt l’estadístic deviança residual del model (per defecte, facilitat):

sum( resid( model, ‘deviance’) ^2 ) == model$deviance

Para calcular curvas ROC: Instalar paquete ROCR.

(52)

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

4-1-4.2 Ejemplo 2 (Fox)

En 1977 se realizó una encuesta sociodemográfica a la población de Canadá. El modelo lineal generalizado que se plantea investiga el análisis de la relación entre las mujeres jóvenes casadas que trabajan en función de la existencia de hijos en el hogar, los ingresos de sus maridos y la región del país donde residen.

 La variable de respuesta es dicotómica: trabaja frente a no trabaja (para cada mujer joven casada que interviene en el modelo). Originariamente en los datos la variable tiene 3 categorías, lo que será aprovechado en un ejemplo del Tema 5.

 La presencia de hijos en el hogar es el factor A, que tiene 2 categorías (SI, NO). Categoría base: NO (la constante corresponde al valor medio de la categoría NO).

 La región del Canadá es un factor politómico B, con 5 categorías. Los ingresos del marido (en miles de dólares) es la covariable X.

(53)

[1] OBSERVATION

[2] LABOUR-FORCE PARTICIPATION fulltime = WORKING FULL-TIME parttime = WORKING PART-TIME

not_work = NOT WORKING OUTSIDE THE HOME [3] HUSBAND'S IINCOME, $1000'S

[4] PRESENCE OF CHILDREN absent

present [5] REGION

Atlantic = ATLANTIC CANADA Quebec

Ontario

Prairie = PRAIRIE PROVINCES BC = BRITISH COLUMBIA

Source: Social Change in Canada Project, York Institute for Social Research.

DATA:

1 not_work 15 present Ontario 2 not_work 13 present Ontario …

253 not_work 13 present Quebec 254 parttime 23 present Quebec 255 fulltime 11 absent Quebec 256 not_work 9 absent Quebec 257 fulltime 2 absent Quebec …

(54)

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

La tabla contiene el análisis de la devianza para diversos modelos. El modelo más adecuado contiene X y A, cuyo coeficiente negativo indican que ante la presencia de niños y mayores ingresos masculinos es menor la incidencia del trabajo femenino.

(55)

niños no es estadísticamente significativa (Factor A).

El contraste de M3 vs M7 indica que la región (Factor B) tampoco es estadísticamente significativa.

Sin embargo, los efectos principales del Factor A (M1 vs M3) y de la covariable (M2 vs M3) son

estadísticamente significativos (se rechazan las correspondientes hipótesis nulas).

i i i i

x

A

Factor

0

04231

576

1

336

1

1

.

.

.

log

(56)

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

El análisis de los residuos de la devianza frente a las probabilidades estimadas es:

(57)

El valor medio del leverage

p/n

es

0,06522

y el extremo

(58)

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Los residuos son difíciles de interpretar en los modelos lineales generalizados!!!

(59)
(60)

absent present 50 40 30 20 10 0 1 0 -1 -2 Income-X EL O G IT 6 absent present 0 5 10 15 20 25 30 35 40 45 -2 -1 0 1 2 C_INCOMEX OLOG IT 7 109 2 26 44 43 21 12 3 3

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

(61)

CONT> c11 = 'EPRO1' m1 = 'XPWX1'

MTB > BLogistic 'Ybin_i' = 'Factor A' 'Income-X'; SUBC> Factors 'Factor A';

SUBC> Logit;

SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Ddeviance 'DDEV1'; SUBC> Hi 'HI1';

SUBC> Eprobability 'EPRO1'; SUBC> XPWXinverse 'XPWX1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2; SUBC> Step.

Binary Logistic Regression: Ybin_i versus Factor A; Income-X

Response Information

Variable Value Count

(62)

Total 263

Logistic Regression Table

Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,3358 0,3838 3,48 0,000

Factor A

present -1,5756 0,2923 -5,39 0,000 0,21 0,12 0,37 Income-X -0,04231 0,01978 -2,14 0,032 0,96 0,92 1,00

Log-Likelihood = -159,866

Test that all slopes are zero: G = 36,418; DF = 2; P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P Pearson 73,229 43 0,003 Deviance 78,469 43 0,001 Hosmer-Lemeshow 5,824 7 0,560

Table of Observed and Expected Frequencies:

(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

(63)

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Figure

Actualización...

Referencias

Actualización...

Related subjects :