Ajuste e interpretación de modelos de regresión logística con variables categóricas y continuas*

(1)

Ajuste e interpretación de modelos de

regresión logística con variables

categóricas y continuas

*

LUIS NAVA PUENTE1

SURENDRA PRADAD. SINHA2

* Este artículo corresponde a un resultado obtenido en el Seminario 2 del Doctorado en Estadística de la Universidad de Los Andes, desarrollado por Luis Nava Puente y con la tutoría de Surendra Sinha. 1 Facultad de Economía, Escuela de Estadística, Universidad de Los Andes, Mérida, Venezuela. 2 Facultad de Economía, Instituto de Estadística Aplicada y Computación, Universidad de Los Andes.

Recibido: 01-02-2007 Revisado: 05-03-2007 Aceptado: 12-05-2007 Resumen

Se desarrolló un procedimiento para ajustar un modelo de regresión logística que relacio-nara la prevalencia de cardiomiopatía clínica con las variables de sexo, consumo de “chimó”, consumo de alcohol, fumar, seropositividad a Trypanosoma cruzi y edad. Se usó la información referente a un grupo de 2.336 habitantes del Estado Trujillo.

Los resultados de la investigación indicaron que las variables relacionadas en forma significativa con la presencia de anormalidades electrocardiográficas son sexo, consumo de chimó, fumar y edad. El modelo apropiado incluye la interacción entre las variables sexo y consumo de chimó y un término cuadrático de edad. El consumo de chimó y la edad son variables que incrementan en forma significativa las posibilidades de cardio-miopatía clínica.

Podemos concluir con base en los resultados que los hombres tienen mayores posibilida-des que las mujeres de presentar esta anomalía.

(2)

Tittle:

Adjustment and interpretation of logistic regression models with categorical and continuous variables

Abstract

A logistic regression model was fitted to establish the relation between the prevalence of clinic myocardiopathy with the variables gender, chimó (a type of chewing tobacco consumption), alcohol consumption, smoking habits, seropositivity to

Trypanosoma cruzi and age. The information was

based on a group of 2336 persons from the state of Trujillo, Venezuela.

The results of the research showed that the varia-bles significantly related with the presence of electrocardiographic (ECG) abnormalities were gender, chimó consumption, smoking and age. The best model included interactions between gender and chimó consumption, and a quadratic term for age. Chimó consumption and age were the varia-bles that made significantly greater the risk of clinic myocardiopathy. We conclude also that males have a greater risk of developing this kind of abnormality.

Key words: Logistic regression, generalized li-neal model, Trypanosoma cruzi, cardiomyopathy, electrocardiographic anomalies.

Introducción

El modelo lineal generalizado pro-puesto inicialmente por Nelder y Wedderburn en 1972, es una exten-sión o generalización del modelo li-neal clásico. Entre otras cosas, ofrece una mayor variedad de distribuciones para la variable respuesta, es decir, posibilita el ajuste de un modelo con diferentes distribuciones sin necesi-dad de realizar modificaciones en los datos. Además, permite establecer una relación entre la variable

depen-diente y la combinación lineal de fac-tores de predicción mediante una fun-ción adecuada del valor esperado de la misma.

Un caso especial del modelo lineal generalizado es el modelo de regresión logística, el cual se distingue del mode-lo de regresión lineal en que la variable respuesta es dicotómica. El modelo de regresión logística nos permite, en este caso, estudiar la incidencia de cardio-miopatía clásica en un grupo de pobla-dores del Estado Trujillo. Ilustramos el procedimiento para ajustar el mejor modelo de regresión logística a los da-tos, determinar la importancia de las variables independientes bajo estudio en la prevalencia de anormalidades electro-cardiográficas, así como la forma de in-terpretar los resultados.

Los datos

(3)

La información analizada en este pro-yecto se refiere a un estudio de prevalen-cia (1986-1987) de cardiomiopatía clínica, realizado en un grupo de 2.336 habitantes del Estado Trujillo. A este con-junto de individuos se les registró, entre otras, las variables de sexo (masculino, femenino), consumo de chimó (no, sí), consumo de alcohol (no, sí), fuma (sí, no), seropositividad a Trypanosoma cruzi (positiva, negativa) y edad.

Resultados

Inicialmente se calculó el deviance asociado con el modelo nulo (modelo

que incluye sólo el intercepto). Este resultado se muestra en la tabla 1. En segundo lugar, se efectuó la evalua-ción de cada uno de los factores cua-litativos de interés en el estudio y se construyó la tabla 2.

Tenemos, pues, que la tabla 2 pre-senta el deviance de cada modelo unifactorial y el efecto global de cada uno de estos factores. Este efecto glo-bal resulta de la diferencia entre las desviaciones (deviance) del modelo nulo y el de cada modelo de un factor. Debe señalarse, al comparar los resultados mostrados en la tabla 2 con

Tabla 1

Cálculo del deviance para el modelo nulo Estadísticos de Bondad de Ajuste Deviance y Pearson

Criterio GL Valor Valor/GL Pr > ChiSq

Deviance 28 247.7866 8.8495 <.0001

Pearson 28 244.2682 8.7239 <.0001

GL: Grados de Libertad. Pr: Probabilidad. Chisq: Chi-Cuadrado.

Tabla 2

Cálculo de deviance y efecto global para los modelos de un factor

Modelo Deviance GL Efecto global GL

Nulo 247,7866 28 Sexo 75,4344 27 172,3522* 1 Comechimo 202,0885 27 45,6981* 1 Fuma 240,5551 27 7,2315* 1 Toma 229,8772 27 17,9094* 1 Resultad 238,7436 27 9,043* 1

(4)

c2

1;0.05 = 3.84146, que todos los efec-tos globales resultan significativos a un nivel de significación del 5%.

Por consiguiente, se considera apropiado correr un modelo aditivo que incluya los cinco factores cualita-tivos anteriormente evaluados. Los resultados obtenidos al ajustar este modelo se presentan en la tabla 3 y se puede observar que el modelo se ajusta a los datos (p=0,1005). Cabe conside-rar, por otra parte, que a un nivel del 5% todos los factores, excepto “Toma” (p=0,3879), resultan

estadís-ticamente significativos. Este resulta-do es confirmaresulta-do al utilizar el proce-dimiento de selección de variables hacia adelante; el mismo considera que el modelo debe incluir las variables sexo, come chimó, fuma y resultado.

Inclusión de la variable edad

El análisis precedente consideró sólo las variables cualitativas. Sin embar-go, una variable cuantitativa que, por lo general, resulta de interés, es la va-riable edad; por lo tanto, debe ser in-cluida en nuestra construcción. Dado

Tabla 3

Ajuste de modelo aditivo

Criterio GL Valor Valor/GL Pr > ChiSq

Deviance 23 31.9818 1.3905 0.1005

Pearson 23 30.9851 1.3472 0.1232

Number of unique profiles: 29

Contraste de la hipótesis nula global: BETA=0

Test Chi-Square GL Pr > ChiSq

Likelihood Ratio 215.8048 5 <.0001

Score 214.2951 5 <.0001

Wald 200.7542 5 <.0001

Análisis de las estimaciones máximo verosímil

Parámetro GL Estimación E.E. ChiSq Pr > ChiSq

Intercept 1 -1.2122 0.0720 283.0820 <.0001 SEXO 1 1 1.1911 0.1027 134.4210 <.0001 Comechimo 2 1 0.4421 0.1002 19.4504 <.0001 FUMAACTU 1 1 -0.4167 0.1132 13.5436 0.0002 Toma 1 1 -0.1056 0.1223 0.7455 0.3879 RESULTAD 1 1 0.2718 0.1370 3.9368 0.0472

(5)

que edad es cuantitativa, ella produce problemas en el cumplimiento del re-quisito de la disponibilidad de 10 ob-servaciones por celda o, combinación de niveles. Es claro, entonces, que esta variable no puede ser incorporada al modelo en la forma usual. Una forma diferente de lo usual sería la incorpo-ración de esta variable a través de la construcción de grupos de edades, es decir, creando categorías de edades. Otra forma es mediante el uso del pro-cedimiento propuesto por Stokes, Davis y Koch[4]. Este procedimiento consiste en seguir tres estrategias, las cuales deben coincidir en el modelo ideal. La estrategia 1 consiste en ajus-tar dos modelos; un primer modelo que incluye sólo los factores cualitativos y un segundo modelo, que es el pri-mero expandido por la variable cuan-titativa.

Tenemos pues que, al comparar es-tos modelos, evaluando la diferencia entre sus deviances, mostrados en la ta-bla 4, 1109.4104-1106.7611=2.6493, podemos concluir que el aporte de la variable edad no es significativo. Esta tabla también nos muestra el análisis de las estimaciones de máximo vero-símil. Podemos observar aquí que las variables toma, edad y resultado, no son estadísticamente significativas.

Ahora bien, en la estrategia 2 se evalúa la ji al cuadrado residual pro-puesto por Breslow y Day (1980). El

modelo propuesto es el que incluye las variables sexo, come chimó, fuma y edad. Dado que p=0,2001, a un nivel de significación del 5%, se concluye que este modelo se ajusta adecuada-mente a los datos.

Dentro de ese marco, la estrategia 3 consiste en el cálculo del estadístico de bondad de ajuste propuesto por Hosmer y Lemeshow (1989)[5]. Al comparar el valor de este estadístico, 42.6322, con un ji al cuadrado de 8 grados de libertad, podemos observar que esta medida no apoya lo adecua-do del modelo para estos datos. Re-sulta, claro, una inconsistencia en los resultados obtenidos mediante las tres estrategias, es decir, no hay coinciden-cia en el modelo ideal.

Inclusión del término cuadrático

de la variable edad

(6)

Tabla 4

Ajuste de Modelo incluyendo la variable Edad

Estadísticos de Bondad de Ajuste Deviance y Pearson

Deviance 827 1109.4104 1.3415 <.0001

Pearson 827 908.8145 1.0989 0.0247

Estadísticos de bondad de ajuste Deviance y Pearson

Deviance 826 1106.7611 1.3399 <.0001

Pearson 826 903.2268 1.0935 0.0314

Test Chi-Square GL Pr > ChiSq

Score 216.7855 6 <.0001

Wald 202.6436 6 <.0001

Analysis of Maximum Likelihood estimates

Intercept 1 -1.3633 0.1181 133.2993 <.0001 SEXO 1 1 1.1918 0.1028 134.2673 <.0001 Comechimo 2 1 0.3853 0.1061 13.1816 0.0003 Fumaactu 1 1 -0.4132 0.1132 13.3182 0.0003 toma 1 1 -0.0975 0.1225 0.6339 0.4259 Edad 1 0.00456 0.00280 2.6556 0.1032 Resultad 1 1 0.2205 0.1406 2.4596 0.1168

GL: Grados de Libertad. E.E. Error estándar. Pr: Probabilidad. Chisq: Chi-Cuadrado.

En la tabla 6 se muestran los resul-tados obtenidos al seguir el procedi-miento de las tres estrategias planteado en la sesión anterior, incluyendo el tér-mino cuadrático para la variable edad. El modelo no se ajusta a los datos (p<0,001). Obsérvese que ahora la variable edad resulta significativa,

mientras que las variables toma y re-sultado, se mantienen como no signi-ficativas.

Por consiguiente, podemos indicar que el modelo propuesto es Log it

(π_ijk) = –0.094 + 1.121sexo+0.427

(7)

Tabla 5

Ajuste de modelo incluyendo el término Cuadrático para la variable Edad

Estadísticos de bondad de ajuste Deviance y Pearson

Deviance 825 1069.6080 1.2965 <.0001

Pearson 825 882.9096 1.0702 0.0793

Score 252.8066 7 <.0001

Wald 229.0238 7 <.0001

Analysis of maximum Likelihood estimates

Intercept 1 -0.0665 0.2412 0.0760 0.7828 SEXO 1 1 1.1206 0.1040 116.0274 <.0001 Comechimo 2 1 0.4096 0.1077 14.4639 0.0001 Fumaactu 1 1 -0.3223 0.1151 7.8333 0.0051 toma 1 1 0.00803 0.1244 0.0042 0.9485 Edad 1 -0.0715 0.0129 30.7440 <.0001 Edad 2 1 0.000884 0.000147 36.1823 <.0001 Resultad 1 1 0.2556 0.1432 3.1870 0.0742

GL: Grados de Libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-Cuadrado

Tabla 6

Ajuste de modelo incluyendo el término

Cuadrático para la variable Edad usando las tres estrategias Contraste de la hipótesis nula global: BETA=0

Score 249.8648 5 <.0001

(8)

Intercept 1 -0.0937 0.2395 0.1532 0.6955 SEXO 1 1 1.1212 0.0940 142.3389 <.0001 Comechimo 2 1 0.4266 0.1071 15.8683 <.0001 FUMAACTU 1 1 -0.3227 0.1127 8.1943 0.0042 EDAD 1 -0.0695 0.0127 29.8656 <.0001 EDAD 2 1 0.000874 0.000145 36.2290 <.0001

Test residual chi-cuadrado

Chi-Square GL Pr > ChiSq

3.1957 2 0.2023

Partición para el test de Hosmer y Lemeshow

ekg1 = 1 ekg1 = 2

Grupo Total Observado Esperado Observado Esperado

1 233 40 37.43 193 195.57 2 236 44 45.03 192 190.97 3 231 44 47.98 187 183.02 4 238 56 56.68 182 181.32 5 233 54 63.04 179 169.96 6 234 80 75.64 154 158.36 7 234 89 96.27 145 137.73 8 240 129 112.71 111 127.29 9 246 142 131.28 104 114.72 10 211 125 136.93 86 74.07

Test de bondad de ajuste de Hosmer y Lemeshow

Chi-Square GL Pr > ChiSq 13.0244 8 0.1110

GL: Grados de libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-cuadrado

Comparando los deviances de los modelos lineal y cuadrático en la va-riable edad, 1106.7611-1069.6080 =37.1531, podemos indicar que este término es significativo.

Un modelo con interacción

Con base en el resultado obtenido en la sesión anterior, se propone el

(9)

Tabla 7

Ajuste de modelo con interacción Contraste de la hipótesis nula global: BETA=0

Likelihood ratio 260.0263 6 <.0001

Score 254.8781 6 <.0001

Wald 232.3186 6 <.0001

Parámetro GL Estimación Error Chi-Square Pr > ChiSq

Intercept 1 -0.1614 0.2418 0.4454 0.5045 Sexo 1 1 1.2969 0.1140 129.3352 <.0001 Comechimo 2 1 0.7119 0.1476 23.2673 <.0001 Fumaactu 1 1 -0.3018 0.1128 7.1536 0.0075 Sexo*Comechimo 1 2 1 -0.5466 0.1979 7.6317 0.0057 Edad 1 -0.0699 0.0128 30.0554 <.0001 Edad 2 1 0.000875 0.000145 36.2049 <.0001

Estimaciones de las razones de posibilidades3

Point 95% Wald

Effect Estimación Confidence Limits

Fumaactu 1 vs 2 0.740 0.593 0.923

Edad 0.932 0.909 0.956

Edad 2 1.001 1.001 1.001

Test residual chi-cuadrado

Chi-Square GL Pr > ChiSq

1.9477 3 0.5833

Resumen de la selección hacia delante

Paso Efecto Entrante GL In ChiSq Pr > ChiSq Etiqueta

1 Sexo 1 1 173.5261 <.0001 Sexo 2 Edad2 1 2 25.1850 <.0001 Edad2 3 Edad 1 3 31.6636 <.0001 Edad 4 Comechimo 1 4 15.4864 <.0001 5 Sexo*Comechimo 1 5 8.7434 0.0031 6 Fumaactu 1 6 7.1774 0.0074 umaactu

Test de bondad de ajuste de Hosmer y Lemeshow

Chi-Square GL Pr > ChiSq

7.8173 8 0.4515

GL: Grados de libertad. E.E. Error estándar Pr: Probabilidad. Chisq: Chi-Cuadrado

(10)

El procedimiento de selección de variables hacia adelante propone como modelo apropiado aquél que involucra las variables sexo, come chimó, fuma actualmente, los térmi-nos lineal y cuadrático de edad y la interacción sexo*come chimó. Esto es, el modelo a considerar está dado por

Log it (π_ijk) = –0.161 +

1.297sexo+0.712comechimo – 0.302 fumaactu – 0.547sexo*comechimo – 0.070edad + 0.00087edad2

Ahora bien, lo adecuado de este modelo a los datos es sustentado por la prueba ji al cuadrado residual (p=0,5833) comparado con un ji al cua-drado de tres grados de libertad y la prueba de bondad de ajuste de Hosmer y Lemeshow (p=0,4515) comparado con una ji al cuadrado de ocho grados de libertad. Por lo tanto, este modelo representa el modelo definitivo.

Interpretación de los coeficientes

del modelo

Para interpretar los resultados ob-tenidos es necesario indicar que los niveles sexo=femenino, come chimó=no y fuma actualmente=no, representan los niveles de referencia usados para las variables cualitativas. Comenzaremos con la interpreta-ción de los coeficientes de aquellas variables cualitativas que no están involucradas en la interacción, como es

lo apropiado. El valor –0,3018 (e-0.3018

= 0.7395) asociado con la variable fuma actualmente, indica que el no fumar dis-minuye la posibilidad de tener proble-mas electrocardiográficos en un 26,05%. Dado que la interacción sexo*come chimó resultó significativa, carece de sentido interpretar los coeficientes de sexo y come chimó por separado. La forma de actuar es comparar los nive-les de una variable manteniendo cons-tante la otra en un nivel determinado. De esta forma, se tiene que:

• En el grupo de individuos que no

consumen chimó, los hombres

tie-nen casi cuatro veces (e1.2969₌

3.658) más posibilidades de pre-sentar problemas electrocardiográ-ficos que las mujeres.

• En el grupo de individuos que

con-sumen chimó, las posibilidades de que los hombres presenten proble-mas electrocardiográficos se

incrementa en un 111,76% (e

1.2969-0.5466_{= 2.1176) con respecto a las} de las mujeres. Esto es, las posibi-lidades de que un hombre presente problemas electrocardiográficos es más de dos veces de las posibilida-des que las presente una mujer.

• En el grupo de las mujeres, el

con-sumir chimó incrementa en un

103,4% (e0.7119_{= 2.034) las}

posibi-lidades de tener problemas electro-cardiográficos.

• En el grupo de los hombres, el

(11)

posibilidades de presentar altera-ciones electrocardiográficas en un

17,98% (e0.7119-0.5466_{= 1.1798).}

Para interpretar los coeficientes re-lacionados con la edad, debemos usar un mecanismo que permita medir el cambio que ocurre en los logit o en las posibilidades, por cada unidad en la que se incrementa la edad. Una for-ma es derivando, otra forfor-ma es obte-niendo el cociente entre las posibilidades en edad y edad+1. Esta segunda resulta, por lo general, más sencilla.

En nuestro caso este cociente es equivalente a: e log it₍π ijk) = e–0.0699 + 0.000875 + 2*0.00087edad_{= e}–0.069025 + 0.001edad e log it₍π ijk)

Podemos ver, entonces, que las posibilidades de presentar problemas electrocardiográficos es una función creciente de la edad, es decir, a medi-da que se incrementa la emedi-dad, mayor es esa posibilidad.

Conclusiones

1. El fumar incrementa las posibilida-des de presentar anormalidaposibilida-des electrocardiográficas en un 26,1%. 2. El hombre tiene más posibilidades que la mujer de presentar cardio-miopatía clínica.

3. Entre los hombres, el grupo con mayores posibilidades de presen-tar cardiomiopatía clínica es el que consume chimó: 17,98% más que los que no consumen chimó.

4. El consumo de chimó afecta en mayor grado a las mujeres que a los hombres.

5. Las posibilidades de presentar pro-blemas electrocardiográficos es una función creciente de la edad. 6. El consumo de chimó, la edad y el

sexo son variables de gran impor-tancia en la explicación de la pre-sencia de cardiomiopatía clínica, mientras que el consumo de alco-hol y la seropositividad a Trypano-soma cruzi son irrelevantes.

Bibliografía

1. Dumett MA. Modelos lineales

genera-lizados. Bogotá: Universidad Nacional

de Colombia, Departamento de Mate-máticas y Estadística; (1995).

2. Hosmer DW, Lemeshow S. Applied

logistic regression. Second edition.

New York: John Wiley & Sons; 2000. 3. López LA, Rincón LF. Modelo lineal.

Bogotá: Universidad Nacional de Co-lombia, Departamento de Matemáticas y Estadística; 1999.

4. Rodríguez G. Generalized lnear

models. Princeton: Princeton

(12)

5. Solomon PR. Guía para redactar

in-formes de investigación. México:

Edi-torial Trillas; 1998.

6. Stokes ME, Davis CS, Koch GG.

Categorical data analysis using the SAS system. Cary, N.C.: SAS Institute,