MODELOS LOGARÍTMICOS
LINEALES
Ignacio Méndez Gómez Humarán
• En diversos estudios de asociación, se tiene identificado de manera clara una variable respuesta (Y), y un conjunto de variables predictivas (X1,...,Xk)
• En algunos casos no están identificadas cuales son independientes o dependientes, todas las variables se consideran respuestas.
• Los modelos log-lineales son útiles para estudiar la asociación entre tres o más variables categóricas.
Los modelos log-lineales no tienen distinción entre variables de respuesta y variables explicativas.
En el modelo se consideran ambas variables como respuestas que modelan las frecuencias de las celdas.
Estos modelos, que son también Modelos Lineales
Generalizados, tratan a las frecuencias como
observaciones de una distribución de probabilidad dada, comúnmente se usa la Poisson.
MODELOS LOG-LINEALES
Supongamos una tabla de contingencia I x J que clasifica de manera cruzada n casos.
Cuando las frecuencias de las categorías son
estadísticamente independientes, las probabilidades πij conjuntas se pueden determinar por los marginales de renglón y columna:
Las probabilidades por celda πij son parámetros de una distribución multinomial.
Los moldeos Log-lineales utilizan las frecuencias de celda:
µ
ij
= n
π
ij
A lo cual es aplicable una distribución Poisson para las frecuencias esperadas µij . Bajo el supuesto de independencia tenemos que:
Sea X la variable categórica en los i renglones renglones y Y la variable categórica en las j columnas.
Notese que la condición de independencia se representa por: µij = n πi. π.j, es multiplicativa.
Tomando el logaritmo en ambos lados de la ecuación tenemos un modelo de relación aditiva.
Esto es, log(µij) es función un termino referente al tamaño de muestra, uno referente a la probabilidad en el renglón i, y otro referente a la probabilidad en la columna j.
Por lo tanto, el modelo de independencia es:
log(µij) = log(n) + log(πi.) + log(π.j)
log(µij) = λ + λi Xi + λj Yj
Para un efecto de renglón λi Xi y un efecto de columna
λj Yj.
Este es el modelo de Independencia. A mayor valor del parámetro λi Xi se espera mayor frecuencia esperada
en la categoría i en la variable X. Esto mismo ocurre
para los valores λj Yj como efectos en las frecuencias
La hipótesis nula de independencia es equivalentemente a la hipótesis de que el modelo
log-lineal propuesto es el que ajusta
adecuadamente.
Los valores ajustados que satisfacen el modelo son:
µij = (ni. n.j )/n
Estas son las mismas frecuencias esperadas estimadas para la prueba de independencia 2
(tablas de contingencia). Esas pruebas de “Bondad de Ajuste” son las mismas que se usan para este modelo log-lineal.
Modelo saturado para una tabla de dos criterios:
Las variables
X
y
Y
cuando son
estadísticamente
dependientes
, satisfacen modelos log-lineales mas
complejos, en este caso es:
log(
µ
ij) =
λ + λ
iX
i+
λ
jY
j+
λ
ijXY
ijEl
cual
considera
un
efecto
combinado
(interacción)
λ
ijXY
ij, que implica
“asociación de las
variables”
. Es decir que el efecto de las categorías
una variable depende de los niveles de la otra.
• Para determinar la existencia de asociaciones entre variables se utiliza como medida la Razón de Momios, (odds ratio, OR)
• Una Razón de momios de 1 significa que no hay asociación
• Los Modelos Log-lineales utilizan los coeficientes de regresión como exponentes en el modelo. Entonces, pruebas sobre la igualdad OR = 1, es equivalente a probar si los coeficientes de regresión son 0 (esto es equivalente a el caso de la regresión logística)
• Para una tabla parcial dada, OR=eb, los paquetes estadísticos estiman y prueban la hipótesis b = 0
Existe una relación directa entre la Razón de Momios y los parámetros de asociación λijXYij:
= (λ + λ1X1 + λ1Y1 + λ11XY11 ) + (λ + λ2X2 + λ2 Y2 + λ22XY22) - (λ + λ1X1 + λ2Y2 + λ12XY12) - (λ + λ2 X2 + λ1Y1 + λ21XY21)
= λ
11XY
11+ λ
22XY
22- λ
12XY
12- λ
21XY
21Por lo tanto si los parámetros son iguales a cero, la
razón de momios es uno y entonces X y Y son
independientes.
11
22
12
21 21 12 22 11 log log log log loglog
Ejemplo: Se tienen 3 variables (X,Y,Z) cada una con 2 niveles
• Se pueden organizar en una Tabla de contingencia 2x2x2
• Modelos Jerárquicos:
1. Todas las variables son condicionalmente independientes
2. Dos pares de variables son condicionalmente independientes
3. Uno de los pares es condicionalmente independiente
4. Ningún par es condicionalmente independiente, pero cada asociación es constante para los niveles de la tercera variable (no interacción o asociación homogénea)
5. Todos los pares están asociados, y las asociaciones son diferentes para los niveles de la tercera variable
Representación de los modelos jerárquicos para las 3 variables (X,Y,Z) :
1. X + Y + Z
2. X + Y + Z + XY
3. X + Y + Z + XY + XZ
4. X + Y + Z + XY + XZ + YZ
Ejemplo – Personalidad Femenina/Comportamiento
3 Variables, cada una a 2 niveles (Tabla de frecuencias):
Rasgos de personalidad femenina (Moderna/Tradicional) Rol de la mujer en la pareja (Moderna/Tradicional)
Nivel socioeconómico (Bajo/Alto)
Nivel Socio-económico
--- Bajo --- Alto
---Rol en la pareja Rol en la pareja
Personalidad Tradicional Moderna Tradicional Moderna
Tradicional 53 21 35 10
• El análisis de tablas de contingencias por pares de variables (bi-variado), sugiere que existe asociación entre la personalidad y el rol en la pareja. Esto podría ser diferente en un esquema multivariado.
• Si ajustamos el modelo que considera todas las asociaciones por pares y estimamos las frecuencias esperadas tenemos que:
Note que en no interacción, la razón de momios es igual en cada NSE.
Nivel Socio-económico
--- Bajo --- Alto
---Rol en la pareja Rol en la pareja
Personalidad Tradicional Moderna Tradicional Moderna
Tradicional 54.1 19.9 33.9 11.1
Moderna 23.9 34.1 14.1 17.9
88 . 3 ) 1 . 11 ( 1 . 14 ) 9 . 17 ( 9 . 33 : Alto NSE 88 . 3 ) 9 . 19 ( 9 . 23 ) 1 . 34 ( 1 . 54 : Bajo NSE OR OR
• Lo mismo ocurre para las razones de momios para Personalidad y NSE fijando Rol en la pareja:
• Y para Rol y NSE fijando personalidad:
06
.
1
)
1
.
54
(
1
.
14
)
9
.
33
(
9
.
23
:
T
Rol
06
.
1
)
9
.
19
(
9
.
17
)
1
.
11
(
1
.
34
:
M
Rol
OR
OR
12 . 1 ) 1 . 54 ( 1 . 11 ) 9 . 33 ( 9 . 19 : T ad Personalid 12 . 1 ) 9 . 23 ( 9 . 17 ) 1 . 14 ( 1 . 34 : M ad Personalid OR OR•
Resultados intuitivos:
– Controlando por NSE, existe asociación entre personalidad y rol en la pareja: (ORBajo=ORAlto=3.88)
– Controlando por rol en la pareja no existe asociación entre personalidad y NSE
(ORModerno= ORTradicional=1.06)
– Controlando por personalidad, no existe asociación entre rol en la pareja y NSE
•Los paquetes estadísticos ajustan modelos donde el coeficiente es directamente el logaritmo de la razón de momios, de modo que estos se obtienen con los coeficientes exponenciados
e1.3554 = 3.88 e0.0605 = 1.06 e0.1166 = 1.12
Poisson regression Number of obs = 8
LR chi2(6) = 49.58
Prob > chi2 = 0.000
Log likelihood = -20.167931 Pseudo R2 = 0.5514
Freq Coef. Std. Err. z P>z [95% Conf. Interval]
Pers -0.8168874 0.2256177 -3.62 0.000 -1.25909 -0.3746849
rol -1.000037 0.2377039 -4.21 0.000 -1.465928 -0.5341454
NSE -0.4673648 0.204993 -2.28 0.023 -0.8691437 -0.0655859
PxR 1.355375 0.2987179 4.54 0.000 0.7698986 1.940851
PxN -0.0604666 0.3063574 -0.2 0.844 -0.660916 0.5399828
RxN -0.1165688 0.3106628 -0.38 0.707 -0.7254568 0.4923192
• Para cada modelo log-lineal, se tiene una tabla de contingencia de frecuencias observadas (fo) y esperadas (fe).
• Se utilizan dos estadísticos para evaluar el ajuste del modelo a los datos, estos son:
• la Ji-cuadrada de Pearson:
• La Ji- cuadrada de razón de verosimilitud (Devianza):
Estadísticos de bondad de ajuste
e e of
f
f
22
(
)
e o of
f
f
• Hipótesis nula: El modelo propuesto es el apropiado
• Hipótesis alterna: El modelo es mas complejo
• Grados de libertad: Numero de celdas-Numero de parámetros en el modelo
• La distribución del estadístico de prueba bajo la hipótesis nula es Ji-cuadrada con los grados de libertad dados
Prueba de bondad de ajuste para todos los
modelos posibles:
El modelo mas simple en el que no se rechaza la hipótesis nula es el mas adecuado para representar las frecuencias observadas, este es: (N,PR), esto significa que la Personalidad y el Rol en la pareja son el único par de variables que muestra asociación.
En R se usa: 1-pchisq(nommod$deviance, nommod$df.residual)
Modelo G2 2 gl P ≥ (G2) P ≥ (2) (P,R,N) 22.21 22.46 4 0.0002 0.0002
(N,PR) 0.7199 0.7232 3 0.8685 0.8677 (P,RN) 21.99 22.24 3 0.00007 0.00006 (R,PN) 22.04 22.34 3 0.00006 0.00006 (RN,PN) 22.93 22.13 2 0.00002 0.00002 (PN,PR) 0.6024 0.6106 2 0.7399 0.7369 (RN,PR) 0.5047 0.5085 2 0.777 0.7755 (PN,RN,PR) 0.4644 0.4695 1 0.4946 0.4932
•
Los residuales ajustados son las diferencias
estandarizadas
entre
las
frecuencias
observadas y esperadas (
f
o-f
e, divididas
ente el error estándar).
•
Residuales ajustados grandes (mayores a 2
o 3 en valor absoluto) representan celdas
que muestran perdida de ajuste en el
modelo.
• Comparación de series de modelos que incrementan la complejidad
• Se resta la devianza (G2) de los modelos (el modelo
menos complejo menos la del mas complejo)
• Se restan los grados de libertad en el mismo sentido
• Bajo la hipótesis de que el modelo reducido (menos complejo) es adecuado, la diferencia sigue una distribución Ji-cuadrada.
• Si comparamos el modelo donde solo se asocian la personalidad y el rol en la pareja (Modelo Reducido) con el modelo que considera la asociación de todos los posibles pares sin interacción (Modelo completo).
• Modelo Reducido (N,PR): G2=0.7232, df=3
• Modelo Completo (CP,CR,PR): G2=0.4695, df=1
• Diferencia: 0.7232-0.4695=0.2537, df=3-1=2
• Valor critico: (=0.05) = 5.99