• No se han encontrado resultados

Modelos Log Lineales_b

N/A
N/A
Protected

Academic year: 2020

Share "Modelos Log Lineales_b"

Copied!
24
0
0

Texto completo

(1)

MODELOS LOGARÍTMICOS

LINEALES

Ignacio Méndez Gómez Humarán

(2)

• En diversos estudios de asociación, se tiene identificado de manera clara una variable respuesta (Y), y un conjunto de variables predictivas (X1,...,Xk)

• En algunos casos no están identificadas cuales son independientes o dependientes, todas las variables se consideran respuestas.

• Los modelos log-lineales son útiles para estudiar la asociación entre tres o más variables categóricas.

(3)

Los modelos log-lineales no tienen distinción entre variables de respuesta y variables explicativas.

En el modelo se consideran ambas variables como respuestas que modelan las frecuencias de las celdas.

Estos modelos, que son también Modelos Lineales

Generalizados, tratan a las frecuencias como

observaciones de una distribución de probabilidad dada, comúnmente se usa la Poisson.

(4)

MODELOS LOG-LINEALES

Supongamos una tabla de contingencia I x J que clasifica de manera cruzada n casos.

Cuando las frecuencias de las categorías son

estadísticamente independientes, las probabilidades πij conjuntas se pueden determinar por los marginales de renglón y columna:

(5)

Las probabilidades por celda πij son parámetros de una distribución multinomial.

Los moldeos Log-lineales utilizan las frecuencias de celda:

µ

ij

= n

π

ij

A lo cual es aplicable una distribución Poisson para las frecuencias esperadas µij . Bajo el supuesto de independencia tenemos que:

(6)

Sea X la variable categórica en los i renglones renglones y Y la variable categórica en las j columnas.

Notese que la condición de independencia se representa por: µij = n πi. π.j, es multiplicativa.

Tomando el logaritmo en ambos lados de la ecuación tenemos un modelo de relación aditiva.

Esto es, log(µij) es función un termino referente al tamaño de muestra, uno referente a la probabilidad en el renglón i, y otro referente a la probabilidad en la columna j.

(7)

Por lo tanto, el modelo de independencia es:

log(µij) = log(n) + log(πi.) + log(π.j)

log(µij) = λ + λi Xi + λj Yj

Para un efecto de renglón λi Xi y un efecto de columna

λj Yj.

Este es el modelo de Independencia. A mayor valor del parámetro λi Xi se espera mayor frecuencia esperada

en la categoría i en la variable X. Esto mismo ocurre

para los valores λj Yj como efectos en las frecuencias

(8)

La hipótesis nula de independencia es equivalentemente a la hipótesis de que el modelo

log-lineal propuesto es el que ajusta

adecuadamente.

Los valores ajustados que satisfacen el modelo son:

µij = (ni. n.j )/n

Estas son las mismas frecuencias esperadas estimadas para la prueba de independencia 2

(tablas de contingencia). Esas pruebas de “Bondad de Ajuste” son las mismas que se usan para este modelo log-lineal.

(9)

Modelo saturado para una tabla de dos criterios:

Las variables

X

y

Y

cuando son

estadísticamente

dependientes

, satisfacen modelos log-lineales mas

complejos, en este caso es:

log(

µ

ij

) =

λ + λ

i

X

i

+

λ

j

Y

j

+

λ

ij

XY

ij

El

cual

considera

un

efecto

combinado

(interacción)

λ

ij

XY

ij

, que implica

“asociación de las

variables”

. Es decir que el efecto de las categorías

una variable depende de los niveles de la otra.

(10)

• Para determinar la existencia de asociaciones entre variables se utiliza como medida la Razón de Momios, (odds ratio, OR)

• Una Razón de momios de 1 significa que no hay asociación

• Los Modelos Log-lineales utilizan los coeficientes de regresión como exponentes en el modelo. Entonces, pruebas sobre la igualdad OR = 1, es equivalente a probar si los coeficientes de regresión son 0 (esto es equivalente a el caso de la regresión logística)

• Para una tabla parcial dada, OR=eb, los paquetes estadísticos estiman y prueban la hipótesis b = 0

(11)

Existe una relación directa entre la Razón de Momios y los parámetros de asociación λijXYij:

= (λ + λ1X1 + λ1Y1 + λ11XY11 ) + (λ + λ2X2 + λ2 Y2 + λ22XY22) - (λ + λ1X1 + λ2Y2 + λ12XY12) - (λ + λ2 X2 + λ1Y1 + λ21XY21)

= λ

11

XY

11

+ λ

22

XY

22

- λ

12

XY

12

- λ

21

XY

21

Por lo tanto si los parámetros son iguales a cero, la

razón de momios es uno y entonces X y Y son

independientes.

 

11

 

22

 

12

 

21 21 12 22 11 log log log log log

log

          

(12)

Ejemplo: Se tienen 3 variables (X,Y,Z) cada una con 2 niveles

• Se pueden organizar en una Tabla de contingencia 2x2x2

• Modelos Jerárquicos:

1. Todas las variables son condicionalmente independientes

2. Dos pares de variables son condicionalmente independientes

3. Uno de los pares es condicionalmente independiente

4. Ningún par es condicionalmente independiente, pero cada asociación es constante para los niveles de la tercera variable (no interacción o asociación homogénea)

5. Todos los pares están asociados, y las asociaciones son diferentes para los niveles de la tercera variable

(13)

Representación de los modelos jerárquicos para las 3 variables (X,Y,Z) :

1. X + Y + Z

2. X + Y + Z + XY

3. X + Y + Z + XY + XZ

4. X + Y + Z + XY + XZ + YZ

(14)

Ejemplo – Personalidad Femenina/Comportamiento

3 Variables, cada una a 2 niveles (Tabla de frecuencias):

Rasgos de personalidad femenina (Moderna/Tradicional) Rol de la mujer en la pareja (Moderna/Tradicional)

Nivel socioeconómico (Bajo/Alto)

Nivel Socio-económico

--- Bajo --- Alto

---Rol en la pareja Rol en la pareja

Personalidad Tradicional Moderna Tradicional Moderna

Tradicional 53 21 35 10

(15)

• El análisis de tablas de contingencias por pares de variables (bi-variado), sugiere que existe asociación entre la personalidad y el rol en la pareja. Esto podría ser diferente en un esquema multivariado.

• Si ajustamos el modelo que considera todas las asociaciones por pares y estimamos las frecuencias esperadas tenemos que:

Note que en no interacción, la razón de momios es igual en cada NSE.

Nivel Socio-económico

--- Bajo --- Alto

---Rol en la pareja Rol en la pareja

Personalidad Tradicional Moderna Tradicional Moderna

Tradicional 54.1 19.9 33.9 11.1

Moderna 23.9 34.1 14.1 17.9

88 . 3 ) 1 . 11 ( 1 . 14 ) 9 . 17 ( 9 . 33 : Alto NSE 88 . 3 ) 9 . 19 ( 9 . 23 ) 1 . 34 ( 1 . 54 : Bajo NSE       OR OR

(16)

• Lo mismo ocurre para las razones de momios para Personalidad y NSE fijando Rol en la pareja:

• Y para Rol y NSE fijando personalidad:

06

.

1

)

1

.

54

(

1

.

14

)

9

.

33

(

9

.

23

:

T

Rol

06

.

1

)

9

.

19

(

9

.

17

)

1

.

11

(

1

.

34

:

M

Rol

OR

OR

12 . 1 ) 1 . 54 ( 1 . 11 ) 9 . 33 ( 9 . 19 : T ad Personalid 12 . 1 ) 9 . 23 ( 9 . 17 ) 1 . 14 ( 1 . 34 : M ad Personalid       OR OR

(17)

Resultados intuitivos:

– Controlando por NSE, existe asociación entre personalidad y rol en la pareja: (ORBajo=ORAlto=3.88)

– Controlando por rol en la pareja no existe asociación entre personalidad y NSE

(ORModerno= ORTradicional=1.06)

– Controlando por personalidad, no existe asociación entre rol en la pareja y NSE

(18)

•Los paquetes estadísticos ajustan modelos donde el coeficiente es directamente el logaritmo de la razón de momios, de modo que estos se obtienen con los coeficientes exponenciados

e1.3554 = 3.88 e0.0605 = 1.06 e0.1166 = 1.12

Poisson regression Number of obs = 8

LR chi2(6) = 49.58

Prob > chi2 = 0.000

Log likelihood = -20.167931 Pseudo R2 = 0.5514

Freq Coef. Std. Err. z P>z [95% Conf. Interval]

Pers -0.8168874 0.2256177 -3.62 0.000 -1.25909 -0.3746849

rol -1.000037 0.2377039 -4.21 0.000 -1.465928 -0.5341454

NSE -0.4673648 0.204993 -2.28 0.023 -0.8691437 -0.0655859

PxR 1.355375 0.2987179 4.54 0.000 0.7698986 1.940851

PxN -0.0604666 0.3063574 -0.2 0.844 -0.660916 0.5399828

RxN -0.1165688 0.3106628 -0.38 0.707 -0.7254568 0.4923192

(19)

• Para cada modelo log-lineal, se tiene una tabla de contingencia de frecuencias observadas (fo) y esperadas (fe).

• Se utilizan dos estadísticos para evaluar el ajuste del modelo a los datos, estos son:

la Ji-cuadrada de Pearson:

La Ji- cuadrada de razón de verosimilitud (Devianza):

Estadísticos de bondad de ajuste

e e o

f

f

f

2

2

(

)





e o o

f

f

f

(20)

• Hipótesis nula: El modelo propuesto es el apropiado

• Hipótesis alterna: El modelo es mas complejo

• Grados de libertad: Numero de celdas-Numero de parámetros en el modelo

• La distribución del estadístico de prueba bajo la hipótesis nula es Ji-cuadrada con los grados de libertad dados

(21)

Prueba de bondad de ajuste para todos los

modelos posibles:

El modelo mas simple en el que no se rechaza la hipótesis nula es el mas adecuado para representar las frecuencias observadas, este es: (N,PR), esto significa que la Personalidad y el Rol en la pareja son el único par de variables que muestra asociación.

En R se usa: 1-pchisq(nommod$deviance, nommod$df.residual)

Modelo G2 2 gl P ≥ (G2) P ≥ (2) (P,R,N) 22.21 22.46 4 0.0002 0.0002

(N,PR) 0.7199 0.7232 3 0.8685 0.8677 (P,RN) 21.99 22.24 3 0.00007 0.00006 (R,PN) 22.04 22.34 3 0.00006 0.00006 (RN,PN) 22.93 22.13 2 0.00002 0.00002 (PN,PR) 0.6024 0.6106 2 0.7399 0.7369 (RN,PR) 0.5047 0.5085 2 0.777 0.7755 (PN,RN,PR) 0.4644 0.4695 1 0.4946 0.4932

(22)

Los residuales ajustados son las diferencias

estandarizadas

entre

las

frecuencias

observadas y esperadas (

f

o

-f

e

, divididas

ente el error estándar).

Residuales ajustados grandes (mayores a 2

o 3 en valor absoluto) representan celdas

que muestran perdida de ajuste en el

modelo.

(23)

• Comparación de series de modelos que incrementan la complejidad

• Se resta la devianza (G2) de los modelos (el modelo

menos complejo menos la del mas complejo)

• Se restan los grados de libertad en el mismo sentido

• Bajo la hipótesis de que el modelo reducido (menos complejo) es adecuado, la diferencia sigue una distribución Ji-cuadrada.

(24)

• Si comparamos el modelo donde solo se asocian la personalidad y el rol en la pareja (Modelo Reducido) con el modelo que considera la asociación de todos los posibles pares sin interacción (Modelo completo).

• Modelo Reducido (N,PR): G2=0.7232, df=3

• Modelo Completo (CP,CR,PR): G2=0.4695, df=1

• Diferencia: 0.7232-0.4695=0.2537, df=3-1=2

• Valor critico: (=0.05) = 5.99

Referencias

Documento similar

La presente revisión se centra en las características de los modelos animales químicamente inducidos, de implantación y de los modelos de los modelos animales químicamente

En este hito, se han valorado, implementando y ejecutando modelos matemáticos que consisten en pretratamiento de datos, selección de variables y modelos de regresión

En este trabajo se va a incorporar nueva funcionalidad a este paquete, permitiendo a los usuarios especifcar tasas de muerte de los distintos genotipos que se especifquen, así

En principio, no se conforma con un mero modus vivendi, sino que desea defender un principio moral de tolerancia basado en una concepción liberal de ciudadanía -que incluye, junto

SVMs applied to a regression problem perform a linear regression in the feature space using the -insensitive loss as cost function and, at the same time, regularizing the weights

La implementación de estos modelos tiene como objetivo el estudio de los modelos justificando su elección, seleccionar aquellas variables biométricas que sean más

Este artículo describe tres modelos de enseñanza y aprendizaje diferentes para Ciencia de Datos, inspirados en el paradigma del aprendizaje experiencial.. Además, estos modelos han

Teniendo en cuenta todo lo anterior, este trabajo partirá de algunas ideas presen- tadas no del todo conexas entre sí a lo largo del Grado en Estadística (modelo lineal normal,