BIOMETRÍA II
CLASE 19
MODELOS LINEALES GENERALIZADOS
MODELOS INFLADOS EN CERO
Adriana Pérez
Depto de Ecología, Genética y Evolución FECN, UBA
Datos truncados o censurados
Cuando por distintas razones, la variable no puede tomar ciertos valores que son posibles para su distribución
Pueden existir truncamientos a la izquierda, a la derecha o dobles
Por ejemplo: riqueza de aves en áreas boscosas. Truncada en cero y
truncada en un máximo por razones biogeográficas, de competencia, etc
Las razones pueden ser por la naturaleza de la propia variable, razones biológicas, por el diseño del ensayo, por la forma de registrar la variable, etc
2
Variables continuas truncadas en cero
No es posible obtener cero como respuesta
Ejemplos: mediciones de compuestos por debajo del límite de detección;
tiempo hasta la aparición de cierto evento; distancia al vecino más cercano.
Se utiliza la distribución gamma, que representa una buena aproximación al fenómeno
Y>0
Distribución asimétrica positiva
Varianza no constante; coeficiente de variación constante
glm, link: inversa (1/Y)
3
glm(Y ~ X, family = gamma)
Variables discretas truncadas en cero
No es posible obtener cero como respuesta
Ejemplos: riqueza de aves por unidad de área; nro de raíces por planta
La distribución de probabilidades teórica puede tener un pobre ajuste, en cuyo caso las estimaciones estarán sesgadas
4
Si el valor esperado de la variable está lejos de 0, un modelo Poisson puede
funcionar
adecuadamente, ya que no predecirá
muchos ceros. Pero sí hay problemas
cuando el valor esperado está cercano a 0
Poisson truncada en cero
Se diagnóstica a partir de patrones en los gráficos de residuos vs predichos
¿Cómo se resuelve? Se ajusta las función de probabilidad de Poisson para excluir la probabilidad de observaciones nulas. Luego, procedimientos habituales
library(VGAM)
vglm(Y ~ X, family = pospoisson(), data)
Si se detecta sobredispersión se puede utilizar binomial negativa truncada en cero:
vglm(Y ~ X, family = posnegbinomial(), data)
También puede utilizarse la librería glmmTMB
5
Modelos con exceso de ceros
6
Hay más ceros en los valores observados que los esperados por la distribución.
Por ej: abundancia de una especie de ave en parches de vegetación
Causas:
1. estructurales. no está presente en un parche porque el hábitat no es el adecuado.
2. errores en el diseño, debidos a un pobre diseño experimental o muestral. Por ejemplo, si buscamos a una especie en una época en la los individuos se
encuentran en otro sitio (e.g. golondrinas en invierno), es muy probable que nuestros conteos contengan una gran proporción de ceros. Otro error de este tipo es muestrear durante demasiado poco tiempo, o a una escala espacial inadecuada.
3. errores de observador. Esto ocurre cuando dos especies son similares y el observador no sabe distinguirlas, o cuando son difíciles de detectar.
4. error aleatorio: el hábitat es el adecuado, pero el pájaro no está presente.
verdaderos negativos
falsos negativos
Estrategias para modelar el exceso de ceros
Modelos mezclados o inflados en ceros
Es una mezcla de distribuciones. Asumen que los ceros proceden de dos procesos distintos: el proceso Bernoulli y el proceso de Poisson.
Proceso Bernoulli: modela la probabilidad de observar un falso 0.
Proceso Poisson: modela la ocurrencia del resto de valores, incluyendo los verdaderos ceros
Si se observa sobredispersión, se puede solucionar reemplazando Poisson por binomial negativa.
Modelos ZIP (Zero Inflated Poisson) o ZINB (Zero Inflated negative binomial).
7
library(pscl)
zeroinfl(Y ∼ X, dist = "poisson", link = "logit“) zeroinfl(Y ∼ X, dist = “negbin", link = "logit“)
Estrategias para modelar el exceso de ceros
Modelos en dos partes, hurdle o alterados por ceros
Asumen que todos los ceros son iguales (sin distinguir entre falsos y verdaderos)
Se modela en dos partes:
1- Presencia/ausencia de ceros utilizando Bernoulli
2- Para las restantes observaciones (>0) se modela la abundancia utilizando Poisson truncada en 0
Si se observa sobredispersión, se puede solucionar reemplazando Poisson por binomial negativa.
Modelos ZAP (Zero Altered Poisson) o ZANB (Zero Altered negative binomial).
8
library(pscl)
hurdle(Y ∼ X, dist = “poisson", link = "logit“) hurdle(Y ∼ X, dist = “negbin", link = "logit“)
9
Modelos inflados en cero
Al contar hipopótamos/sitio, se puede obtener un cero debido a un mal diseño experimental, debido a observadores sin experiencia o a observadores experimentados, pero con especies difíciles de observar (falsos ceros) o a que el hábitat no es bueno (verdaderos ceros)
Modelos hurdle: Hay dos procesos;
uno es responsable de la presencia / ausencia, el otro proceso está
explicando los recuentos > cero. El modelo no hace una distinción entre los diferentes tipos de ceros
Zuur et al, 2009
10
Mezclas de distribuciones finitas
Las observaciones provienen de distintas distribuciones. Puede ser el mismo tipo de distribución (por ejemplo normal) pero distintos
parámetros, o pueden ser distribuciones distintas (por ejemplo Bernoulli y Poisson)
Se parametrizan con los parámetros de cada componente, mas las probabilidades o proporciones de cada componente de la mezcla
11
70% Normal (μ =1, σ=2), 30% Normal(μ =5, σ=1) 50% Bernoulli (=0,5), 50% Poisson (μ=6)
Poisson inflada en cero
Ambas distribuciones pueden producir ceros
Las VE que explican los ceros pueden ser distintas
No se especifica en las observaciones cuáles se sospecha que son ceros
verdaderos y cuáles falsos
12
) 0 (
) 1
( ) 0 (
) 0 (
) 1
( )
0 (
Y P
Y P
Y P
Y P
Poisson i
Poisson i
i
P(falso cero)
La esperanza es menor a µ
La varianza es > E(Y) (sobredispersión) y ~ x1 + x2 | z1 + z2 + z3, giving the count data
model y ~ x1 + x2 conditional on (|) the zero hurdle model y ~ z1 + z2 + z3
Modelos en dos partes, hurdle o alterados por ceros
Dos procesos:
1- Proceso que genera ceros (presencia/ausencia) utilizando Bernoulli. Es posible usar VE, aunque también puede dejarse un modelo solo con
ordenada al origen
2- Proceso que modela los conteos >0. Poisson o Binomial negativa (si hay sobredispersión) truncada en 0. Se ingresan las VE, que pueden ser distintas al modelo anterior
Equivale a correr los dos modelos por separado, aunque utilizar una misma función permite obtener un único AIC
13
hurdle(Y ∼ X | Z, dist = "poisson", link = "logit“)
VE para ceros
VE para Poisson / Y>0
Puede ser binomial negativa (negbin)
Función de enlace para Bernoulli; para Poisson es log por default
Ataques de pánico
14
Se detecta sobredispersión
El 89% de las observaciones son ceros
Los autores creen que hay subdeclaración en los registros
zeroinfl(Y ∼ X | Z, dist = "poisson", link = "logit“)
VE para Falsos ceros VE para Poisson
Puede ser binomial negativa (negbin)
Función de enlace para Bernoulli; para Poisson es log por default
Hay distintas opciones para ingresar las VE:
Ser hombre aumenta el odds de no tener la oportunidad de
registrar ataque de pánico en un 117% (OR=e(0.7753)=2.17), y es estadísticamente significativo (p=.0097)
hombre hombre
i e
p e
1 0
1 0
1
Entre aquellos que pueden registrar un ataque de pánico, tener un año más de edad aumenta la cantidad esperada de ataques de pánico en 1.8 % (e(0.018)=1.018), manteniendo las restantes variables constantes, y es estadísticamente significativo (p<0,0001)
2 ...
1
0
edadi hombreii
e
Modelos en dos partes, hurdle o alterados por ceros
17
hurdle(Y ∼ X | Z, dist = "poisson", link = "logit“)
VE para ceros
VE para Poisson / Y>0
Puede ser binomial negativa (negbin)
Función de enlace para Bernoulli; para Poisson es log por default
La interpretación difiere de la anterior en el sentido que el modelo Bernoulli modela presencia/ausencia y el Poisson modela abundancia, condicionada a la presencia
Opciones para modelar datos de conteos con sobredispersión
1. Poisson
2. Binomial negativa
3. Poisson inflada en cero (ZIP) / Poisson alterada por ceros (ZAP)
4. Binomial negativa inflada en cero (ZINB) / Binomial negativa alterada por ceros (ZANB)
Las herramientas para la elección del mejor modelo son las usuales:
La elección entre modelos ZIP y ZAP puede basarse en conocimiento experto del investigador o puede ser empírica, en función de AIC
Explorar gráficos de dispersión de RP vs PRED, observados vs PRED, comparar AIC
18