• No se han encontrado resultados

BIOMETRÍA II

N/A
N/A
Protected

Academic year: 2022

Share "BIOMETRÍA II"

Copied!
18
0
0

Texto completo

(1)

BIOMETRÍA II

CLASE 19

MODELOS LINEALES GENERALIZADOS

MODELOS INFLADOS EN CERO

Adriana Pérez

Depto de Ecología, Genética y Evolución FECN, UBA

(2)

Datos truncados o censurados

Cuando por distintas razones, la variable no puede tomar ciertos valores que son posibles para su distribución

Pueden existir truncamientos a la izquierda, a la derecha o dobles

Por ejemplo: riqueza de aves en áreas boscosas. Truncada en cero y

truncada en un máximo por razones biogeográficas, de competencia, etc

Las razones pueden ser por la naturaleza de la propia variable, razones biológicas, por el diseño del ensayo, por la forma de registrar la variable, etc

2

(3)

Variables continuas truncadas en cero

No es posible obtener cero como respuesta

Ejemplos: mediciones de compuestos por debajo del límite de detección;

tiempo hasta la aparición de cierto evento; distancia al vecino más cercano.

Se utiliza la distribución gamma, que representa una buena aproximación al fenómeno

Y>0

Distribución asimétrica positiva

Varianza no constante; coeficiente de variación constante

glm, link: inversa (1/Y)

3

glm(Y ~ X, family = gamma)

(4)

Variables discretas truncadas en cero

No es posible obtener cero como respuesta

Ejemplos: riqueza de aves por unidad de área; nro de raíces por planta

La distribución de probabilidades teórica puede tener un pobre ajuste, en cuyo caso las estimaciones estarán sesgadas

4

Si el valor esperado de la variable está lejos de 0, un modelo Poisson puede

funcionar

adecuadamente, ya que no predecirá

muchos ceros. Pero sí hay problemas

cuando el valor esperado está cercano a 0

(5)

Poisson truncada en cero

Se diagnóstica a partir de patrones en los gráficos de residuos vs predichos

¿Cómo se resuelve? Se ajusta las función de probabilidad de Poisson para excluir la probabilidad de observaciones nulas. Luego, procedimientos habituales

library(VGAM)

vglm(Y ~ X, family = pospoisson(), data)

Si se detecta sobredispersión se puede utilizar binomial negativa truncada en cero:

vglm(Y ~ X, family = posnegbinomial(), data)

También puede utilizarse la librería glmmTMB

5

(6)

Modelos con exceso de ceros

6

Hay más ceros en los valores observados que los esperados por la distribución.

Por ej: abundancia de una especie de ave en parches de vegetación

Causas:

1. estructurales. no está presente en un parche porque el hábitat no es el adecuado.

2. errores en el diseño, debidos a un pobre diseño experimental o muestral. Por ejemplo, si buscamos a una especie en una época en la los individuos se

encuentran en otro sitio (e.g. golondrinas en invierno), es muy probable que nuestros conteos contengan una gran proporción de ceros. Otro error de este tipo es muestrear durante demasiado poco tiempo, o a una escala espacial inadecuada.

3. errores de observador. Esto ocurre cuando dos especies son similares y el observador no sabe distinguirlas, o cuando son difíciles de detectar.

4. error aleatorio: el hábitat es el adecuado, pero el pájaro no está presente.

verdaderos negativos

falsos negativos

(7)

Estrategias para modelar el exceso de ceros

Modelos mezclados o inflados en ceros

Es una mezcla de distribuciones. Asumen que los ceros proceden de dos procesos distintos: el proceso Bernoulli y el proceso de Poisson.

Proceso Bernoulli: modela la probabilidad de observar un falso 0.

Proceso Poisson: modela la ocurrencia del resto de valores, incluyendo los verdaderos ceros

Si se observa sobredispersión, se puede solucionar reemplazando Poisson por binomial negativa.

Modelos ZIP (Zero Inflated Poisson) o ZINB (Zero Inflated negative binomial).

7

library(pscl)

zeroinfl(Y ∼ X, dist = "poisson", link = "logit“) zeroinfl(Y ∼ X, dist = “negbin", link = "logit“)

(8)

Estrategias para modelar el exceso de ceros

Modelos en dos partes, hurdle o alterados por ceros

Asumen que todos los ceros son iguales (sin distinguir entre falsos y verdaderos)

Se modela en dos partes:

1- Presencia/ausencia de ceros utilizando Bernoulli

2- Para las restantes observaciones (>0) se modela la abundancia utilizando Poisson truncada en 0

Si se observa sobredispersión, se puede solucionar reemplazando Poisson por binomial negativa.

Modelos ZAP (Zero Altered Poisson) o ZANB (Zero Altered negative binomial).

8

library(pscl)

hurdle(Y ∼ X, dist = “poisson", link = "logit“) hurdle(Y ∼ X, dist = “negbin", link = "logit“)

(9)

9

Modelos inflados en cero

Al contar hipopótamos/sitio, se puede obtener un cero debido a un mal diseño experimental, debido a observadores sin experiencia o a observadores experimentados, pero con especies difíciles de observar (falsos ceros) o a que el hábitat no es bueno (verdaderos ceros)

Modelos hurdle: Hay dos procesos;

uno es responsable de la presencia / ausencia, el otro proceso está

explicando los recuentos > cero. El modelo no hace una distinción entre los diferentes tipos de ceros

Zuur et al, 2009

(10)

10

(11)

Mezclas de distribuciones finitas

Las observaciones provienen de distintas distribuciones. Puede ser el mismo tipo de distribución (por ejemplo normal) pero distintos

parámetros, o pueden ser distribuciones distintas (por ejemplo Bernoulli y Poisson)

Se parametrizan con los parámetros de cada componente, mas las probabilidades o proporciones de cada componente de la mezcla

11

70% Normal (μ =1, σ=2), 30% Normal(μ =5, σ=1) 50% Bernoulli (=0,5), 50% Poisson (μ=6)

(12)

Poisson inflada en cero

Ambas distribuciones pueden producir ceros

Las VE que explican los ceros pueden ser distintas

No se especifica en las observaciones cuáles se sospecha que son ceros

verdaderos y cuáles falsos

12

) 0 (

) 1

( ) 0 (

) 0 (

) 1

( )

0 (

Y P

Y P

Y P

Y P

Poisson i

Poisson i

i

P(falso cero)

La esperanza es menor a µ

La varianza es > E(Y) (sobredispersión) y ~ x1 + x2 | z1 + z2 + z3, giving the count data

model y ~ x1 + x2 conditional on (|) the zero hurdle model y ~ z1 + z2 + z3

(13)

Modelos en dos partes, hurdle o alterados por ceros

Dos procesos:

1- Proceso que genera ceros (presencia/ausencia) utilizando Bernoulli. Es posible usar VE, aunque también puede dejarse un modelo solo con

ordenada al origen

2- Proceso que modela los conteos >0. Poisson o Binomial negativa (si hay sobredispersión) truncada en 0. Se ingresan las VE, que pueden ser distintas al modelo anterior

Equivale a correr los dos modelos por separado, aunque utilizar una misma función permite obtener un único AIC

13

hurdle(Y ∼ X | Z, dist = "poisson", link = "logit“)

VE para ceros

VE para Poisson / Y>0

Puede ser binomial negativa (negbin)

Función de enlace para Bernoulli; para Poisson es log por default

(14)

Ataques de pánico

14

Se detecta sobredispersión

El 89% de las observaciones son ceros

Los autores creen que hay subdeclaración en los registros

(15)

zeroinfl(Y ∼ X | Z, dist = "poisson", link = "logit“)

VE para Falsos ceros VE para Poisson

Puede ser binomial negativa (negbin)

Función de enlace para Bernoulli; para Poisson es log por default

Hay distintas opciones para ingresar las VE:

(16)

Ser hombre aumenta el odds de no tener la oportunidad de

registrar ataque de pánico en un 117% (OR=e(0.7753)=2.17), y es estadísticamente significativo (p=.0097)

hombre hombre

i e

p e

1 0

1 0

1

 

Entre aquellos que pueden registrar un ataque de pánico, tener un año más de edad aumenta la cantidad esperada de ataques de pánico en 1.8 % (e(0.018)=1.018), manteniendo las restantes variables constantes, y es estadísticamente significativo (p<0,0001)

2 ...

1

0

edadi hombrei

i

e

(17)

Modelos en dos partes, hurdle o alterados por ceros

17

hurdle(Y ∼ X | Z, dist = "poisson", link = "logit“)

VE para ceros

VE para Poisson / Y>0

Puede ser binomial negativa (negbin)

Función de enlace para Bernoulli; para Poisson es log por default

La interpretación difiere de la anterior en el sentido que el modelo Bernoulli modela presencia/ausencia y el Poisson modela abundancia, condicionada a la presencia

(18)

Opciones para modelar datos de conteos con sobredispersión

1. Poisson

2. Binomial negativa

3. Poisson inflada en cero (ZIP) / Poisson alterada por ceros (ZAP)

4. Binomial negativa inflada en cero (ZINB) / Binomial negativa alterada por ceros (ZANB)

Las herramientas para la elección del mejor modelo son las usuales:

La elección entre modelos ZIP y ZAP puede basarse en conocimiento experto del investigador o puede ser empírica, en función de AIC

Explorar gráficos de dispersión de RP vs PRED, observados vs PRED, comparar AIC

18

Referencias

Documento similar

En el método de la rigidez para el análisis estructural será la matriz de coeficientes de un sistema de ecuaciones lineales en el que el vector de términos independientes recoge

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Tras establecer un programa de trabajo (en el que se fijaban pre- visiones para las reuniones que se pretendían celebrar los posteriores 10 de julio —actual papel de los

IV.3.3 Ruido de los multiplicadores de frecuencia 90 IV.3.4 Ruido de los amplificadores 91

Consecuentemente, en el siglo xviii hay un cambio en la cosmovi- sión, con un alcance o efecto reducido en los pueblos (periferia), concretados en vecinos de determinados pueblos

En el capítulo de desventajas o posibles inconvenientes que ofrece la forma del Organismo autónomo figura la rigidez de su régimen jurídico, absorbentemente de Derecho público por