Selección de Modelos - Modelos de Ocupación : una forma de analizar las variables que afectan l

Ejemplo 13. Transformación para las variables explicativas. Si en lugar de transformar y hubiera necesidad de transformar xj0, se propone la siguiente familia:

z(λ) =X

j6=j0

β_jxj +β_j0xλ_j0 =E(Y).

Análogamente al ejemplo anterior, expandiendo z(λ) en una serie de Taylor con respecto a λ0, conocido, resulta:

z(λ)∼=X j6=j0 β_jxj+β_j0xλ_j00 +β_j0(λ−λ0)xλ_j00lnxj0 = X j6=j0 β_jxj+β_j0xλ_j00 +γu(λ0), porque dz(λ)

dλ ∼=βj0xλ_j0lnx_j0, Entonces testear la hipótesis λ=λ₀ es equivalente a testear

γ = 0 para la regresión con la variable construidau(λ0) =β_j0x_jλ00lnx_j0, con xλ0

j0 ya en el modelo. Paraλ0 = 1 se tiene: E(Y) =X j6=j0 β_jxj+β_j0xλ_j0 +β_j0(λ−1) lnxj0 =X_β+γu, con u(λ) =xj0lnx_j0.

Ejemplo 14. Transformación simultánea para las variables respuesta y explicativas. Para la transformación simultánea de las variables respuesta y explicativas a una misma potencia (excepto la constante 1λ = 1), la variable construida u(λ0) para λ0= 1 es: u(1) = p X j=2 ˆ β_jxjlnxj −y ln y ˙ y −1 .

2.15. Selección de Modelos

Muchas veces se tiene como objetivo realizar inferencias para un modelo particular con una estructura de parámetros especíca, la cual representa una hipótesis sobre el sistema biológico en estudio. Sin embargo, en otros casos se pueden considerar múl- tiples hipótesis, de las cuales se desprende un conjunto de modelos candidatos del que se debe elegir el "mejor" con respecto a los datos observados. Una cuestión importante

es determinar cómo se realiza esta elección, para recién luego poder presentar buenas estimaciones de los parámetros con respecto al modelo seleccionado.

Burnham y Anderson (2003) sugieren al Criterio de Información de Akaike (AIC) como el mejor enfoque para la selección de modelos y la inferencia multi-modelo.

La mayoría de los métodos de selección están basados en cierta medida en el principio de parsimonia, que se puede interpreta como que "Entre hipótesis que compiten, se debe seleccionar aquella con la menor cantidad de supuestos". Estadísticamente, este principio se puede ver como el balance entre el sesgo y la precisión. En general, cuando la dimensión de un modelo (el número de parámetros) aumenta, el sesgo de las estimaciones de los parámetros decrece, mientras que su varianza crece. Los modelos parsimoniosos son aquellos que logran un balance perfecto entre el sesgo y la varianza.

Criterio de Información de Akaike

El método deAIC está basado en la verosimilitud pero con una penalización agre- gada para incentivar la parsimonia, es decir buscar el modelo con la menor cantidad de parámetros necesaria. El objetivo es comparar un conjunto de modelos, no necesariamen- te anidados, y elegir aquel que minimice:

AIC =−2LL(θ|y) + 2δ

donde δ es el número de parámetros estimados en el modelo. La magnitud absoluta de AIC no es relevante, sino que el enfoque de la selección de modelos está en las diferencias deAIC entre los diferentes modelos. Usualmente, todos los modelos son comparados con el modelo de menorAIC, construyendo una tabla de diferencias deAIC. Entonces, para un modelo particulark, esta diferencia será:

∆AICk=AICk−AICmin.

Burnham y Anderson (2003) proponen como regla general que todos los modelos dentro de las 2 unidades de AIC, con respecto al "mejor" modelo, tienen un nivel sustancial de soporte empírico.

2.15. Selección de Modelos

confundir con los pesos de la función de verosimilitud):

wk = exp −1 2∆AICk R P r=1 exp −1₂∆AICr

para un conjunto deRmodelos. Cada pesowkse interpreta como "el peso de la evidencia

en favor de que el modelo k sea el mejor modelo". La suma de todos los pesos de AIC da como resultado 1, lo que lleva a interpretar (heurísticamente) a cada pesowk como la

probabilidad de que el modelo k sea el "mejor" modelo entre los candidatos (Burnham y Anderson, 2004).

Cuando varios modelos entre los candidatos poseen una característica en común (por ejemplo, diferentes formulaciones para una misma hipótesis, o contienen el mis- mo factor o covariable), una manera de determinar el nivel global de soporte de esta característica es sumando los pesos de estos modelos.

Cuando hay demasiados parámetros en relación al tamaño de la muestra, el valor AIC puede no ser adecuado, por lo que se recomienda corregir el criterio de la siguiente manera:

AICC =AIC+

2δ(δ+ 1) n−δ−1,

donde n es el tamaño de muestra efectivo y δ el número de parámetros. Salvo que el tamaño de la nuestra sea lo suciente grande en relación al número de parámetros (n/δ ≥ 40), se recomienda el uso deAICC (Burnham y Anderson, 2003). Sin embargo, la noción

del tamaño de muestra no siempre es clara, como es el caso de los modelos de ocupación que serán estudiados en el siguiente capítulo. De hecho, el "tamaño de muestra efectivo" puede variar para diferentes parámetros del modelo, por ejemplo ser diferente para las probabilidades de ocupación y detección. Debido a este dilema, cuando no es obvio qué se debe considerar como "tamaño de muestra efectivo", se suele utilizar simplemente el criterio de AIC (MacKenzie, 2006). El efecto de esta elección es que modelos más complejos (es decir, con más parámetros) podrían ubicarse más alto en el ranking de lo que deberían.

Sobredispersión y Cuasi-AIC

En modelos con sobredispersión, la media o la estructura de la esperanza del modelo es adecuada, pero la estructura de la varianza es inadecuada. Una abordaje es pensar

a la estructura de varianza verdadera siguiendo la forma α(θ)V ar(θ); sin embargo, es complicado ajustar esta forma. Se puede simplicar el planteo anterior tomandoα(θ) =c conc una constante, dando una estructura de varianza verdadera cV ar(θ).

Un método común para la estimación de sobredispersión es utilizar el estadístico de Pearson χ2 del modelo global (el más general, aquel con más parámetros) dividido por sus grados de libertad:

c= χ

2 g.l..

Si no existe sobredispersión o falta de ajuste, entonces c debe ser igual a 1, y ˆc debería ser aproximadamente 1 (porque el valor esperado del estadístico es igual a sus grados de libertad).

La sobredispersión es muy común en el modelado de datos ecológicos, por lo que es necesario tenerla en cuenta en el criterio de selección de modelos. Los criteriosAIC y AICC se pueden modicar para la sobredispersión (cˆ) como

QAIC = −2LL(θ|y) ˆ c + 2δ QAICC =QAIC+ 2δ(δ+ 1) n−δ−1.

Una vez que QAIC o QAICC se calculan, las estimaciones empíricas de las va-

rianzas y covarianzas pueden obtenerse multiplicando por ˆc las varianzas y covarianzas teóricas del modelo. Notar que, aunqueˆc es estimado en base al modelo global, se usa- rá para estimar las varianzas y covarianzas de los parámetros de todos los modelos del conjunto.

Estimaciones Promedio

En muchas situaciones ecológicas, no resulta tan evidente cuál es el "mejor" modelo entre los candidatos, pudiéndose considerar varios modelos como razonables. En vez de elegir un sólo modelo del cual hacer inferencias, se pueden usar estimaciones prove- nientes de múltiples modelos, calculado las que se denominan estimaciones promedio. En este caso, los pesos de AIC de los modelos candidatos son utilizados para obtener un promedio pesado de las estimaciones de los parámetros. Para un conjunto deR modelos,

2.15. Selección de Modelos

el estimador promedio es:

ˆ θP = R X r=1 wrθˆr.

Considerando la incertidumbre de los modelos, la estimación de la varianza del estimador promedio es:

V arθˆP = " _R X r=1 wr r V arθˆr|M odr +θˆr−θˆP 2 #2 , donde V ar ˆ θr|M odr

es la varianza de la estimación obtenida del modelo r condi- cional a este. La segunda componente de la varianza corresponde a la incertidumbre de los modelos, representada como la diferencia entre la estimación de cada modelo y la estimación promedio.

3. Modelos de Ocupación

La presencia o ausencia de una especie dentro de una colección de unidades de muestreo es un concepto básico utilizado ampliamente en estudios ecológicos. Hacia nes del siglo pasado la mayoría de los estudios relacionados con programas de monitoreo de especies se basaban en la estimación de la abundancia, las tasas de nacimiento, las probabilidades de supervivencia y otros parámetros demográcos, principalmente obte- nidos de datos de captura-recaptura. Debido a la imposibilidad de estimar cambios en la abundancia absoluta sobre grandes áreas a través del tiempo, surge la idea de medir la presencia o ausencia de las especies sobre un cierto número de unidades de muestreo, lo que comenzó a conocerse como proporción de área ocupada.

Casi siempre, el interés de una investigación de la ocupación se enfoca ya sea en la proporción de sitios que están ocupados dentro de un número de sitios potenciales o en la probabilidad subyacente de que un sitio dentro de un grupo esté ocupado. Es este el parámetro de principal interés de los modelos de ocupación.

Existe una distinción importante entre proporción de área ocupada y probabilidad de ocupación. La probabilidad se puede considerar como la esperanza a priori de que un sitio en particular esté ocupado determinada por algún proceso subyacente, mientras que la proporción se relaciona a la realización de dicho proceso. Como la probabilidad es generalmente desconocida, la proporción observada puede ser utilizada como una estimación de la misma. En muchas situaciones estos conceptos se usan indistinta- mente, estimando la probabilidad de ocupación e interpretándola directamente como la proporción de sitios ocupados. Sin embargo, en otras situaciones esta distinción puede ser importante siendo necesario interpretar el modelado de manera diferente para hacer inferencias directas sobre la proporción de área ocupada.

El protocolo básico de muestreo usado para la estimación de la ocupación involucra simplemente visitar los sitios y pasar un tiempo determinado en cada uno, buscando individuos de la especie de interés o evidencia de su presencia. Este tipo de muestreos se

conoce como presencia-ausencia. En este capítulo se desarrollarán una serie de modelos que pueden ser usados para estimar y modelar patrones y dinámicas de ocupación. Los modelos de ocupación serán estudiados en el marco de los modelos lineales generalizados y los métodos de estimación desarrollados en el capítulo anterior.

In document Modelos de Ocupación : una forma de analizar las variables que afectan la ocupación y detección de especies endémicas (página 55-62)