Modelos de Ocupación : una forma de analizar las variables que afectan la ocupación y detección de especies endémicas

(1)

Universidad Nacional del Centro

de la Provincia de Buenos Aires

Facultad de Ciencias Exactas

Trabajo Final de la Licenciatura en Ciencias Matemáticas

Modelos de Ocupación:

Una forma de analizar las variables que afectan la

ocupación y detección de especies endémicas

Juan Mateo Friedman

Mg. Rosana E. Cepeda Dr. Igor Berkunsky

Directora Co-Director

(2)

(3)

Agradecimientos

Quisiera agradecer a mi familia, amigos y a todas las personas que estuvieron conmigo a lo largo de este camino. Gracias por ayudarme a no bajar los brazos y por creer en mí.

Este trabajo fue realizado gracias al apoyo de mis compañeros del Instituto de ECOSISTEMAS. Gracias por devolverme el interés y la pasión por las matemáticas, y por darme objetivos para poder terminar esta carrera.

(4)

(5)

Índice general

1. Introducción 9

2. Modelos Lineales Generalizados 11

2.1. Introducción . . . 11

2.2. Modelo Lineal General . . . 12

2.3. Modelos Lineales Generalizados (MLG) . . . 15

2.4. Estimación del Vector de Parámetros β . . . 20

2.4.1. Ejemplo del Algoritmo de Estimación . . . 24

2.4.2. Propiedades y Distribución Muestral de ˆ_β _{. . . 28}

2.4.3. Métodos Bayesianos de Estimación . . . 32

2.5. Función Deviance y el Estadístico de Pearsonχ2 Generalizado . . . 33

2.6. Estimación del Parámetroφ . . . 38

2.7. Análisis de la Deviance . . . 39

2.8. Tests de Hipótesis . . . 41

2.8.1. Test de Razón de Verosimilitudes . . . 43

2.8.2. Test de Wald . . . 43

2.8.3. Test Score . . . 44

2.9. Intervalos de Conanza . . . 46

2.10. Técnicas para la Vericación del Ajuste de un Modelo a un Conjunto de Datos . . . 47

2.11. Análisis de Residuos y Diagnósticos . . . 47

2.11.1. Introducción . . . 47

2.11.2. Tipos de Residuos . . . 48

2.11.3. Tipos de Grácos . . . 49

2.12. Vericación de la Función de Enlace . . . 51

2.13. Vericación de la Función de Varianza . . . 52

2.14. Vericación de las Escalas de las Covariables . . . 53

(6)

3. Modelos de Ocupación 61

3.1. Situación de Muestreo . . . 62

3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida . . . 63

3.3. Modelado . . . 65

3.3.1. Construcción de un Modelo . . . 65

3.3.2. Estimación . . . 67

3.3.3. Observaciones Faltantes . . . 73

3.3.4. Modelado de Covariables . . . 74

3.3.5. Ajuste del Modelo . . . 76

3.3.6. Ejemplo de Modelos de Ocupación . . . 80

3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña . . 81

3.4.1. Predicción del Estado de Ocupación No Observado . . . 83

3.4.2. Formulación Bayesiana del Modelo . . . 85

3.5. Modelos con Probabilidad de Detección Heterogénea . . . 88

4. Modelos de Ocupación con Componente Espacial 91 4.1. Introducción . . . 91

4.2. Análisis Espacial . . . 92

4.2.1. Matrices de Pesos Espaciales . . . 92

4.2.2. Medidas de Autocorrelación Espacial . . . 98

4.3. Autocovariable Espacial . . . 102

4.3.1. Modelos Espaciales con Detección Perfecta . . . 102

4.3.2. Modelos Espaciales con Detección Imperfecta . . . 104

4.4. Ejemplo . . . 106

4.5. Discusión . . . 108

5. Caso de Estudio: El Sapito de las Sierras 111 5.1. Introducción . . . 111

5.2. Métodos . . . 111

5.3. Modelado . . . 116

5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica . . . 118

5.5. Conclusiones . . . 120

6. Caso de Estudio: Loros de Bolivia 121 6.1. Introducción . . . 121

(7)

Índice general

6.3. Modelado . . . 123

6.4. Conclusiones . . . 126

A. Anexo: Implementación en R 129 A.1. Modelos de Ocupación Básicos en R . . . 129

A.2. Estimaciones de los Parámetros . . . 133

A.3. Selección de Modelos y Modelo Promedio . . . 135

A.4. Bondad de Ajuste y Bootstrap Paramétrico. . . 136

A.5. Métodos Bayesianos . . . 137

A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica . . . 138

(8)

(9)

1. Introducción

En los últimos años se ha ido aanzando la relación entre la matemática y otras disciplinas, siendo la biología una de las que más explota esta relación. La biomatemática o biología matemática se basa en la aplicación de modelos matemáticos a áreas como la epidemiología, la medicina, la biología celular y la ecología (Murray, 2011). Esta última estudia la relación entre los organismos y su entorno, y será el área en la que se centrará este trabajo.

Una de las herramientas más modernas de la biomatemática son los modelos de ocupación, los cuales centran su atención en el estudio de la proporción de sitios ocupados por una especie de interés. El concepto de "ocupación" surge en principio como un sustituto de la abundancia, pero se ha ido consolidando rápidamente como una variable de estado poblacional, permitiendo así desarrollar métodos de inferencia sobre procesos en las poblaciones (MacKenzie, 2006).

Los modelos de ocupación permitieron considerar la posibilidad de que una especie estuviera presente en un sitio y no fuera detectada durante un muestreo (MacKenzie y Royle, 2005). Modelar de manera simultánea la probabilidad de ocupación y de detección es la principal fortaleza de estos modelos.

En este trabajo se estudiarán en profundidad los modelos de ocupación con el ob-jetivo de presentar modelos matemáticos que permitan comprender mejor el comporta-miento de especies amenazadas y desarrollar herramientas que ayuden a su conservación.

(10)

métricas que permitirán interpretar y diagnosticar los resultados obtenidos. Por último, se estudiará el proceso de selección de modelos y las métricas de inferencia multi-modelo.

En el Capítulo 3 se presentarán los modelos de ocupación comenzando por modelos con probabilidad de detección conocida para luego estudiar aquellos modelos que con-sideran esta probabilidad desconocida. Análogamente al capítulo anterior, se estudiarán paralelamente los enfoques Bayesiano y de máxima verosimilitud, haciendo hincapié so-bre este último. Adicionalmente, se complejizarán los modelos mediante la introducción del concepto de observaciones faltantes y el modelado de covariables. Se analizará luego la bondad del ajuste de los modelos presentados y la estimación de la ocupación para poblaciones nitas. Por último y sin entrar en detalles, se introducirán los modelos de ocupación heterogénea.

En el Capítulo 4, se introducirán los modelos de ocupación con una componente espacial, que constituye una alternativa original para el modelado del comportamien-to espacial de las especies. Inicialmente se estudiarán diferentes maneras de medir la autocorrelación espacial entre sitios. Estos conceptos serán utilizados para construir un término espacial a partir del cual se plantearán modelos espaciales con detección perfecta e imperfecta.

En los Capítulos 5 y 6 se desarrollarán respectivamente dos casos de estudio ori-ginales en los cuales se aplican los modelos de ocupación. El primer conjunto de datos corresponde al Sapito de las Sierras (Melanophryniscus a. montevidensis) una especie amenazada y endémica del pastizal serrano del Sistema de Tandilia en Argentina (Fried-man et al., 2016). El segundo conjunto de datos corresponde al Guacamayo de Barba Azul (Ara glaucogularis), una especie amenazada y endémica de los Llanos de Moxos (Bolivia). Estos datos forman parte de un estudio más general sobre la ocupación de 23 especies de loros que habitan el norte de Bolivia (Berkunsky et al., 2015).

(11)

2. Modelos Lineales Generalizados

2.1. Introducción

Muchas veces, en diferentes áreas de aplicación, se desea analizar la relación fun-cional que existe entre un grupo de variables. Una herramienta que puede ser de utilidad para este n son los llamados Modelos Lineales, principalmente los modelos de regresión y de análisis de varianza. Estos modelos tienen como hipótesis que una de las variables es respuesta de las otras, esta respuesta es continua y generalmente normalmente dis-tribuida con media cero y varianza constantes para los distintos valores de las variables independientes.

Cuando la variable de respuesta es discreta o categórica se encuentra que los mo-delos lineales no son aplicables. Ante esta limitación, en 1972, Nelder y Wedderburn propusieron una teoría unicadora de modelos estadísticos, a la que llamaron Modelos Lineales Generalizados (MLG), como una extensión de los modelos lineales clásicos. Esta familia de modelos considera como distribución de la variable respuesta a todas aquellas funciones de distribución que pertenecen a la familia exponencial, dentro de la cual se encuentran las distribuciones Binomial, Poisson, Hipergeométrica, además de la Normal.

Ellos mostraron entonces que muchos de los problemas estadísticos que se pre-sentan en las áreas de agricultura, demografía, ecología, economía, geografía, geología, historia, medicina, ciencias políticas, psicología, sociología, cría de animales, etc., pueden ser formulados de manera unicada como modelos de regresión.

(12)

2.2. Modelo Lineal General

El modelo lineal general surge ante la necesidad de expresar cuantitativamente las relaciones entre una variable de respuesta (o dependiente) y otras variables explicativas (o independientes), también llamadas covariables.

Sea Y una variable aleatoria con distribución perteneciente a la familia de distri-buciones H, y explicada por el conjunto de variables X1, X2, . . . , Xp, jadas antes de

conocerY. Entonces, la esperanza condicional deY viene dada por:

E(Y |X1, X2, . . . , Xp) =β0+β1X1+· · ·+βpXp=µ.

Si se extrae una muestra aleatoria de tamaño n de una población para la cual existe una relación lineal entre la variable de respuesta y las variables independientes, cada observación de la muestra puede expresarse como:

yi=β0+β1xi1+· · ·+βpxip+εi coni= 1,2, . . . , n.

El término εi corresponde a una perturbación aleatoria no observable llamada error

aleatorio, que tiene esperanza cero y varianza σ2 constante. Si se asume además que i6=j entonces εi yεj no están correlacionados entre sí.

La ecuación anterior se puede expresar en forma matricial como Y =Xβ+ε. El

vector de respuestaY está compuesto por una componente sistemática y otra aleatoria. La primera corresponde al predictor lineal η = Xβ, y la segunda está formada por el

vector aleatorio Y de elementos independientes entre sí, con distribución f ∈H, vector de esperanzas μ y matriz de covarianzas σ2I. Calculando la esperanza de Y se obtiene

queE(Y) =Xβ=µ.

El modelo lineal general tiene como característica que, mientras la variable de respuestaY es cuantitativa, sus covariables pueden ser cuantitativas o categóricas cuali-tativas, siendo además independientes entre sí.

Covariables

(13)

2.2. Modelo Lineal General

uno representando el cambio esperado en la respuesta por cada unidad de cambio en la covariable, cuando las demás variables regresoras son constantes. Si todas las variables regresoras incluyen al cero en su recorrido, el coeciente β0, conocido como intercepto, puede interpretarse como la media de la distribución de la variable de respuesta.

Puede suceder que 2 o más variables tengan un efecto sobre la variable de respuesta cuando interactúan, por lo que sería de interés incluir estas componentes en el modelo para lograr un mejor ajuste, siempre y cuando la interacción sea interpretable.

Cuando el predictor linealηestá formado sólo por variables cualitativas, están son

llamadas factores y los valores que toman se denominan niveles del factor. No siempre sucede que estos niveles tienen un orden natural asociado, siendo usual incluir covariables como tipo de hábitat, color de pelaje de la especie, entre otras, conocidas como covariables de tipo nominal. Las covariables también pueden poseer un orden que no necesariamente implique magnitud, como un orden de preferencias. A estas covariables se las llama ordinales.

Si las observaciones se clasican en 2 o más factores, se habla de un análisis multi-factorial. Las combinaciones entre los niveles considerados se conocen como tratamientos. Por ejemplo, si se tiene un modelo con 2 factores, se incluyen términos de la formaαi+βj,

y en el caso que existan interacciones entre ellos, pueden aparecer términos de la forma (αβ)_ij. Entonces, un modelo de dos factores se representa como:

yijm =δ+αi+βj+ (αβ)_ij+εijm

dondeyijmes la respuesta delm-ésimo sujeto correspondiente ali-ésimo nivel del primer

factor y al j-ésimo del segundo,δ es la media general y εijm es la componente aleatoria

antes descripta.

Para 3 o más factores, el modelo presentado puede generalizarse de manera natural.

Variables Dummy

Considérese la situación que se tiene una variable de respuesta con p niveles y n repeticiones por cada nivel. El modelo será

(14)

donde yij es la j-ésima observación correspondiente al i-ésimo nivel del tratamiento. La

representación matricial del modelo seráY=Xβ+ε.

La matriz Xse dene de acuerdo a los objetivos del estudio, siendo determinante en la manera en que se interpretarán los parámetros.

De acuerdo a lo anterior, el modelo sería:

                    Y11 Y12 ... Y1n

Y21 ... Yij ... Ypn                     =                    

1 1 0 · · · 0 · · · 0 1 1 0 · · · 0 · · · 0 ... ... ... ... ... ... ... 1 1 0 · · · 0 · · · 0 1 0 1 · · · 0 · · · 0 ... ... ... ... ... ... ... 1 0 0 · · · 1 · · · 0 ... ... ... ... ... ... ... 1 0 0 · · · 0 · · · 1

                                δ β1 ... βi ... βp             +                     ε11 ε12 ... ε1n

ε21 ... εij ... εpn                     .

Para asegurarse que XtX sea inversible, las columnas de la matriz (es decir las observaciones) deben ser linealmente independientes. Para lograr este objetivo, si el factor tiene p niveles, se denirá una variable con p−1 niveles. Esta variable se conoce como articial, contraste o dummy.

Esta reparametrización se conoce como reparametrización del punto central. Si una variable tienep niveles se debe seleccionar uno de ellos como categoría de referencia. Si se toma la última categoría como referencia, lai-ésima columna deXcontendría un 1 en lai-ésima la, -1 en la última la y 0 en las demás. Siαi es el parámetro correspondiente

ali-ésimo nivel del factor, lasp−1columnas producirán estimadores independientes de los parámetrosα1, α2, . . . , αp−1.

Por ejemplo, si nuestra variable tiene 2 categorías, la reparametrización vendrá dada por:

Xi=  



1 si la observación pertenece al i-ésimo nivel del factor −1 caso contrario

(15)

2.3. Modelos Lineales Generalizados (MLG)

Y si nuestra variable tiene más de 2 niveles:

Xi =     

   

1 si la observación pertenece al i-ésimo nivel del factor 0 caso contrario

−1 nivel de referencia

.

Esta parametrización compara el efecto de cada una de las categorías de las varia-bles independientes con el efecto de la categoría de referencia.

2.3. Modelos Lineales Generalizados (MLG)

Como ya se comentó, Nelder y Wedderburn (1972) mostraron que las situaciones que pueden ser formuladas de manera unicada como modelos de regresión. Estos mode-los involucran una variable de respuesta univariada, variables explicativas y una muestra aleatoria de n observaciones. La variable de respuesta tiene una distribución pertene-ciente a la familia exponencial en la forma canónica. Para datos continuos se usan las distribuciones Normal, Gamma y Normal Inversa. La distribución Binomial es utilizada para proporciones, mientras que para conteos se recurre a la distribución de Poisson y Binomial Negativa.

Para una muestra de n observaciones (yi,xi), con xi = (x1,i, x2,i, . . . , xp,i)t el

vector columna de variables explicativas, el Modelo Lineal Generalizado está formado por las tres componentes siguientes:

1. Componente aleatoria. Representada por un conjunto de variables aleatorias independientesY1, Y2, . . . , Ynprovenientes de una misma distribución que es parte

de la familia exponencial en forma canónica, con medias µ1, µ2, . . . , µn, es decir

E(Yi) = µi; y un parámetro constante de escala conocido, φ > 0, que depende

de un único parámetro θi, llamado canónico o natural. La función densidad de

probabilidad (f.d.p.) de cadaYi está dada por:

f(yi;θi, φ) =exp

1 ai(φ)

[yiθi−b(θi)] +c(yi;φ)

(2.1)

(16)

Además por propiedades de la familia exponencial en forma canónica:

E(Yi) =µi=b0(θi)

V ar(Yi) =ai(φ)b00(θi) =ai(φ)V (µi) =ai(φ)Vi (2.2)

con Vi = dµ_dθ_ii llamada función de varianza que, como depende únicamente de la

media, permite expresar el parámetro natural como θi = ´

V_i−1dµi = q(µi), con

q(µi)una función conocida.

2. Componente sistemática. Las variables explicativas entran en el modelo en for-ma de una sufor-ma lineal de sus efectos:

ηi = p X

j=1

xijβj =xitβ

o

η=Xβ

con X= (x1,x2, . . . ,xn)tla matriz del modelo,β= (β1, β2, . . . , βp)t el vector de

parámetros y η= (η1, η2, . . . , ηn)t el predictor lineal.

3. Función de enlace. Tiene como nalidad vincular la componente aleatoria con la sistemática. Relaciona la media con el predictor lineal, es decir ηi =g(µi) donde

g(·)es una función monótona derivable.

Por lo tanto, para una especicación del modelo, los parámetrosθi de la familia

exponen-cial no son de interés directo (porque hay uno para cada observación), pero sí un conjunto más chico de parámetrosβ1, β2, . . . , βp tal que una combinación de ellos es igual a una

función del valor esperado deYi.

Ejemplo 1. SeaY una v.a. con distribución Normal de mediaµdesconocida y varianza conocidaσ2 >0, entonces su f.d.p. es:

f y;µ, σ2= √ 1 2πσ2 exp

(

−(y−µ) 2

2σ2

)

,

(17)

Desarrollando esta expresión se obtiene:

f y;µ, σ2= exp

(

−(y−µ) 2

2σ2 − 1

2ln 2πσ 2 ) = exp 1 σ2

−y2_{+ 2yµ}₋_µ2 2

− 1

2ln 2πσ 2 = exp 1 σ2

yµ−µ 2

2

− y 2

2σ2 − 1

2ln 2πσ 2

.

Tomando

θ=µ a(φ) =σ2

b(θ) = µ 2 =

θ2

2 c(y;φ) =− 1 2

y2

σ2 + ln 2πσ 2

se muestra que la distribución N µ, σ2 con µ desconocido y σ2 > 0 conocido, pertenece a la familia exponencial en la forma canónica.

Ejemplo 2. SeaY una v.a. con distribución Binomial y f.d.p. dada por:

f(y;π) =

m y

πy(1−π)m−y,

con m∈_N, el número de ensayos,p∈[0,1], la probabilidad de éxito.

Se tiene entonces que:

f(y;π) = exp

ln m y

+yln (π) + (m−y) ln (1−π)

= exp yln π 1−π

+mln (1−π) + ln

m y

.

De lo que se desprende:

a(φ) = 1 θ= ln

π 1−π

→π = e

θ

1 +eθ

b(θ) =−mln (1−π) =mln1 +eθ c(y;φ) = ln

m y

(18)

Por lo tanto, la distribución Binomial pertenece a la familia exponencial en la forma canónica.

Ejemplo 3. Sea ahoraY una v.a. con distribución Poisson, por lo tanto su f.d.p. está dada por:

f(y;µ) = µ

y_e−µ

y! , conµ >0.

Luego

f(y;µ) = exp{yln (µ)−µ−ln (y!)}.

Ahora tomando

a(φ) = 1 θ= ln (µ)

b(θ) =eθ c(y;φ) =−ln (y!),

se demuestra que la distribución Poisson pertenece a la familia exponencial en su forma canónica.

Funciones de Enlace Canónicas

Si se elige una función de enlace tal que g(µi) = θi, entonces el predictor lineal

modela el parámetro canónico y la función se llama de enlace canónico. Esto se traduce en una escala adecuada para el modelado con interpretación práctica para los parámetros de regresión, tiene ventajas teóricas y simplica el algoritmo de estimación.

Las funciones de enlace canónicas para algunas distribuciones de la familia expo-nencial se presentan en la Tabla 2.1:

Notar que aunque las funciones de enlace canónicos proporcionan propiedades esta-dísticas deseables, sobre todo para muestras chicas, no existe una razón a priori para que los efectos sistemáticos del modelo sean aditivos en el intervalo dado por dichas funciones (McCullagh y Nelder, 1989).

(19)

Tabla 2.1.: Funciones de enlace canónicas

Distribución Función

Normal Identidad: η=µ

Poisson Logarítmica: η= ln (µ) Binomial Logística: η= ln

π

1−π

= ln

µ m−µ

Gamma Recíproca: η= _µ1

Normal inversa Recíproca2_: _η ₌ 1 µ2

No obstante, cuando se trabaja, por ejemplo, con la distribución de Poisson (para la cual µ > 0), la función identidad no debe utilizarse, porque ηˆ podría tomar valores negativos dependiendo de los valores obtenidos para_βˆ_{. Esta distribución se utiliza cuando} se tienen datos de conteo dispuestos en tablas de contingencia que, bajo el supuesto de independencia, conducen naturalmente a efectos multiplicativos (si la variable Xi

aumenta nunidades, la probabilidad para la variable de Poisson se multiplica porenβi). Estos efectos pueden linealizarse a través de la función de enlace logarítmica, es decir, η = ln (µ), de donde se obtieneµ=eη_.

Para la distribución Binomial se tiene la restricción de que, la probabilidad de éxito π, debe ser 0 < π < 1 y, por lo tanto, la función de enlace debe transformar el intervalo[0,1]en la recta real. Este es el caso de las funciones de enlace más comúnmente encontradas, que además de la canónica son las funciones:

Probit:η= Φ−1(π) = Φ−1

µ

m

con Φla función de distribución Normal Estándar Complemeto log-log: η= ln [−ln (1−π)] = ln

h

−ln

1− µ m

i

.

También se puede considerar la familia de funciones de enlace dada por

η= ln

"

(1−π)−λ−1 λ

#

,

donde λ es una constante desconocida. Esta familia tiene como casos particulares el modelo logístico paraλ= 1 y el complemento log-log para λ→0.

(20)

la familia potencia dada por

η =

 

 µλ₋₁

λ siλ6= 0

ln (µ) siλ= 0 o también

η=

 



µλ si λ6= 0 ln (µ) si λ= 0 conλuna constante desconocida.

2.4. Estimación del Vector de Parámetros

β

Existen dos métodos clásicos para estimar los parámetros desconocidos de un mo-delo lineal general, uno es el de máxima verosimilitud y otro es el método de mínimos cuadrados generalizados que, a su vez, tiene al método de mínimos cuadrados ponderados como caso particular.

El ajuste de un modelo lineal generalizado se determina por el vector _βˆ _de estima-ciones de los parámetros. Para estimar losβ's se usará el método de máxima verosimilitud dado que en los casos que se van a trabajar en capítulos posteriores, la distribución de la variable de respuesta se asume con distribución conocida.

Dado un vector de observaciones independientes y1, y2, . . . , yn, la función de

ve-rosimilitud cuantica la posibilidad (o veve-rosimilitud) de que estas hayan sido generadas por el vector de parámetrosβ. Entonces, la función de verosimilitud L está dada por la

función de densidad conjunta de las variables aleatorias independientesY1, Y2, . . . , Yn:

L(β|y) = n Y

i=1

f(yi|θi).

Para variables aleatorias provenientes de la familia exponencial, el logaritmo de la fun-ción de verosimilitud para el conjunto de observacionesy1, y2, . . . , yn, es la suma de las

contribuciones individuales, es decir:

LL(θ|y) =

n X

i=1

LL(θi |yi) = n X

i=1

log [L(θi |yi)] = n X

i=1

1 ai(φ)

[yiθi−b(θi)] +c(yi;φ)

(21)

2.4. Estimación del Vector de Parámetros β

Esto correspondería a resolver el sistema de ecuacionesUθ= dLL_d_θ = 0o equivalentemente

en términos de losβ's,Uβ=

dLL

dβ = 0. La familia exponencial posee ciertas propiedades

de regularidad que aseguran la existencia de una única solución al sistema y, por lo tanto, de un máximo global para la verosimilitud (Fahrmeir y Kaufmannm, 1985). Se tiene entonces que la funciónUj, llamada función score, está dada por:

Uj =

∂LL(θi |yi, φ)

∂βj

= ∂LLi ∂βj

Siguiendo la regla de la cadena se tiene que:

Uj = n X i=1 dLLi dθi dθi dµi dµi dηi ∂ηi ∂βj = n X i=1 1 ai(φ)

yi−b0(θi) 1 Vi dµi dηi xij Luego:

Uj = n X

i=1

(yi−µi)

ai(φ)V (µi)

dµi

dηi

xij (2.3)

En general las ecuaciones Uj = 0, no son lineales y tienen que ser resueltas

numé-ricamente por Newton-Raphson. Para obtener una solución al sistemaUβ=

dLL

dβ = 0, se

utiliza una versión multivariada del método de Newton-Raphson:

β(M+1)=β(M)+ I₀−1(M)U(M)

con β(M)yβ(M+1), los vectores de los parámetros estimados en los pasos M y(M+ 1),

respectivamente.U(M) es el vector de derivadas parciales de primer orden con elementos

∂LL ∂βj, y I

−1 0

(M)

es la matriz de derivadas parciales de 2o _{orden con elementos} −∂2LL ∂βj∂βk, ambos evaluados en el paso M.

Cuando las derivadas de 2o _{orden se obtienen fácilmente, este método es bastante}

útil. Pero en el caso de los MLG esto no siempre ocurre, por lo que puede usarse el método de score de Fisher, que es, en general, más simple y coincide con Newton-Raphson cuando se trabaja con funciones de enlace canónicas. Este método consiste en sustituir la matriz de derivadas parciales de 2o _{orden por la matriz de valores esperados de derivadas}

parciales; esto es cambiar la matriz de información observada, I0, por la de información esperada de Fisher, I. Luego:

(22)

con I dada por los elementos Ijk = E h

−∂2_L

∂βj∂βk

i = E h ∂L ∂βj ∂L ∂βk i

= E(UjUk), que es la

matriz de covarianzas de losUj's.

De 2.3 se tiene:

I_jk =

n X

i=1

E(Yi−µi)2

[ai(φ)V (µi)]2

dµi

dηi 2

xijxik = n X

i=1

Eh(Yi−µi)2 i

[ai(φ)V (µi)]2

dµi

dηi 2

xijxik

=

n X

i=1

V ar(Yi)

[ai(φ)V (µi)]2

dµi

dηi 2

xijxik = n X

i=1

a(φ)V (µi)

[ai(φ)V (µi)]2

dµi

dηi 2

xijxik

=

n X

i=1

1 a(φ)V (µi)

dµi

dηi 2

xijxik

y haciendo ai(φ) = _wφ_i, con φ > 0 constante, wi los pesos a priori y deniendo Wi = wi

V(µi)

dµi

dηi

2

, resulta:

I = 1 φX

t_WX

donde cada elementoI_jk esI_jk =

n P i=1

1

φxijWixik, siendoX la matriz del modelo y

W=diag(W1, W2, . . . , Wn). (2.5)

Además, reordenando los términos deUj:

Uj = n X

i=1

wi(yi−µi)

φV (µi)

dµi

dηi

xij = n X

i=1

(yi−µi)

φ Wi

dµi

dηi −1

xij = n X

i=1 1 φxijWi

dηi

dµi

(yi−µi)

por lo tanto el vector de scores es:U= _φ1XtW∆ (y−µ), con∆ =diag

n dη1

dµ1,

dη2

dµ2, ...,

dηn

dµn

o

= diag{g0_(µ

1), g0(µ2), ..., g0(µn)}.

Reemplazando I yU en 2.4:

I(M)β(M+1)=I(M)β(M)+U(M)

1 φX

t_W(M)_X

β(M+1)=

1 φX

t_W(M)_X

β(M)+

1 φX

t_W(M)_∆(M)_(y₋

μ)(M)

XtW(M)Xβ(M+1)=XtW(M) h

Xβ(M)+ ∆(M)(y−μ)(M) i

(23)

dependiente ajustada, se tiene:

XtW(M)Xβ(M+1) =XtW(M)z(M)

Finalmente se obtiene:

β(M+1)= h

XtW(M)Xi

−1

XtW(M)z(M)

que es independiente deφ.

Para iniciar el proceso iterativo se suele especicar una estimación inicialβ(0), que

se actualiza sucesivamente hasta lograr la convergencia y que, por lo tanto, ˆ_β₌_β(M+1)_. Notar que cada observación se puede considerar como una estimación de su valor medio, i.e. µˆi =yi, y por lo tanto ηˆi =g(ˆµi) =g(yi). Usandoηˆ como variable independiente y

X, la matriz del modelo, se puede obtener la estimación inicialβ(0).

El algoritmo de estimación puede ser resumido en los siguiente pasos:

1. Obtener las estimaciones

η_i(M)=

p X

j=1

xijβ_j(M)

µ(_iM) =g−1η_i(M) 2. Obtener la variable dependiente ajustada

z_i(M) =η_i(M)+yi−µ(iM)

g0µ(_iM) y los pesos

W_i(M)= wi

V

µ(_iM)

h

g0

µ(_iM)

i2

3. Calcular

β(M+1) = h

XtW(M)X

i−1

XtW(M)z(M)

(24)

Un criterio para vericar la convergencia, entre otros, resulta de plantear:

p X

j=1

β_j(M)−β_j(M+1) β_j(M)

!2

< ξ

conξsucientemente pequeño. En general, el algoritmo anterior es robusto, convergiendo luego de unas pocas iteraciones (Demétrio, 2001).

Observación: La funcióng(·) puede no estar denida para algunos valores deyi.

A continuación se muestra un ejemplo de cómo proceder en este caso.

Por ejemplo, si la función de enlace estuviera dada por:

ηi=g(µ) = lnµ

y fueran observados valores yi = 0, el proceso no podría iniciarse. Un método para

solucionar este problema, es sustituiry pory+c, tal queE[g(Y +c)] esté lo más cerca posible deg(µ). De forma general, usando la aproximación de Taylor hasta2oorden para g(y+c) en relación ag(µ), se tiene:

g(y+c)≈g(µ) + (y+c−µ)g0(µ) + (y+c−µ)2g

00_(µ)

2

con valor esperado dado por:

E[g(y+c)]≈g(µ) +E(Y −µ)g0(µ) +cg0(µ) +V ar(Y)g

00_(µ)

2 , luego tomar:

c≈ −1

2V ar(Y) g00(µ)

g0_(µ).

2.4.1. Ejemplo del Algoritmo de Estimación

Una de las aplicaciones más comunes de los modelos antes descritos son los ensayos del tipo dosis-respuesta. En la situación general, una droga determinada se administra a k diferentes grupos de m1, m2, . . . , mk individuos, en dosis d1, d2, . . . , dk

respecti-vamente, obteniendo así una respuesta. Luego de un periodo especíco, de cada grupo y1, y2, . . . , yk individuos mudan de estado, es decir, ocurre un evento como, por

(25)

Tabla 2.2.: Número de insectos muertos (yi) sobre un total demi que recibieron una dosis

di de insecticida

Dosis (di) Total (mi) Muertos (yi) Proporción (pi)

10,2 50 44 0,88

7,7 49 42 0,86

5,1 46 24 0,52

3,8 48 16 0,33

2,6 50 6 0,12

0,0 49 0 0,00

pueden ser considerados como provenientes de una distribución Binomial con probabili-dad πi, que corresponde a la probabilidad de ocurrencia (éxito) de un evento, entonces

Yi∼Bin(mi, πi).

El objetivo de este tipo de experimentos es, en general, modelar la probabilidad de éxito πi, en función de variables explicativas para luego determinar las dosis efectivas

DLp, que son aquellas que causan el cambio de estado en el p% de individuos (por

ejemplo, DL50,DL90).

En la Tabla 2.2 se encuentran los datos correspondientes a un ensayo de toxicidad del la sustancia rotenona, que se utiliza como insecticida, en el cual dosis (di) del producto

fueron aplicadas a mi insectos (Macrosiphoniella sanborni, conocido como pulgón del

crisantemo) y luego de un determinado tiempo se contó la cantidad de insectos muertos (yi).

Si se gracan las proporciones de insectos muertos (pi = yi/mi) contra las dosis

(di), se puede ver cómo los puntos describen una curva de aspecto sigmoidal (Ver Figura

2.1), lo cual ayuda en la elección de un modelo para πi.

SiYi ∼Bin(mi, πi), del Ejemplo 2 se tiene que su f.d.p. en la forma exponencial

canónica es

f(yi;πi) = exp

yiln

πi

1−πi

+miln (1−πi) + ln

mi

yi

,

y que

ai(φ) = 1 θi = ln

πi

1−πi

→πi =

eθi 1 +eθ

b(θi) =−miln (1−πi) =miln

1 +eθi

c(yi;φ) = ln

mi

yi

(26)

De la primera ecuación se obtiene queφ= 1 y quewi= 1.

De las Ecuaciones 2.2 resulta

E(Yi) =µi =b0(θi) =miπi

V ar(Yi) =ai(φ)b00(θi) =miπi(1−πi) =

1 mi

µi(mi−µi)

Vi=V (µi) =b00(θi) =

1 mi

µi(mi−µi).

Adoptando la función de enlace canónica, que en este caso sería la función logística, y el predictor lineal dado por una regresión simple, es decir

ηi =g µi mi = ln µi

mi−µi

=β1+β2di

se tiene

µi=mig−1(ηi) =mi

eηi 1 +eηi dηi

dµi

= (mi−µi) +µi (mi−µi)2

mi−µi

µi

= mi µi(mi−µi)

= 1 Vi

.

La matriz del modeloX y el vector de parámetrosβ quedan como

X=      

1 d1 1 d2 . . . .

1 dn      

β= (β1, β2)t.

Siguiendo el algoritmo de estimación, la variable ajustada dependientezi y los pesosWi

serán

zi =ηi+ (yi−µi)

mi

µi(mi−µi)

Wi =

wi

Vi(g0(µi))2

(27)

luego

XtW=

"

1 1 . . . 1

d1 d2 . . . dn #      

W1 0 . . . 0

0 W2 . . . 0

. . . .

0 0 . . . Wn

      = "

W1 W2 . . . Wn

W1d1 W2d2 . . . Wndn #

XtWX=

    n P i=1 Wi n P i=1

Widi

n P i=1

Widi n P i=1

Wid2i 

  

,

cuya inversa se puede calcular como

XtWX−1 = adj X

t_WX

det (Xt_WX) =

1 n P i=1 Wi n P i=1

Wid2_i − _n

P i=1

Widi 2     n P i=1

Wid2i − n P i=1

Widi

− Pn i=1

Widi n P i=1 Wi     . Además

XtWz=

    n P i=1

Wizi

n P i=1

Widizi 

  

.

Por lo tanto

β(M+1)= "

β₁(M+1)

β₂(M+1)

#

= 1

det Xt_W(M)_X     n P i=1

W_i(M)d2_i

n P i=1

W_i(M)z_i(M)−

n P i=1

W_i(M)di n P i=1

W_i(M)diz_i(M)

n P i=1

W_i(M)

n P i=1

W_i(M)diz(iM)− n P i=1

W_i(M)di n P i=1

W_i(M)z_i(M)



  

.

De esta manera, haciendo uso de esta fórmula recursiva y asistiéndose de un soft-ware especíco para facilitar los cálculos (en este caso la función glm de R), se llega a las estimaciones de máxima verosimilitud de los parámetros _βˆ₁ ₌_−3,₂₃ _y_βˆ₂ _{= 0,}₆₁_{, lo} que se traduce en el modelo de regresión logística estimado

ˆ

p(d) = e

−3,23+0,61d

(28)

Figura 2.1.: Gráco de las proporciones (pi) versus las dosis (di) junto a la curva de

regresión logística estimada

Dado un valor parad, la dosis del insecticida, se obtiene la probabilidad estimada de que un insecto muera cuando se le aplica dicha concentración. En la Figura 2.1 se puede apreciar cómo la curva de regresión logística estimada se ajusta a los datos provenientes del ensayo.

2.4.2. Propiedades y Distribución Muestral de ˆ_β

Para modelos lineales que tienen variable respuesta con distribución normal, las distribuciones de los estimadores de los parámetros y los estadísticos usados para la vericación del ajuste del modelo pueden determinarse exactamente. Sin embargo, en ge-neral, la obtención de distribuciones exactas es muy complicada y suelen usarse resultados asintóticos. Estos resultados dependen de varias condiciones de regularidad (Fahrmeir y Kaufmannm, 1985) y de los tamaños de las muestras. Si las observaciones son indepen-dientes y provienen de distribuciones muestrales pertenecientes a la familia exponencial, como es el caso de los MLG, estas condiciones se satisfacen.

La idea básica es que si _θˆ _{es un estimador consistente para un parámetro} _θ _y V ar

ˆ

θ

(29)

1. _θˆ _{es asintóticamente insesgado.}

2. El estadístico

Zn=

ˆ θ−θ r V ar ˆ θ n→∞

−−−→Z, con Z ∼N(0,1)

o equivalentemente

Z_n2 =

ˆ

θ−θ2

V arθˆ n→∞

−−−→Z2, con Z2 ∼χ2₁

Ahora, si _θˆ _{es un estimador consistente para un vector} _θ _de _p _{parámetros, se tiene} asintóticamente:

ˆ

θ−θtV−1

ˆ

θ−θ∼χ2_p

con V la matriz de covarianzas no singular. Si V es singular se debe usar una inversa generalizada o bien realizar una reparametrización, con el n de obtener una nueva matriz de covarianzas no singular.

Algunas propiedades del estimador _βˆ _{son entonces:}

I) Es asintóticamente insesgado, i.e., para muestras grandes,Eβˆ

=β.

Prueba: Supóngase que el logaritmo de la función de verosimilitud tiene un único máximo en _βˆ_{, que es cercano al verdadero valor de}_β _{. La aproximación de Taylor} hasta los términos de primer orden para el vector score Uβˆ

, en relación a β, y

sustituyendo la matriz de derivadas parciales por −I, está dada por:

U

ˆ

β

=U(β)− I

ˆ

β−β

y como _βˆ _{es solución del sistema} _U_βˆ _{= 0}_{, se obtiene que} _βˆ₋_β ₌ _I−1_U₍

β).

Entonces, como I es no singular:

E

ˆ

β−β

=I−1E[U(β)] = 0⇒E

ˆ

β

=β

porqueE[U(β)] = 0. Por lo tanto,βˆ es un estimador insesgado deβ(por lo menos

(30)

II) Denotando U(β) = U, resulta que la matriz de varianzas de βˆ, para muestras

grandes, está dada por:

Covβˆ

=E

ˆ

β−β βˆ−β t

=I−1_E _UUt

I−1t

=I−1_II−1 ₌_I−1 porque I=EUUty I−1t

=I−1_{, por ser una matriz simétrica.} III) Para muestras grandes, se tiene:

ˆ

β−β t

Iβˆ−β

∼χ2_p

o, de forma equivalente:

ˆ

β∼Np β,I−1

que es la base para la construcción de tests e intervalos de conanza para los MLG. En el caso de tener variables de respuesta con distribución normal, las dos ecuaciones anteriores son exactas.

Para muestras chicas, _βˆ _{es bastante sesgado. Además, para} _n _{no muy grande, la} estructura de las covarianzas de las estimaciones de los parámetros lineales diere de I−1_{. La matriz}_I _{es consistentemente estimada por}

ˆ I = 1

φX

t_WX,_ˆ

con φ constante y conocido, y W como en la Ecuación 2.5. Para las distribuciones Bi-nomial y Poisson, se tiene que φ = 1. Si φ es constante para todas las observaciones y desconocido, afectará la estructura asintótica de _Iˆ−1 _{(con elementos} _v

jk) pero no el

valor de_βˆ_{. En la práctica, si}_φ_{es desconocido, (para las distribuciones Normal y Normal} Inversa se tiene queφ=σ2, yφ=v−1 para la Gamma) debe ser sustituido por alguna estimación consistente.

Los errores estándar de los estimadores _βˆ₁_,_βˆ₂_{, . . . ,} _βˆ_p _{son iguales a las raíces} cua-dradas de los elementos de la diagonal de _Iˆ−1_{, es decir} _EE_β_ˆ

p

= √vii. Entonces los

intervalos de conanza asintóticos con un intervalo de conanza del95 %de probabilidad para los parámetrosβj's, se obtienen como:

ˆ

βj =Z1−α₂ ±

√

vjj = 1,96±

(31)

A partir de _Iˆ−1_{, se puede calcular la correlación entre los} _β_ˆ

j's de la siguiente

manera:

ˆ

ρjk =Corrˆ

ˆ βj; ˆβk

=

ˆ

Covβˆj; ˆβk r ˆ V ar ˆ βj ˆ V ar ˆ βk

= √vjk vjjvkk

que permite vericar, por lo menos aproximandamente, la interdependencia de los pará-metros.

Ejemplo 4. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N µi, σ2

, siendo queµi =xtiβyσ2 >0, conocido. Considerando como función de enlace la

identi-dad, i.e. ηi=µi, se tiene que

g0(µi) =

dηi

dµi

= 1

Además,V (µi) = 1,wi = 1 y, por consiguiente, Wi = 1. Luego, se tiene

I = 1 φX

t_WX₌ 1

σ2X

t_X

y la variable independiente ajustada

zi= ˆηi+g0(ˆµi) (yi−µˆi) = ˆµi+yi−µˆi=yi

Por lo tanto, el algoritmo de estimación es

1 σ2X

t_X_ˆ β= 1

σ2X

t_y

y como XtX tiene inversa, resulta

ˆ

β= XtX−1Xty

que es la solución usual de cuadrados mínimos para los Modelos Lineares Clásicos. En-tonces E ˆ β

(32)

y

Cov

ˆ

β

=E

ˆ

β−β βˆ−β t

= XtX−1

XtE

(Y−Xβ) (Y−Xβ)tX XtX−1

=σ2 XtX−1 =I−1, porqueE

(Y−Xβ) (Y−Xβ)t=Iσ2 yI = _σ12XtX. Finalmente,

ˆ

β−β t

Iβˆ−β

∼χ2_p que es una ecuación exacta.

2.4.3. Métodos Bayesianos de Estimación

Los métodos clásicos (no Bayesianos) suponen que los parámetros están jos y tie-nen como objetivo encontrar procedimientos con propiedades deseables para estimarlos. Usualmente, se imaginan realizaciones replicadas de los datos, lo cual supone que es su-ciente realizar inferencias sobre los parámetros basadas en lo que pudo haber pasado (pero no pasó) y no en lo que sí sucedió (los datos observados).

El método Bayesiano, como los métodos clásicos de estimación, ve los datos como una realización de una variable aleatoria, pero, a diferencia de estos, también ve a los parámetros de un modelo como variables aleatorias, asignándoles una distribución a priori que los caracteriza probabilísticamente. El Teorema de Bayes es utilizado para, dados los datos, dar como resultado la distribución de probabilidad de los parámetros, cantidad conocida como distribución a posteriori. El método realiza inferencias sobre los parámetros basándose en esta distribución, condicional a los datos observados.

La distribución a priori de los parámetros se denota como f(θ), mientras que la distribución de las variables aleatorias (de los datos) dados los parámetros esf(y|θ),

que es esencialmente la función de verosimilitudL(θ|y). Usando el Teorema de Bayes, la distribución a posteriori de los parámetros resulta:

f(θ|y) = f(θ)f(y|θ)

(33)

2.5. Función Deviance y el Estadístico de Pearson χ2 _Generalizado

siendo esta la base de la inferencia Bayesiana. Por ejemplo, la media a posteriori de los β's es utilizada como una estimación puntual para la cual se pueden construir intervalos de conanza Bayesianos, también conocidos como intervalos de credibilidad, usando los cuantiles de la distribución a posteriori.

Cuando se utilizan distribuciones a priori constantes o uniformes, es decir que todos los parámetros tienen la misma probabilidad de ocurrir, la distribución a posteriori y la verosimilitud se vuelven proporcionales f(θ|y) ∝ f(y|θ) = L(θ|y). Esto signica que, a pesar de las diferencias entre las losofías subyacentes de los dos enfoques, en esta situación los dos métodos tienden a ser similares para datos de suciente calidad.

Para los métodos de estimación Bayesiana, el hecho de considerar los parámetros como provenientes de una distribución, y no como cantidades jas, resulta de utilidad cuando se consideran modelos con "efectos aleatorios". Es decir que, dado un parámetro, en vez de suponer que su valor es igual para todas las muestras, se pueden considerar que los valores de este parámetro para las diferentes muestras provienen de una misma distribución subyacente pero con diferentes realizaciones.

La inferencia Bayesiana moderna utiliza a menudo métodos de integración numérica para obtener las distribuciones a posteriori si el número de parámetros es chico. Para ello se suele recurrir a métodos de simulación basados en Monte Carlo vía cadenas de Markov (MCMC), los cuales pueden proveer fácilmente estimaciones para modelos con los cuales sería demasiado complicado trabajar desde una perspectiva frecuentista, como la de máxima verosimilitud.

2.5. Función Deviance y el Estadístico de Pearson

χ

2

Generalizado

(34)

Dadasnobservaciones, se pueden ajustar modelos que contengan hastan paráme-tros. El modelo más simple es el modelo nulo o constante que tiene un único parámetro, representado por un valor común a todos los datos. La matriz de este modelo se reduce a un vector columna compuesto de1's. El modelo nulo atribuye toda la variación entre losy's al componente aleatorio.

En el otro extremo, se encuentra el modelo saturado o completo, que tiene n pa-rámetros, uno por observación. Este modelo atribuye toda la variación al componente sistemático y, por lo tanto, se ajusta perfectamente, reproduciendo los mismos datos.

Existen otros dos modelos limitantes pero menos extremos. Uno es el modelo mi-nimal que incluye el menor número de parámetros necesarios para el ajuste.

Por otro lado, el modelo maximal contiene el mayor número de términos que pueden ser considerados. Los términos de estos modelos extremos son, en general, obtenidos por interpretaciones a priori de la estructura de los datos.

En general, se suele trabajar con modelos encajados. Entonces, el conjunto de ma-trices de los modelos puede ser construido por la adición sucesiva de términos al modelo minimal hasta llegar al maximal. Cualquier modelo conp parámetros linealmente inde-pendientes que esté entre los modelos minimal y maximal, es llamado modelo corriente o subyacente. El problema es determinar la utilidad de adicionar un parámetro más al modelo corriente y vericar la falta de ajuste inducida por la omisión de este.

Para discriminar entre modelos se deben introducir medidas de discrepancia que midan el ajuste de los mismos. Un ejemplo, es la deviance, propuesta por Nelder y Wedderburn (1972) y dada por:

Sp= 2

ˆ

LLn−LLˆ p

,

con_LLˆ _n_y_LLˆ _p _{los máximos del logaritmo de la función de verosimilitud para los modelos} saturado y corriente, respectivamente. Como se ve, el modelo saturado es utilizado como base de la medida de ajuste de un modelo corriente.

Tomando ai(φ) =_wφ_i, se tiene:

ˆ LLn=

1 φ

n X

i=1

n

wi h

yiθ˜i−b

˜ θi

i

(35)

y

ˆ LLp =

1 φ n X i=1 n wi h

yiθˆi−b

ˆ θi

i

+c(yi;φ) o

con _θ˜_i _{= ˜}_θ_(y_i₎ _y _θˆ_i _{= ˆ}_θ_(ˆ_µ_i_{), las estimaciones de los parámetros canónicos para los} modelos saturado y corriente, respectivamente. Se tiene entonces

Sp =

1 φ n X i=1 2wi n yi h ˜ θi−θˆi

i

−bθ˜i

+bθˆi o

= 1 φDp

donde Sp es llamada deviance escalada, yDp deviance. Se puede escribir también como

Sp=

1 φ

n X

i=1 d2_i

donde d2_i es llamado componente de deviance y mide la diferencia de los logaritmos de las funciones de verosimilitud observada y ajustada, para la observación correspondiente. La suma de ellos mide la discrepancia total entre las dos funciones de verosimilitud. Es, por lo tanto, una medida de distancia entre los valores ajustados (µˆ's) y los observados (y's), es decir entre el modelo corriente y el saturado.

Se puede vericar que la deviance equivale a una constante menos dos veces el máximo de la función de verosimilitud para el model corriente, i.e.Sp = 2 ˆLLn−2 ˆLLp =

c−2 ˆLLp, con cuna constante.

Ejemplo 5. Siguiendo el Ejemplo 4 de la sección anterior, se tiene

φ=σ2; wi = 1; θi=µi; b(θi) =

θ_i2 2 =

µ2_i 2 .

Luego

Sp =

1 σ2 n X i=1 2

yi[yi−µˆi]−

y2_i 2 +

ˆ µ2_i

2 = 1 σ2 n X i=1

2y2_i −2yiµˆi−y2i + ˆµ2i =

1 σ2

n X

i=1

(yi−µˆi)2=

SQRes σ2

donde SQReses la suma de cuadrados residual con (n−p)grados de libertad.

Ejemplo 6. Suponer ahora que lasYi's son variables aleatorias que representan conteos

(36)

Tabla 2.3.: Funciones deviances escaladas para algunas distribuciones Distribución Deviance Escalada

Normal Sp = _σ12

n P i=1

wi(yi−µˆi)2

Poisson Sp = 2

n P i=1

wi h

yiln

yi ˆ

µi

−(yi−µˆi) i

Binomial Sp = 2 n P i=1

wi h

yiln

yi ˆ

µi

+ (mi−yi) ln

mi−yi

mi−µˆi

i

Binomial Negativa Sp = 2 n P i=1

wi h

yiln

yi ˆ

µi

+ (yi+k) ln

yi+k ˆ

µi+k

i

Gamma Sp = 2ν

n P i=1

wi h

−lnyi ˆ

µi

+yi−µˆi ˆ

µi

i

Normal inversa Sp = _σ12

n P i=1

wi(yi−µˆi)

2

yiµˆi

entonces

φ= 1; wi = 1; θi = ln

πi

1−πi

= ln

µi

mi−µi

y

b(θi) =miln

1 +eθi

=−miln (1−πi) =−miln

mi−µi

mi

.

Luego,

Sp= n X i=1 2 yi ln yi

mi−yi

−ln

ˆ µi

mi−µˆi

+miln

mi−yi

mi

−miln

mi−µˆi

mi

o

Sp = 2 n X

i=1

yiln

yi

ˆ µi

+ (mi−yi) ln

mi−yi

mi−µˆi

.

Esta expresión es válida para 0< yi< mi. Siyi = 0 eli-ésimo término deSp debe

sustituirse por2miln

mi

mi−µi

, mientras que siyi=mi, debe sustituirse por2miln

mi

µi

.

En la Tabla 2.3 se encuentran las deviances (escaladas) para algunas distribuciones de la familia exponencial. La deviance es siempre no negativa, y a medida que entran covariables en el componente sistemático, decrece hasta volverse cero para el modelo saturado. Cuanto mejor sea el ajuste del modelo menor será el valor deSp. En la práctica,

(37)

Para testear la adecuación de un MLG, el valor para la deviance (con (n−p) grados de libertad, siendo p el rango de la matriz del modelo) debe ser comparado con el percentil de alguna distribución de probabilidad de referencia. Para la distribución Normal, asumiendo que el modelo usado es verdadero con σ2 conocido, se tiene

Sp =

Dp

σ2 ∼χ 2

n−p

que es exacta.

Supóngase que el modelo usado es verdadero para la distribución Binomial, cuando n es jo y mi → ∞ ∀i (no vale cuando miπi(1−πi) es acotado) y para la distribución

Poisson, cuando µi → ∞ ∀ientonces se tiene (para φ= 1)

Sp=Dp ∼χ2n−p

En los casos queSp dependa de φ(conocido), se muestra que

Sp ∼χ2n−p, cuandoφ→0,

es decir, cuando la dispersión es chica. En general, no se conoce el valor del coeciente φ, y debe ser sustituido por una estimación consistente.

En la práctica se testean los MLGs sin demasiado rigor, comparando el valor Sp

con los percentiles de la distribución χ2_n−p. De esta manera, en los casos que sea posible

obtener la aproximación de una χ2_n−p, se tiene que si

Sp ≤χ2n−p;α

puede considerarse que existen evidencias, a un nivel aproximado de 100α% de proba-bilidad, que el modelo propuesto se ajuste bien a los datos. O, más aún, sabiendo que, si Z ∼ χ2_n₋_p, entonces E(Z) = (n−p), un valor de Sp cercano a (n−p) puede ser

evidencia de bondad de ajuste.

Otra medida de discrepancia en el ajuste de un modelo a un conjunto de datos es el estadístico χ2 de Pearson generalizado, dado por:

χ2 =

n X

i=1 wi

(yi−µˆi)2

(38)

siendoV ( ˆµi)la función de varianza estimada bajo el modelo.

Para respuestas con distribución Normal se tieneχ2=SQRes y

χ2 σ2 ∼χ

2

n−p,

que es exacta.

Para datos provenientes de distribuciones Binomial y Poisson, conφ= 1,χ2 es el estadístico original de Pearson, que puede ser escrito como

χ2=

n X

i=1

(Oi−Ei)2

Ei ,

conOi la frecuencia observada yEi la esperada.

Para distribuciones no normales se pueden obtener sólo resultados asintóticos, es decir, la distribución χ2_n−p puede ser usada solamente como una aproximación que, en

muchos casos, puede ser pobre. Además, χ2 tiene como desventaja, el hecho de tratar los yi's simétricamente. En muchos casos es preferida en relación a la deviance, por su

facilidad de interpretación.

Ejemplo 7. Siguiendo el ejemplo Binomial de la Sección 2.4.1 y la fórmula del Ejemplo 6, se tiene queS2= 10,26 =D2 (porqueφ= 1) yχ2 = 9,70con 4 grados de libertad. Si se inspecciona la tabla de distribuciones deχ2₄, se tiene queχ2_4;0_,₀₅= 9,49yχ2_4;0_,₀₁= 13,29, lo que indica la existencia de evidencias, a un nivel de signicancia entre 5 % y 1 % de probabilidad, de que el modelo logístico lineal se ajuste adecuadamente al conjunto de datos. Es necesario, además del test de la hipótesis H0 : β2 = 0, un análisis de residuos y de diagnósticos.

2.6. Estimación del Parámetro

φ

(39)

2.7. Análisis de la Deviance

Uno de los métodos utilizados para la estimación de φ es el método de máxima verosimilitud. Este método es siempre posible en teoría pero cuando no existe una solución explícita puede tornarse insoluble computacionalmente.

Si φ es el mismo para todas las distribuciones, la estimación de máxima verosi-militud de β es independiente de φ, pero este parámetro se encuentra involucrado en

la matriz de convarianzas de los β's. Dado y, se puede ver al logaritmo de la función de verosimilitud LL(β, φ|y) como función de β y de φ, y así obtener la estimación de

máxima verosimilitud para φhaciendo

∂LL(β, φ)

∂φ = 0.

Por ejemplo, seaY1, Y2, . . . , Ynuna muestra aleatoria de una distribuciónN µi, σ2

. Entonces el logaritmo de la función de verosimilitud es

LL=−1 2

n X

i=1

(yi−µi)2

φ −

n

2 ln (2πφ)

cuya derivada con respecto a φes

∂LL

∂φ =

1 2

n X

i=1

(yi−µi)2

φ2 −

n 2φ.

Igualando a 0 se obtiene ˆ φ= 1

n

n X

i=1

(yi−µˆi)2 =

1 nDp.

Análogamente, para la distribución normal inversa se llega al mismo resultado.

Para el modelo normal, se verica que la estimación de máxima verosimilitud para φes exacta. Para el caso de la distribución Gamma la estimación resulta no consistente, y es necesario recurrir a otros métodos.

2.7. Análisis de la Deviance

(40)

covariables y sus interacciones.

Sea Mp1, Mp2, . . . , Mpr una sucesión de modelos encajados de dimensiones res-pectivas p1 < p2 < . . . < pr, matrices de los modelos Xp1,Xp2, . . . , Xpr y deviances Dp1 > Dp2 > . . . > Dpr. Todos los modelos tienen la misma distribución y función de enlace. Las deviances son utilizadas como medidas de discrepancia de los modelos y se construye con ellas una tabla de diferencia de deviances. Estas desigualdades entre las deviances, en general, no se verican para el estadístico χ2 de Pearson generalizado y, por esta razón, la comparación de los modelos encajados se realiza, principalmente, a través de la deviance.

Sean los modelos Mp y Mq con p < q parámetros. La estadística Dp −Dq con

(q−p)grados de libertad, es interpretada como una medida de la variación de los datos, explicada por los términos que están en Mq y no en Mp, incluidos los efectos de los

términos en Mp, e ignorando los efectos de los términos que no están en Mq. Se tiene,

asintóticamente, paraφconocido, que

Sp−Sq=

1

φ(Dp−Dq)∼χ 2

q−p,

que es, simplemente, el test de razón de verosimilitudes (del que se hablará en la próxima sección). Si φ es desconocido, se debe obtener una estimación φˆ consistente, preferen-temente basada en el modelo maximal (con m parámetros), y realizar inferencias que pueden ser basadas en el estadísticoF, dado por

F = (Dp−Dq)/(q−p) ˆ

φ ∼Fq−p,n−m.

Para la distribución Normal, se tiene

(SQResp−SQResq)/(q−p)

SQResm/(n−m)

∼Fq−p,n−m

que es exacta.

Ejemplo 8. Siguiendo el ejemplo Binomial de la Sección 2.4.1, se pueden proponer los siguientes modelos encajados para analizar los datos:

1. Modelo nulo: ηi=β1.

(41)

2.8. Tests de Hipótesis

En la siguiente tabla se presentan para cada modelo las deviances y sus respectivos grados de libertad:

Modelo g.l. Deviances χ2 ηi =β1 5 163,74 135,70 ηi=β1+β2di 4 10,26 9,70

χ2_4;0_,₀₅= 9,49;χ2_4;0_,₀₁= 13,29

Como se vio anteriormente, existen evidencias de que el modelo logístico lineal se ajusta adecuadamente a los datos, a un nivel de signicancia entre 5 % y 1 %, pero se rechaza el modelo nulo. Dadas las deviances de los modelos (D1yD2, respectivamente) su diferenciaD1−D2con 1 grado de libertad se interpreta como una medida de la variación de los datos en términos de la regresión lineal, incluyendo el efecto del intercepto. En la siguiente tabla se ve cómo se rechaza la hipótesisH0 : β2 = 0, que conrma la adecuación del modelo logístico lineal. Sin embargo, es necesario también un análisis de residuos y de diagnósticos.

Causa de Variación g.l. Deviances P-valor Regresión lineal 1 153,48 <0,0001

Residuo 4 10,26

Total 5 163,74

χ2_1;0_,₀₅= 3,84;χ2_1;0_,₀₁= 6,64

2.8. Tests de Hipótesis

Los métodos de inferencia para los MLGs se basan, principalmente, en la teoría de máxima de verosimilitud. De acuerdo a ella, existen tres estadísticos para testear hipótesis relativas a los parámetros β's, que son deducidos de distribuciones asintóticas de funciones adecuadas de las estimaciones de losβ0s. Estos son:

1. Razón de verosimilitudes

2. Wald

(42)

que son asintóticamente equivalentes y, bajo H0, para φconocido, convergen a una va-riable con distribuciónχ2_p.

Cuando se tiene un vector de parámetros, muchas veces es de interés testear hi-pótesis sólo sobre un subconjunto de ellos. Sea entonces una partición del vector de parámetros dada por:

β=βt₁,βt₂t

siendoβ₁ el vector de interés de dimensiónq, yβ₂ el vector nuisance de dimensiónp−q.

Análogamente, se tiene la partición de la matriz del modelo X = [X1,X2], del vector escoreU =φ−1XtW4(y−μ) =Ut₁,Ut₂t con U1 =φ−1Xt1W4(y−μ), y de la matriz de información de Fisher para_βˆ

I = 1 φX

t_WX₌ "

I11 I12 I21 I22

#

,

conI12=I21t .

Usando resultados conocidos de álgebra de matrices que involucran la partición de matrices (Searle, 1982), se tiene, para muestras grandes, la varianza asintótica de_βˆ

1:

V arβˆ₁

= I₁₁− I₁₂I₂₂−1I₂₁−1

=φhXt₁W12 (I−H₂)W 1 2X₁

i−1

,

conH2 =W 1 2X₂

Xt₂W12X₂

−1

Xt₂W12. Sean las hipótesis

 



H0 : β₁ =β₁_,₀

Ha: β₁ 6=β₁_,₀

,

siendo β₁_,₀ un valor especíco para β₁. Sea βˆ = h

ˆ

β t

1,βˆ

t

2

it

el estimador de máxima ve-rosimilitud para β sin restricción y βˆ₀ =

h βt₁_,₀,βˆ

t

2,0

it

, con_βˆ

(43)

2.8.1. Test de Razón de Verosimilitudes

Este test comprende la comparación de los valores del logaritmo de la función de ve-rosimilitud maximizada sin restricciónLLβˆ₁,βˆ₂ |y

y bajo la hipótesisH0

LLβ₁_,₀,βˆ₂_,₀|y

, o, en términos de deviance, la comparación entre D(y|μˆ) y D y|μˆ₀, donde μˆ₀ =

g−1 _ˆ

η₀ yηˆ₀ =Xβˆ₀.

Generalmente, este test, es utilizado en el caso de hipótesis relativas a varios coe-cientes β's. Si las diferencias son grandes, entonces, se rechazaH0. El estadístico para este test está dado por:

Λ=−2 ln (λ) = 2hLLβˆ₁,βˆ₂ |y

−LLβ₁_,₀,βˆ₂_,₀ |y i

= 1 φ

D y|μˆ₀−D(y; ˆμ).

Para muestras grandes, se rechaza H0, a un nivel de 100α% de probabilidad, si Λ> χ2_q,₁₋_α.

2.8.2. Test de Wald

El test de Wald se basa en la distribución normal asintótica de_βˆ _{y es una} generali-zación del estadístico t de Student. Se usa generalmente en el caso de hipótesis relativas a un solo coeciente βj.

Tiene como ventaja, en relación al test de razón de verosimilitudes, el hecho de no requerir el calcular _βˆ

2,0. Como fue visto en la Sección 2.4.2, asintóticamente se tiene: ˆ

β∼Np β,I−1.

Por lo tanto, el estadístico para este test es

W =

ˆ

β₁−β₁_,₀ th ˆ V ar ˆ β₁ i−1

ˆ

β₁−β₁_,₀

,

con _{V ar}ˆ _βˆ 1

siendo V arβˆ₁

evaluada en_βˆ₌h_βˆt 1,βˆ

t

2

it

.

(44)

2.8.3. Test Score

El test Score se obtiene a partir de la función score, siendo muy utilizado en Bio-estadística. El estadístico para este test está dado por:

U =Ut₁

ˆ

β₀

ˆ V ar0

ˆ β₁ U1 ˆ β₀ ,

con_{V ar}ˆ ₀_βˆ 1

siendo V arβˆ₁

evaluada en_βˆ 0=

h

ˆ

β t

1,0,βˆ

t

2,0

it

.

Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si U > χ2_q,₁₋_α.

Ejemplo 9. Supóngase que es de interés el test de hipótesis para el vectorβ como un

todo, es decir, se quiere testear las hipótesis

 



H0: β=β₀

Ha: β6=β₀

.

El vectorβ₂ desaparece, entonces β₁ =β (q =p), y se tienen las siguientes expresiones

para cada test:

1. Test de razón de verosimilitudes: Λ =−2 ln (λ) = 2hLL

ˆ

β|y

−LL β₀|y i

= 1

φ

D y|μ₀−D(y|μˆ).

2. Test de Wald:W =

ˆ

β−β₀ t

ˆ

Iˆβ−β₀

, con_Iˆ_{la matriz de información de Fisher} evaluada en ˆ_β_.

3. Test Score: U = Ut β₀I₀−1U β₀, con I0 la matriz de información de Fisher evaluada en β₀.

La utilización de la matriz de información puede tener un efecto signicativo en el po-der de los tests para muestras nitas. Su uso resulta inapropiado ya que no representa correctamente a la función de verosimilitud, en contraposición con el test de razón de verosimilitudes que sí lo hace (Buse, 1982).

Ejemplo 10. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N µ, σ2

conµ desconocido yσ2 conocido. Visto como un MLG, se tiene:

(45)

2. Ninguna variable explicativa.

3. La función de enlace es la identidad:η =µ.

El logaritmo de la función de verosimilitud es

LL=LL(µ|y1, . . . , yn) =−

1 2σ2

n X

i=1

(yi−µ)2−

n

2ln 2πσ 2

,

a partir de lo que se obtiene:

U = dLL

dµ = 1 σ2 n X i=1

(yi−µ) =

n

σ2(¯y−µ),

E(U) = n σ2

E Y¯−µ= 0 y

I =V ar(U) = n 2

(σ2₎2V ar ¯ Y

= n 2

(σ2₎2 σ2

n =

n σ2.

Por lo tanto,

U =UtI−1U = n

2 _Y_¯ ₋_µ2

(σ2₎2 σ2

n =

¯ Y −µ2

σ2

n

∼χ2₁.

Este resultado puede usarse para obtener intervalos de conanza paraµ.

Ejemplo 11. Sea Y ∼Bin(m, π), entonces el logaritmo de la función de verosimilitud será

LL(π |y) = ln

m y

+yln (π) + (m−y) ln (1−π),

que tiene función score

U = dLL

dπ =

y

π −

m−y 1−π =

(46)

Pero, como E(Y) =µ=mπ yV ar(Y) =mπ(1−π) = _m1µ(m−µ), será

E(U) = E(Y)−mπ π(1−π) = 0 I =V ar(U) = V ar(Y)

π2₍₁₋_π)2 = m π(1−π). Luego,

U =UtI−1U = (Y −mπ) 2

π2₍₁₋_π)2

π(1−π)

m =

(Y −mπ)2 mπ(1−π) =

[Y −E(Y)]2 V ar(Y)

que, según el Teorema del Límite Central, sigue una distribuciónχ2₁, o lo que es equiva-lente a decir que

Y −E(Y)

p

V ar(Y) = √

m(Y −µ)

p

µ(m−µ) converge en distribución aN(0,1).

Este resultado puede ser utilizado para realizar inferencias con respecto a µ.

2.9. Intervalos de Conanza

Se pueden construir intervalos de conanza asintóticos para β₁ usando cualquiera

de los estadísticos de los tests anteriores.

A partir del estadístico del test de razón de verosimilitudes, una región de conanza para β₁, con un coeciente de conanza de 100 (1−α) %, incluye todos los valores de β₁ tales que

2

h

LL

ˆ

β₁,βˆ₂ |y

−LL

β₁,βˆ₂_,₁ |y i

< χ2_q,₁−α,

con _βˆ

2,1 la estimación de máxima verosimilitud de β2 para cada valor de β1 que es testeado si pertenece, o no, al intervalo.

Usando el estadístico de Wald, una región de conanza paraβ₁, con un coeciente

de conanza de100 (1−α) %, incluye todos los valores deβ₁ tales que

ˆ

β₁−β₁ th

ˆ V arβˆ₁

i−1

ˆ

β₁−β₁