Universidad Nacional del Centro
de la Provincia de Buenos Aires
Facultad de Ciencias Exactas
Trabajo Final de la Licenciatura en Ciencias Matemáticas
Modelos de Ocupación:
Una forma de analizar las variables que afectan la
ocupación y detección de especies endémicas
Juan Mateo Friedman
Mg. Rosana E. Cepeda Dr. Igor Berkunsky
Directora Co-Director
Agradecimientos
Quisiera agradecer a mi familia, amigos y a todas las personas que estuvieron conmigo a lo largo de este camino. Gracias por ayudarme a no bajar los brazos y por creer en mí.
Este trabajo fue realizado gracias al apoyo de mis compañeros del Instituto de ECOSISTEMAS. Gracias por devolverme el interés y la pasión por las matemáticas, y por darme objetivos para poder terminar esta carrera.
Índice general
1. Introducción 9
2. Modelos Lineales Generalizados 11
2.1. Introducción . . . 11
2.2. Modelo Lineal General . . . 12
2.3. Modelos Lineales Generalizados (MLG) . . . 15
2.4. Estimación del Vector de Parámetros β . . . 20
2.4.1. Ejemplo del Algoritmo de Estimación . . . 24
2.4.2. Propiedades y Distribución Muestral de ˆβ . . . 28
2.4.3. Métodos Bayesianos de Estimación . . . 32
2.5. Función Deviance y el Estadístico de Pearsonχ2 Generalizado . . . 33
2.6. Estimación del Parámetroφ . . . 38
2.7. Análisis de la Deviance . . . 39
2.8. Tests de Hipótesis . . . 41
2.8.1. Test de Razón de Verosimilitudes . . . 43
2.8.2. Test de Wald . . . 43
2.8.3. Test Score . . . 44
2.9. Intervalos de Conanza . . . 46
2.10. Técnicas para la Vericación del Ajuste de un Modelo a un Conjunto de Datos . . . 47
2.11. Análisis de Residuos y Diagnósticos . . . 47
2.11.1. Introducción . . . 47
2.11.2. Tipos de Residuos . . . 48
2.11.3. Tipos de Grácos . . . 49
2.12. Vericación de la Función de Enlace . . . 51
2.13. Vericación de la Función de Varianza . . . 52
2.14. Vericación de las Escalas de las Covariables . . . 53
3. Modelos de Ocupación 61
3.1. Situación de Muestreo . . . 62
3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida . . . 63
3.3. Modelado . . . 65
3.3.1. Construcción de un Modelo . . . 65
3.3.2. Estimación . . . 67
3.3.3. Observaciones Faltantes . . . 73
3.3.4. Modelado de Covariables . . . 74
3.3.5. Ajuste del Modelo . . . 76
3.3.6. Ejemplo de Modelos de Ocupación . . . 80
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña . . 81
3.4.1. Predicción del Estado de Ocupación No Observado . . . 83
3.4.2. Formulación Bayesiana del Modelo . . . 85
3.5. Modelos con Probabilidad de Detección Heterogénea . . . 88
4. Modelos de Ocupación con Componente Espacial 91 4.1. Introducción . . . 91
4.2. Análisis Espacial . . . 92
4.2.1. Matrices de Pesos Espaciales . . . 92
4.2.2. Medidas de Autocorrelación Espacial . . . 98
4.3. Autocovariable Espacial . . . 102
4.3.1. Modelos Espaciales con Detección Perfecta . . . 102
4.3.2. Modelos Espaciales con Detección Imperfecta . . . 104
4.4. Ejemplo . . . 106
4.5. Discusión . . . 108
5. Caso de Estudio: El Sapito de las Sierras 111 5.1. Introducción . . . 111
5.2. Métodos . . . 111
5.3. Modelado . . . 116
5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica . . . 118
5.5. Conclusiones . . . 120
6. Caso de Estudio: Loros de Bolivia 121 6.1. Introducción . . . 121
Índice general
6.3. Modelado . . . 123
6.4. Conclusiones . . . 126
A. Anexo: Implementación en R 129 A.1. Modelos de Ocupación Básicos en R . . . 129
A.2. Estimaciones de los Parámetros . . . 133
A.3. Selección de Modelos y Modelo Promedio . . . 135
A.4. Bondad de Ajuste y Bootstrap Paramétrico. . . 136
A.5. Métodos Bayesianos . . . 137
A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica . . . 138
1. Introducción
En los últimos años se ha ido aanzando la relación entre la matemática y otras disciplinas, siendo la biología una de las que más explota esta relación. La biomatemática o biología matemática se basa en la aplicación de modelos matemáticos a áreas como la epidemiología, la medicina, la biología celular y la ecología (Murray, 2011). Esta última estudia la relación entre los organismos y su entorno, y será el área en la que se centrará este trabajo.
Una de las herramientas más modernas de la biomatemática son los modelos de ocupación, los cuales centran su atención en el estudio de la proporción de sitios ocupados por una especie de interés. El concepto de "ocupación" surge en principio como un sustituto de la abundancia, pero se ha ido consolidando rápidamente como una variable de estado poblacional, permitiendo así desarrollar métodos de inferencia sobre procesos en las poblaciones (MacKenzie, 2006).
Los modelos de ocupación permitieron considerar la posibilidad de que una especie estuviera presente en un sitio y no fuera detectada durante un muestreo (MacKenzie y Royle, 2005). Modelar de manera simultánea la probabilidad de ocupación y de detección es la principal fortaleza de estos modelos.
En este trabajo se estudiarán en profundidad los modelos de ocupación con el ob-jetivo de presentar modelos matemáticos que permitan comprender mejor el comporta-miento de especies amenazadas y desarrollar herramientas que ayuden a su conservación.
métricas que permitirán interpretar y diagnosticar los resultados obtenidos. Por último, se estudiará el proceso de selección de modelos y las métricas de inferencia multi-modelo.
En el Capítulo 3 se presentarán los modelos de ocupación comenzando por modelos con probabilidad de detección conocida para luego estudiar aquellos modelos que con-sideran esta probabilidad desconocida. Análogamente al capítulo anterior, se estudiarán paralelamente los enfoques Bayesiano y de máxima verosimilitud, haciendo hincapié so-bre este último. Adicionalmente, se complejizarán los modelos mediante la introducción del concepto de observaciones faltantes y el modelado de covariables. Se analizará luego la bondad del ajuste de los modelos presentados y la estimación de la ocupación para poblaciones nitas. Por último y sin entrar en detalles, se introducirán los modelos de ocupación heterogénea.
En el Capítulo 4, se introducirán los modelos de ocupación con una componente espacial, que constituye una alternativa original para el modelado del comportamien-to espacial de las especies. Inicialmente se estudiarán diferentes maneras de medir la autocorrelación espacial entre sitios. Estos conceptos serán utilizados para construir un término espacial a partir del cual se plantearán modelos espaciales con detección perfecta e imperfecta.
En los Capítulos 5 y 6 se desarrollarán respectivamente dos casos de estudio ori-ginales en los cuales se aplican los modelos de ocupación. El primer conjunto de datos corresponde al Sapito de las Sierras (Melanophryniscus a. montevidensis) una especie amenazada y endémica del pastizal serrano del Sistema de Tandilia en Argentina (Fried-man et al., 2016). El segundo conjunto de datos corresponde al Guacamayo de Barba Azul (Ara glaucogularis), una especie amenazada y endémica de los Llanos de Moxos (Bolivia). Estos datos forman parte de un estudio más general sobre la ocupación de 23 especies de loros que habitan el norte de Bolivia (Berkunsky et al., 2015).
2. Modelos Lineales Generalizados
2.1. Introducción
Muchas veces, en diferentes áreas de aplicación, se desea analizar la relación fun-cional que existe entre un grupo de variables. Una herramienta que puede ser de utilidad para este n son los llamados Modelos Lineales, principalmente los modelos de regresión y de análisis de varianza. Estos modelos tienen como hipótesis que una de las variables es respuesta de las otras, esta respuesta es continua y generalmente normalmente dis-tribuida con media cero y varianza constantes para los distintos valores de las variables independientes.
Cuando la variable de respuesta es discreta o categórica se encuentra que los mo-delos lineales no son aplicables. Ante esta limitación, en 1972, Nelder y Wedderburn propusieron una teoría unicadora de modelos estadísticos, a la que llamaron Modelos Lineales Generalizados (MLG), como una extensión de los modelos lineales clásicos. Esta familia de modelos considera como distribución de la variable respuesta a todas aquellas funciones de distribución que pertenecen a la familia exponencial, dentro de la cual se encuentran las distribuciones Binomial, Poisson, Hipergeométrica, además de la Normal.
Ellos mostraron entonces que muchos de los problemas estadísticos que se pre-sentan en las áreas de agricultura, demografía, ecología, economía, geografía, geología, historia, medicina, ciencias políticas, psicología, sociología, cría de animales, etc., pueden ser formulados de manera unicada como modelos de regresión.
2.2. Modelo Lineal General
El modelo lineal general surge ante la necesidad de expresar cuantitativamente las relaciones entre una variable de respuesta (o dependiente) y otras variables explicativas (o independientes), también llamadas covariables.
Sea Y una variable aleatoria con distribución perteneciente a la familia de distri-buciones H, y explicada por el conjunto de variables X1, X2, . . . , Xp, jadas antes de
conocerY. Entonces, la esperanza condicional deY viene dada por:
E(Y |X1, X2, . . . , Xp) =β0+β1X1+· · ·+βpXp=µ.
Si se extrae una muestra aleatoria de tamaño n de una población para la cual existe una relación lineal entre la variable de respuesta y las variables independientes, cada observación de la muestra puede expresarse como:
yi=β0+β1xi1+· · ·+βpxip+εi coni= 1,2, . . . , n.
El término εi corresponde a una perturbación aleatoria no observable llamada error
aleatorio, que tiene esperanza cero y varianza σ2 constante. Si se asume además que i6=j entonces εi yεj no están correlacionados entre sí.
La ecuación anterior se puede expresar en forma matricial como Y =Xβ+ε. El
vector de respuestaY está compuesto por una componente sistemática y otra aleatoria. La primera corresponde al predictor lineal η = Xβ, y la segunda está formada por el
vector aleatorio Y de elementos independientes entre sí, con distribución f ∈H, vector de esperanzas μ y matriz de covarianzas σ2I. Calculando la esperanza de Y se obtiene
queE(Y) =Xβ=µ.
El modelo lineal general tiene como característica que, mientras la variable de respuestaY es cuantitativa, sus covariables pueden ser cuantitativas o categóricas cuali-tativas, siendo además independientes entre sí.
Covariables
2.2. Modelo Lineal General
uno representando el cambio esperado en la respuesta por cada unidad de cambio en la covariable, cuando las demás variables regresoras son constantes. Si todas las variables regresoras incluyen al cero en su recorrido, el coeciente β0, conocido como intercepto, puede interpretarse como la media de la distribución de la variable de respuesta.
Puede suceder que 2 o más variables tengan un efecto sobre la variable de respuesta cuando interactúan, por lo que sería de interés incluir estas componentes en el modelo para lograr un mejor ajuste, siempre y cuando la interacción sea interpretable.
Cuando el predictor linealηestá formado sólo por variables cualitativas, están son
llamadas factores y los valores que toman se denominan niveles del factor. No siempre sucede que estos niveles tienen un orden natural asociado, siendo usual incluir covariables como tipo de hábitat, color de pelaje de la especie, entre otras, conocidas como covariables de tipo nominal. Las covariables también pueden poseer un orden que no necesariamente implique magnitud, como un orden de preferencias. A estas covariables se las llama ordinales.
Si las observaciones se clasican en 2 o más factores, se habla de un análisis multi-factorial. Las combinaciones entre los niveles considerados se conocen como tratamientos. Por ejemplo, si se tiene un modelo con 2 factores, se incluyen términos de la formaαi+βj,
y en el caso que existan interacciones entre ellos, pueden aparecer términos de la forma (αβ)ij. Entonces, un modelo de dos factores se representa como:
yijm =δ+αi+βj+ (αβ)ij+εijm
dondeyijmes la respuesta delm-ésimo sujeto correspondiente ali-ésimo nivel del primer
factor y al j-ésimo del segundo,δ es la media general y εijm es la componente aleatoria
antes descripta.
Para 3 o más factores, el modelo presentado puede generalizarse de manera natural.
Variables Dummy
Considérese la situación que se tiene una variable de respuesta con p niveles y n repeticiones por cada nivel. El modelo será
donde yij es la j-ésima observación correspondiente al i-ésimo nivel del tratamiento. La
representación matricial del modelo seráY=Xβ+ε.
La matriz Xse dene de acuerdo a los objetivos del estudio, siendo determinante en la manera en que se interpretarán los parámetros.
De acuerdo a lo anterior, el modelo sería:
Y11 Y12 ... Y1n
Y21 ... Yij ... Ypn =
1 1 0 · · · 0 · · · 0 1 1 0 · · · 0 · · · 0 ... ... ... ... ... ... ... 1 1 0 · · · 0 · · · 0 1 0 1 · · · 0 · · · 0 ... ... ... ... ... ... ... 1 0 0 · · · 1 · · · 0 ... ... ... ... ... ... ... 1 0 0 · · · 0 · · · 1
δ β1 ... βi ... βp + ε11 ε12 ... ε1n
ε21 ... εij ... εpn .
Para asegurarse que XtX sea inversible, las columnas de la matriz (es decir las observaciones) deben ser linealmente independientes. Para lograr este objetivo, si el factor tiene p niveles, se denirá una variable con p−1 niveles. Esta variable se conoce como articial, contraste o dummy.
Esta reparametrización se conoce como reparametrización del punto central. Si una variable tienep niveles se debe seleccionar uno de ellos como categoría de referencia. Si se toma la última categoría como referencia, lai-ésima columna deXcontendría un 1 en lai-ésima la, -1 en la última la y 0 en las demás. Siαi es el parámetro correspondiente
ali-ésimo nivel del factor, lasp−1columnas producirán estimadores independientes de los parámetrosα1, α2, . . . , αp−1.
Por ejemplo, si nuestra variable tiene 2 categorías, la reparametrización vendrá dada por:
Xi=
1 si la observación pertenece al i-ésimo nivel del factor −1 caso contrario
2.3. Modelos Lineales Generalizados (MLG)
Y si nuestra variable tiene más de 2 niveles:
Xi =
1 si la observación pertenece al i-ésimo nivel del factor 0 caso contrario
−1 nivel de referencia
.
Esta parametrización compara el efecto de cada una de las categorías de las varia-bles independientes con el efecto de la categoría de referencia.
2.3. Modelos Lineales Generalizados (MLG)
Como ya se comentó, Nelder y Wedderburn (1972) mostraron que las situaciones que pueden ser formuladas de manera unicada como modelos de regresión. Estos mode-los involucran una variable de respuesta univariada, variables explicativas y una muestra aleatoria de n observaciones. La variable de respuesta tiene una distribución pertene-ciente a la familia exponencial en la forma canónica. Para datos continuos se usan las distribuciones Normal, Gamma y Normal Inversa. La distribución Binomial es utilizada para proporciones, mientras que para conteos se recurre a la distribución de Poisson y Binomial Negativa.
Para una muestra de n observaciones (yi,xi), con xi = (x1,i, x2,i, . . . , xp,i)t el
vector columna de variables explicativas, el Modelo Lineal Generalizado está formado por las tres componentes siguientes:
1. Componente aleatoria. Representada por un conjunto de variables aleatorias independientesY1, Y2, . . . , Ynprovenientes de una misma distribución que es parte
de la familia exponencial en forma canónica, con medias µ1, µ2, . . . , µn, es decir
E(Yi) = µi; y un parámetro constante de escala conocido, φ > 0, que depende
de un único parámetro θi, llamado canónico o natural. La función densidad de
probabilidad (f.d.p.) de cadaYi está dada por:
f(yi;θi, φ) =exp
1 ai(φ)
[yiθi−b(θi)] +c(yi;φ)
(2.1)
Además por propiedades de la familia exponencial en forma canónica:
E(Yi) =µi=b0(θi)
V ar(Yi) =ai(φ)b00(θi) =ai(φ)V (µi) =ai(φ)Vi (2.2)
con Vi = dµdθii llamada función de varianza que, como depende únicamente de la
media, permite expresar el parámetro natural como θi = ´
Vi−1dµi = q(µi), con
q(µi)una función conocida.
2. Componente sistemática. Las variables explicativas entran en el modelo en for-ma de una sufor-ma lineal de sus efectos:
ηi = p X
j=1
xijβj =xitβ
o
η=Xβ
con X= (x1,x2, . . . ,xn)tla matriz del modelo,β= (β1, β2, . . . , βp)t el vector de
parámetros y η= (η1, η2, . . . , ηn)t el predictor lineal.
3. Función de enlace. Tiene como nalidad vincular la componente aleatoria con la sistemática. Relaciona la media con el predictor lineal, es decir ηi =g(µi) donde
g(·)es una función monótona derivable.
Por lo tanto, para una especicación del modelo, los parámetrosθi de la familia
exponen-cial no son de interés directo (porque hay uno para cada observación), pero sí un conjunto más chico de parámetrosβ1, β2, . . . , βp tal que una combinación de ellos es igual a una
función del valor esperado deYi.
Ejemplo 1. SeaY una v.a. con distribución Normal de mediaµdesconocida y varianza conocidaσ2 >0, entonces su f.d.p. es:
f y;µ, σ2= √ 1 2πσ2 exp
(
−(y−µ) 2
2σ2
)
,
2.3. Modelos Lineales Generalizados (MLG)
Desarrollando esta expresión se obtiene:
f y;µ, σ2= exp
(
−(y−µ) 2
2σ2 − 1
2ln 2πσ 2 ) = exp 1 σ2
−y2+ 2yµ−µ2 2
− 1
2ln 2πσ 2 = exp 1 σ2
yµ−µ 2
2
− y 2
2σ2 − 1
2ln 2πσ 2
.
Tomando
θ=µ a(φ) =σ2
b(θ) = µ 2 =
θ2
2 c(y;φ) =− 1 2
y2
σ2 + ln 2πσ 2
se muestra que la distribución N µ, σ2 con µ desconocido y σ2 > 0 conocido, pertenece a la familia exponencial en la forma canónica.
Ejemplo 2. SeaY una v.a. con distribución Binomial y f.d.p. dada por:
f(y;π) =
m y
πy(1−π)m−y,
con m∈N, el número de ensayos,p∈[0,1], la probabilidad de éxito.
Se tiene entonces que:
f(y;π) = exp
ln m y
+yln (π) + (m−y) ln (1−π)
= exp yln π 1−π
+mln (1−π) + ln
m y
.
De lo que se desprende:
a(φ) = 1 θ= ln
π 1−π
→π = e
θ
1 +eθ
b(θ) =−mln (1−π) =mln1 +eθ c(y;φ) = ln
m y
Por lo tanto, la distribución Binomial pertenece a la familia exponencial en la forma canónica.
Ejemplo 3. Sea ahoraY una v.a. con distribución Poisson, por lo tanto su f.d.p. está dada por:
f(y;µ) = µ
ye−µ
y! , conµ >0.
Luego
f(y;µ) = exp{yln (µ)−µ−ln (y!)}.
Ahora tomando
a(φ) = 1 θ= ln (µ)
b(θ) =eθ c(y;φ) =−ln (y!),
se demuestra que la distribución Poisson pertenece a la familia exponencial en su forma canónica.
Funciones de Enlace Canónicas
Si se elige una función de enlace tal que g(µi) = θi, entonces el predictor lineal
modela el parámetro canónico y la función se llama de enlace canónico. Esto se traduce en una escala adecuada para el modelado con interpretación práctica para los parámetros de regresión, tiene ventajas teóricas y simplica el algoritmo de estimación.
Las funciones de enlace canónicas para algunas distribuciones de la familia expo-nencial se presentan en la Tabla 2.1:
Notar que aunque las funciones de enlace canónicos proporcionan propiedades esta-dísticas deseables, sobre todo para muestras chicas, no existe una razón a priori para que los efectos sistemáticos del modelo sean aditivos en el intervalo dado por dichas funciones (McCullagh y Nelder, 1989).
2.3. Modelos Lineales Generalizados (MLG)
Tabla 2.1.: Funciones de enlace canónicas
Distribución Función
Normal Identidad: η=µ
Poisson Logarítmica: η= ln (µ) Binomial Logística: η= ln
π
1−π
= ln
µ m−µ
Gamma Recíproca: η= µ1
Normal inversa Recíproca2: η = 1 µ2
No obstante, cuando se trabaja, por ejemplo, con la distribución de Poisson (para la cual µ > 0), la función identidad no debe utilizarse, porque ηˆ podría tomar valores negativos dependiendo de los valores obtenidos paraβˆ. Esta distribución se utiliza cuando se tienen datos de conteo dispuestos en tablas de contingencia que, bajo el supuesto de independencia, conducen naturalmente a efectos multiplicativos (si la variable Xi
aumenta nunidades, la probabilidad para la variable de Poisson se multiplica porenβi). Estos efectos pueden linealizarse a través de la función de enlace logarítmica, es decir, η = ln (µ), de donde se obtieneµ=eη.
Para la distribución Binomial se tiene la restricción de que, la probabilidad de éxito π, debe ser 0 < π < 1 y, por lo tanto, la función de enlace debe transformar el intervalo[0,1]en la recta real. Este es el caso de las funciones de enlace más comúnmente encontradas, que además de la canónica son las funciones:
Probit:η= Φ−1(π) = Φ−1
µ
m
con Φla función de distribución Normal Estándar Complemeto log-log: η= ln [−ln (1−π)] = ln
h
−ln
1− µ m
i
.
También se puede considerar la familia de funciones de enlace dada por
η= ln
"
(1−π)−λ−1 λ
#
,
donde λ es una constante desconocida. Esta familia tiene como casos particulares el modelo logístico paraλ= 1 y el complemento log-log para λ→0.
la familia potencia dada por
η =
µλ−1
λ siλ6= 0
ln (µ) siλ= 0 o también
η=
µλ si λ6= 0 ln (µ) si λ= 0 conλuna constante desconocida.
2.4. Estimación del Vector de Parámetros
β
Existen dos métodos clásicos para estimar los parámetros desconocidos de un mo-delo lineal general, uno es el de máxima verosimilitud y otro es el método de mínimos cuadrados generalizados que, a su vez, tiene al método de mínimos cuadrados ponderados como caso particular.
El ajuste de un modelo lineal generalizado se determina por el vector βˆ de estima-ciones de los parámetros. Para estimar losβ's se usará el método de máxima verosimilitud dado que en los casos que se van a trabajar en capítulos posteriores, la distribución de la variable de respuesta se asume con distribución conocida.
Dado un vector de observaciones independientes y1, y2, . . . , yn, la función de
ve-rosimilitud cuantica la posibilidad (o veve-rosimilitud) de que estas hayan sido generadas por el vector de parámetrosβ. Entonces, la función de verosimilitud L está dada por la
función de densidad conjunta de las variables aleatorias independientesY1, Y2, . . . , Yn:
L(β|y) = n Y
i=1
f(yi|θi).
Para variables aleatorias provenientes de la familia exponencial, el logaritmo de la fun-ción de verosimilitud para el conjunto de observacionesy1, y2, . . . , yn, es la suma de las
contribuciones individuales, es decir:
LL(θ|y) =
n X
i=1
LL(θi |yi) = n X
i=1
log [L(θi |yi)] = n X
i=1
1 ai(φ)
[yiθi−b(θi)] +c(yi;φ)
2.4. Estimación del Vector de Parámetros β
Esto correspondería a resolver el sistema de ecuacionesUθ= dLLdθ = 0o equivalentemente
en términos de losβ's,Uβ=
dLL
dβ = 0. La familia exponencial posee ciertas propiedades
de regularidad que aseguran la existencia de una única solución al sistema y, por lo tanto, de un máximo global para la verosimilitud (Fahrmeir y Kaufmannm, 1985). Se tiene entonces que la funciónUj, llamada función score, está dada por:
Uj =
∂LL(θi |yi, φ)
∂βj
= ∂LLi ∂βj
Siguiendo la regla de la cadena se tiene que:
Uj = n X i=1 dLLi dθi dθi dµi dµi dηi ∂ηi ∂βj = n X i=1 1 ai(φ)
yi−b0(θi) 1 Vi dµi dηi xij Luego:
Uj = n X
i=1
(yi−µi)
ai(φ)V (µi)
dµi
dηi
xij (2.3)
En general las ecuaciones Uj = 0, no son lineales y tienen que ser resueltas
numé-ricamente por Newton-Raphson. Para obtener una solución al sistemaUβ=
dLL
dβ = 0, se
utiliza una versión multivariada del método de Newton-Raphson:
β(M+1)=β(M)+ I0−1(M)U(M)
con β(M)yβ(M+1), los vectores de los parámetros estimados en los pasos M y(M+ 1),
respectivamente.U(M) es el vector de derivadas parciales de primer orden con elementos
∂LL ∂βj, y I
−1 0
(M)
es la matriz de derivadas parciales de 2o orden con elementos −∂2LL ∂βj∂βk, ambos evaluados en el paso M.
Cuando las derivadas de 2o orden se obtienen fácilmente, este método es bastante
útil. Pero en el caso de los MLG esto no siempre ocurre, por lo que puede usarse el método de score de Fisher, que es, en general, más simple y coincide con Newton-Raphson cuando se trabaja con funciones de enlace canónicas. Este método consiste en sustituir la matriz de derivadas parciales de 2o orden por la matriz de valores esperados de derivadas
parciales; esto es cambiar la matriz de información observada, I0, por la de información esperada de Fisher, I. Luego:
con I dada por los elementos Ijk = E h
−∂2L
∂βj∂βk
i = E h ∂L ∂βj ∂L ∂βk i
= E(UjUk), que es la
matriz de covarianzas de losUj's.
De 2.3 se tiene:
Ijk =
n X
i=1
E(Yi−µi)2
[ai(φ)V (µi)]2
dµi
dηi 2
xijxik = n X
i=1
Eh(Yi−µi)2 i
[ai(φ)V (µi)]2
dµi
dηi 2
xijxik
=
n X
i=1
V ar(Yi)
[ai(φ)V (µi)]2
dµi
dηi 2
xijxik = n X
i=1
a(φ)V (µi)
[ai(φ)V (µi)]2
dµi
dηi 2
xijxik
=
n X
i=1
1 a(φ)V (µi)
dµi
dηi 2
xijxik
y haciendo ai(φ) = wφi, con φ > 0 constante, wi los pesos a priori y deniendo Wi = wi
V(µi)
dµi
dηi
2
, resulta:
I = 1 φX
tWX
donde cada elementoIjk esIjk =
n P i=1
1
φxijWixik, siendoX la matriz del modelo y
W=diag(W1, W2, . . . , Wn). (2.5)
Además, reordenando los términos deUj:
Uj = n X
i=1
wi(yi−µi)
φV (µi)
dµi
dηi
xij = n X
i=1
(yi−µi)
φ Wi
dµi
dηi −1
xij = n X
i=1 1 φxijWi
dηi
dµi
(yi−µi)
por lo tanto el vector de scores es:U= φ1XtW∆ (y−µ), con∆ =diag
n dη1
dµ1,
dη2
dµ2, ...,
dηn
dµn
o
= diag{g0(µ
1), g0(µ2), ..., g0(µn)}.
Reemplazando I yU en 2.4:
I(M)β(M+1)=I(M)β(M)+U(M)
1 φX
tW(M)X
β(M+1)=
1 φX
tW(M)X
β(M)+
1 φX
tW(M)∆(M)(y−
μ)(M)
XtW(M)Xβ(M+1)=XtW(M) h
Xβ(M)+ ∆(M)(y−μ)(M) i
2.4. Estimación del Vector de Parámetros β
dependiente ajustada, se tiene:
XtW(M)Xβ(M+1) =XtW(M)z(M)
Finalmente se obtiene:
β(M+1)= h
XtW(M)Xi
−1
XtW(M)z(M)
que es independiente deφ.
Para iniciar el proceso iterativo se suele especicar una estimación inicialβ(0), que
se actualiza sucesivamente hasta lograr la convergencia y que, por lo tanto, ˆβ=β(M+1). Notar que cada observación se puede considerar como una estimación de su valor medio, i.e. µˆi =yi, y por lo tanto ηˆi =g(ˆµi) =g(yi). Usandoηˆ como variable independiente y
X, la matriz del modelo, se puede obtener la estimación inicialβ(0).
El algoritmo de estimación puede ser resumido en los siguiente pasos:
1. Obtener las estimaciones
ηi(M)=
p X
j=1
xijβj(M)
µ(iM) =g−1ηi(M) 2. Obtener la variable dependiente ajustada
zi(M) =ηi(M)+yi−µ(iM)
g0µ(iM) y los pesos
Wi(M)= wi
V
µ(iM)
h
g0
µ(iM)
i2
3. Calcular
β(M+1) = h
XtW(M)X
i−1
XtW(M)z(M)
Un criterio para vericar la convergencia, entre otros, resulta de plantear:
p X
j=1
βj(M)−βj(M+1) βj(M)
!2
< ξ
conξsucientemente pequeño. En general, el algoritmo anterior es robusto, convergiendo luego de unas pocas iteraciones (Demétrio, 2001).
Observación: La funcióng(·) puede no estar denida para algunos valores deyi.
A continuación se muestra un ejemplo de cómo proceder en este caso.
Por ejemplo, si la función de enlace estuviera dada por:
ηi=g(µ) = lnµ
y fueran observados valores yi = 0, el proceso no podría iniciarse. Un método para
solucionar este problema, es sustituiry pory+c, tal queE[g(Y +c)] esté lo más cerca posible deg(µ). De forma general, usando la aproximación de Taylor hasta2oorden para g(y+c) en relación ag(µ), se tiene:
g(y+c)≈g(µ) + (y+c−µ)g0(µ) + (y+c−µ)2g
00(µ)
2
con valor esperado dado por:
E[g(y+c)]≈g(µ) +E(Y −µ)g0(µ) +cg0(µ) +V ar(Y)g
00(µ)
2 , luego tomar:
c≈ −1
2V ar(Y) g00(µ)
g0(µ).
2.4.1. Ejemplo del Algoritmo de Estimación
Una de las aplicaciones más comunes de los modelos antes descritos son los ensayos del tipo dosis-respuesta. En la situación general, una droga determinada se administra a k diferentes grupos de m1, m2, . . . , mk individuos, en dosis d1, d2, . . . , dk
respecti-vamente, obteniendo así una respuesta. Luego de un periodo especíco, de cada grupo y1, y2, . . . , yk individuos mudan de estado, es decir, ocurre un evento como, por
2.4. Estimación del Vector de Parámetros β
Tabla 2.2.: Número de insectos muertos (yi) sobre un total demi que recibieron una dosis
di de insecticida
Dosis (di) Total (mi) Muertos (yi) Proporción (pi)
10,2 50 44 0,88
7,7 49 42 0,86
5,1 46 24 0,52
3,8 48 16 0,33
2,6 50 6 0,12
0,0 49 0 0,00
pueden ser considerados como provenientes de una distribución Binomial con probabili-dad πi, que corresponde a la probabilidad de ocurrencia (éxito) de un evento, entonces
Yi∼Bin(mi, πi).
El objetivo de este tipo de experimentos es, en general, modelar la probabilidad de éxito πi, en función de variables explicativas para luego determinar las dosis efectivas
DLp, que son aquellas que causan el cambio de estado en el p% de individuos (por
ejemplo, DL50,DL90).
En la Tabla 2.2 se encuentran los datos correspondientes a un ensayo de toxicidad del la sustancia rotenona, que se utiliza como insecticida, en el cual dosis (di) del producto
fueron aplicadas a mi insectos (Macrosiphoniella sanborni, conocido como pulgón del
crisantemo) y luego de un determinado tiempo se contó la cantidad de insectos muertos (yi).
Si se gracan las proporciones de insectos muertos (pi = yi/mi) contra las dosis
(di), se puede ver cómo los puntos describen una curva de aspecto sigmoidal (Ver Figura
2.1), lo cual ayuda en la elección de un modelo para πi.
SiYi ∼Bin(mi, πi), del Ejemplo 2 se tiene que su f.d.p. en la forma exponencial
canónica es
f(yi;πi) = exp
yiln
πi
1−πi
+miln (1−πi) + ln
mi
yi
,
y que
ai(φ) = 1 θi = ln
πi
1−πi
→πi =
eθi 1 +eθ
b(θi) =−miln (1−πi) =miln
1 +eθi
c(yi;φ) = ln
mi
yi
De la primera ecuación se obtiene queφ= 1 y quewi= 1.
De las Ecuaciones 2.2 resulta
E(Yi) =µi =b0(θi) =miπi
V ar(Yi) =ai(φ)b00(θi) =miπi(1−πi) =
1 mi
µi(mi−µi)
Vi=V (µi) =b00(θi) =
1 mi
µi(mi−µi).
Adoptando la función de enlace canónica, que en este caso sería la función logística, y el predictor lineal dado por una regresión simple, es decir
ηi =g µi mi = ln µi
mi−µi
=β1+β2di
se tiene
µi=mig−1(ηi) =mi
eηi 1 +eηi dηi
dµi
= (mi−µi) +µi (mi−µi)2
mi−µi
µi
= mi µi(mi−µi)
= 1 Vi
.
La matriz del modeloX y el vector de parámetrosβ quedan como
X=
1 d1 1 d2 . . . .
1 dn
β= (β1, β2)t.
Siguiendo el algoritmo de estimación, la variable ajustada dependientezi y los pesosWi
serán
zi =ηi+ (yi−µi)
mi
µi(mi−µi)
Wi =
wi
Vi(g0(µi))2
2.4. Estimación del Vector de Parámetros β
luego
XtW=
"
1 1 . . . 1
d1 d2 . . . dn #
W1 0 . . . 0
0 W2 . . . 0
. . . .
0 0 . . . Wn
= "
W1 W2 . . . Wn
W1d1 W2d2 . . . Wndn #
XtWX=
n P i=1 Wi n P i=1
Widi
n P i=1
Widi n P i=1
Wid2i
,
cuya inversa se puede calcular como
XtWX−1 = adj X
tWX
det (XtWX) =
1 n P i=1 Wi n P i=1
Wid2i − n
P i=1
Widi 2 n P i=1
Wid2i − n P i=1
Widi
− Pn i=1
Widi n P i=1 Wi . Además
XtWz=
n P i=1
Wizi
n P i=1
Widizi
.
Por lo tanto
β(M+1)= "
β1(M+1)
β2(M+1)
#
= 1
det XtW(M)X n P i=1
Wi(M)d2i
n P i=1
Wi(M)zi(M)−
n P i=1
Wi(M)di n P i=1
Wi(M)dizi(M)
n P i=1
Wi(M)
n P i=1
Wi(M)diz(iM)− n P i=1
Wi(M)di n P i=1
Wi(M)zi(M)
.
De esta manera, haciendo uso de esta fórmula recursiva y asistiéndose de un soft-ware especíco para facilitar los cálculos (en este caso la función glm de R), se llega a las estimaciones de máxima verosimilitud de los parámetros βˆ1 =−3,23 yβˆ2 = 0,61, lo que se traduce en el modelo de regresión logística estimado
ˆ
p(d) = e
−3,23+0,61d
Figura 2.1.: Gráco de las proporciones (pi) versus las dosis (di) junto a la curva de
regresión logística estimada
Dado un valor parad, la dosis del insecticida, se obtiene la probabilidad estimada de que un insecto muera cuando se le aplica dicha concentración. En la Figura 2.1 se puede apreciar cómo la curva de regresión logística estimada se ajusta a los datos provenientes del ensayo.
2.4.2. Propiedades y Distribución Muestral de ˆβ
Para modelos lineales que tienen variable respuesta con distribución normal, las distribuciones de los estimadores de los parámetros y los estadísticos usados para la vericación del ajuste del modelo pueden determinarse exactamente. Sin embargo, en ge-neral, la obtención de distribuciones exactas es muy complicada y suelen usarse resultados asintóticos. Estos resultados dependen de varias condiciones de regularidad (Fahrmeir y Kaufmannm, 1985) y de los tamaños de las muestras. Si las observaciones son indepen-dientes y provienen de distribuciones muestrales pertenecientes a la familia exponencial, como es el caso de los MLG, estas condiciones se satisfacen.
La idea básica es que si θˆ es un estimador consistente para un parámetro θ y V ar
ˆ
θ
2.4. Estimación del Vector de Parámetros β
1. θˆ es asintóticamente insesgado.
2. El estadístico
Zn=
ˆ θ−θ r V ar ˆ θ n→∞
−−−→Z, con Z ∼N(0,1)
o equivalentemente
Zn2 =
ˆ
θ−θ2
V arθˆ n→∞
−−−→Z2, con Z2 ∼χ21
Ahora, si θˆ es un estimador consistente para un vector θ de p parámetros, se tiene asintóticamente:
ˆ
θ−θtV−1
ˆ
θ−θ∼χ2p
con V la matriz de covarianzas no singular. Si V es singular se debe usar una inversa generalizada o bien realizar una reparametrización, con el n de obtener una nueva matriz de covarianzas no singular.
Algunas propiedades del estimador βˆ son entonces:
I) Es asintóticamente insesgado, i.e., para muestras grandes,Eβˆ
=β.
Prueba: Supóngase que el logaritmo de la función de verosimilitud tiene un único máximo en βˆ, que es cercano al verdadero valor deβ . La aproximación de Taylor hasta los términos de primer orden para el vector score Uβˆ
, en relación a β, y
sustituyendo la matriz de derivadas parciales por −I, está dada por:
U
ˆ
β
=U(β)− I
ˆ
β−β
y como βˆ es solución del sistema Uβˆ = 0, se obtiene que βˆ−β = I−1U(
β).
Entonces, como I es no singular:
E
ˆ
β−β
=I−1E[U(β)] = 0⇒E
ˆ
β
=β
porqueE[U(β)] = 0. Por lo tanto,βˆ es un estimador insesgado deβ(por lo menos
II) Denotando U(β) = U, resulta que la matriz de varianzas de βˆ, para muestras
grandes, está dada por:
Covβˆ
=E
ˆ
β−β βˆ−β t
=I−1E UUt
I−1t
=I−1II−1 =I−1 porque I=EUUty I−1t
=I−1, por ser una matriz simétrica. III) Para muestras grandes, se tiene:
ˆ
β−β t
Iβˆ−β
∼χ2p
o, de forma equivalente:
ˆ
β∼Np β,I−1
que es la base para la construcción de tests e intervalos de conanza para los MLG. En el caso de tener variables de respuesta con distribución normal, las dos ecuaciones anteriores son exactas.
Para muestras chicas, βˆ es bastante sesgado. Además, para n no muy grande, la estructura de las covarianzas de las estimaciones de los parámetros lineales diere de I−1. La matrizI es consistentemente estimada por
ˆ I = 1
φX
tWX,ˆ
con φ constante y conocido, y W como en la Ecuación 2.5. Para las distribuciones Bi-nomial y Poisson, se tiene que φ = 1. Si φ es constante para todas las observaciones y desconocido, afectará la estructura asintótica de Iˆ−1 (con elementos v
jk) pero no el
valor deβˆ. En la práctica, siφes desconocido, (para las distribuciones Normal y Normal Inversa se tiene queφ=σ2, yφ=v−1 para la Gamma) debe ser sustituido por alguna estimación consistente.
Los errores estándar de los estimadores βˆ1,βˆ2, . . . , βˆp son iguales a las raíces cua-dradas de los elementos de la diagonal de Iˆ−1, es decir EEβˆ
p
= √vii. Entonces los
intervalos de conanza asintóticos con un intervalo de conanza del95 %de probabilidad para los parámetrosβj's, se obtienen como:
ˆ
βj =Z1−α2 ±
√
vjj = 1,96±
2.4. Estimación del Vector de Parámetros β
A partir de Iˆ−1, se puede calcular la correlación entre los βˆ
j's de la siguiente
manera:
ˆ
ρjk =Corrˆ
ˆ βj; ˆβk
=
ˆ
Covβˆj; ˆβk r ˆ V ar ˆ βj ˆ V ar ˆ βk
= √vjk vjjvkk
que permite vericar, por lo menos aproximandamente, la interdependencia de los pará-metros.
Ejemplo 4. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N µi, σ2
, siendo queµi =xtiβyσ2 >0, conocido. Considerando como función de enlace la
identi-dad, i.e. ηi=µi, se tiene que
g0(µi) =
dηi
dµi
= 1
Además,V (µi) = 1,wi = 1 y, por consiguiente, Wi = 1. Luego, se tiene
I = 1 φX
tWX= 1
σ2X
tX
y la variable independiente ajustada
zi= ˆηi+g0(ˆµi) (yi−µˆi) = ˆµi+yi−µˆi=yi
Por lo tanto, el algoritmo de estimación es
1 σ2X
tXˆ β= 1
σ2X
ty
y como XtX tiene inversa, resulta
ˆ
β= XtX−1Xty
que es la solución usual de cuadrados mínimos para los Modelos Lineares Clásicos. En-tonces E ˆ β
y
Cov
ˆ
β
=E
ˆ
β−β βˆ−β t
= XtX−1
XtE
(Y−Xβ) (Y−Xβ)tX XtX−1
=σ2 XtX−1 =I−1, porqueE
(Y−Xβ) (Y−Xβ)t=Iσ2 yI = σ12XtX. Finalmente,
ˆ
β−β t
Iβˆ−β
∼χ2p que es una ecuación exacta.
2.4.3. Métodos Bayesianos de Estimación
Los métodos clásicos (no Bayesianos) suponen que los parámetros están jos y tie-nen como objetivo encontrar procedimientos con propiedades deseables para estimarlos. Usualmente, se imaginan realizaciones replicadas de los datos, lo cual supone que es su-ciente realizar inferencias sobre los parámetros basadas en lo que pudo haber pasado (pero no pasó) y no en lo que sí sucedió (los datos observados).
El método Bayesiano, como los métodos clásicos de estimación, ve los datos como una realización de una variable aleatoria, pero, a diferencia de estos, también ve a los parámetros de un modelo como variables aleatorias, asignándoles una distribución a priori que los caracteriza probabilísticamente. El Teorema de Bayes es utilizado para, dados los datos, dar como resultado la distribución de probabilidad de los parámetros, cantidad conocida como distribución a posteriori. El método realiza inferencias sobre los parámetros basándose en esta distribución, condicional a los datos observados.
La distribución a priori de los parámetros se denota como f(θ), mientras que la distribución de las variables aleatorias (de los datos) dados los parámetros esf(y|θ),
que es esencialmente la función de verosimilitudL(θ|y). Usando el Teorema de Bayes, la distribución a posteriori de los parámetros resulta:
f(θ|y) = f(θ)f(y|θ)
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
siendo esta la base de la inferencia Bayesiana. Por ejemplo, la media a posteriori de los β's es utilizada como una estimación puntual para la cual se pueden construir intervalos de conanza Bayesianos, también conocidos como intervalos de credibilidad, usando los cuantiles de la distribución a posteriori.
Cuando se utilizan distribuciones a priori constantes o uniformes, es decir que todos los parámetros tienen la misma probabilidad de ocurrir, la distribución a posteriori y la verosimilitud se vuelven proporcionales f(θ|y) ∝ f(y|θ) = L(θ|y). Esto signica que, a pesar de las diferencias entre las losofías subyacentes de los dos enfoques, en esta situación los dos métodos tienden a ser similares para datos de suciente calidad.
Para los métodos de estimación Bayesiana, el hecho de considerar los parámetros como provenientes de una distribución, y no como cantidades jas, resulta de utilidad cuando se consideran modelos con "efectos aleatorios". Es decir que, dado un parámetro, en vez de suponer que su valor es igual para todas las muestras, se pueden considerar que los valores de este parámetro para las diferentes muestras provienen de una misma distribución subyacente pero con diferentes realizaciones.
La inferencia Bayesiana moderna utiliza a menudo métodos de integración numérica para obtener las distribuciones a posteriori si el número de parámetros es chico. Para ello se suele recurrir a métodos de simulación basados en Monte Carlo vía cadenas de Markov (MCMC), los cuales pueden proveer fácilmente estimaciones para modelos con los cuales sería demasiado complicado trabajar desde una perspectiva frecuentista, como la de máxima verosimilitud.
2.5. Función Deviance y el Estadístico de Pearson
χ
2Generalizado
Dadasnobservaciones, se pueden ajustar modelos que contengan hastan paráme-tros. El modelo más simple es el modelo nulo o constante que tiene un único parámetro, representado por un valor común a todos los datos. La matriz de este modelo se reduce a un vector columna compuesto de1's. El modelo nulo atribuye toda la variación entre losy's al componente aleatorio.
En el otro extremo, se encuentra el modelo saturado o completo, que tiene n pa-rámetros, uno por observación. Este modelo atribuye toda la variación al componente sistemático y, por lo tanto, se ajusta perfectamente, reproduciendo los mismos datos.
Existen otros dos modelos limitantes pero menos extremos. Uno es el modelo mi-nimal que incluye el menor número de parámetros necesarios para el ajuste.
Por otro lado, el modelo maximal contiene el mayor número de términos que pueden ser considerados. Los términos de estos modelos extremos son, en general, obtenidos por interpretaciones a priori de la estructura de los datos.
En general, se suele trabajar con modelos encajados. Entonces, el conjunto de ma-trices de los modelos puede ser construido por la adición sucesiva de términos al modelo minimal hasta llegar al maximal. Cualquier modelo conp parámetros linealmente inde-pendientes que esté entre los modelos minimal y maximal, es llamado modelo corriente o subyacente. El problema es determinar la utilidad de adicionar un parámetro más al modelo corriente y vericar la falta de ajuste inducida por la omisión de este.
Para discriminar entre modelos se deben introducir medidas de discrepancia que midan el ajuste de los mismos. Un ejemplo, es la deviance, propuesta por Nelder y Wedderburn (1972) y dada por:
Sp= 2
ˆ
LLn−LLˆ p
,
conLLˆ nyLLˆ p los máximos del logaritmo de la función de verosimilitud para los modelos saturado y corriente, respectivamente. Como se ve, el modelo saturado es utilizado como base de la medida de ajuste de un modelo corriente.
Tomando ai(φ) =wφi, se tiene:
ˆ LLn=
1 φ
n X
i=1
n
wi h
yiθ˜i−b
˜ θi
i
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
y
ˆ LLp =
1 φ n X i=1 n wi h
yiθˆi−b
ˆ θi
i
+c(yi;φ) o
con θ˜i = ˜θ(yi) y θˆi = ˆθ(ˆµi), las estimaciones de los parámetros canónicos para los modelos saturado y corriente, respectivamente. Se tiene entonces
Sp =
1 φ n X i=1 2wi n yi h ˜ θi−θˆi
i
−bθ˜i
+bθˆi o
= 1 φDp
donde Sp es llamada deviance escalada, yDp deviance. Se puede escribir también como
Sp=
1 φ
n X
i=1 d2i
donde d2i es llamado componente de deviance y mide la diferencia de los logaritmos de las funciones de verosimilitud observada y ajustada, para la observación correspondiente. La suma de ellos mide la discrepancia total entre las dos funciones de verosimilitud. Es, por lo tanto, una medida de distancia entre los valores ajustados (µˆ's) y los observados (y's), es decir entre el modelo corriente y el saturado.
Se puede vericar que la deviance equivale a una constante menos dos veces el máximo de la función de verosimilitud para el model corriente, i.e.Sp = 2 ˆLLn−2 ˆLLp =
c−2 ˆLLp, con cuna constante.
Ejemplo 5. Siguiendo el Ejemplo 4 de la sección anterior, se tiene
φ=σ2; wi = 1; θi=µi; b(θi) =
θi2 2 =
µ2i 2 .
Luego
Sp =
1 σ2 n X i=1 2
yi[yi−µˆi]−
y2i 2 +
ˆ µ2i
2 = 1 σ2 n X i=1
2y2i −2yiµˆi−y2i + ˆµ2i =
1 σ2
n X
i=1
(yi−µˆi)2=
SQRes σ2
donde SQReses la suma de cuadrados residual con (n−p)grados de libertad.
Ejemplo 6. Suponer ahora que lasYi's son variables aleatorias que representan conteos
Tabla 2.3.: Funciones deviances escaladas para algunas distribuciones Distribución Deviance Escalada
Normal Sp = σ12
n P i=1
wi(yi−µˆi)2
Poisson Sp = 2
n P i=1
wi h
yiln
yi ˆ
µi
−(yi−µˆi) i
Binomial Sp = 2 n P i=1
wi h
yiln
yi ˆ
µi
+ (mi−yi) ln
mi−yi
mi−µˆi
i
Binomial Negativa Sp = 2 n P i=1
wi h
yiln
yi ˆ
µi
+ (yi+k) ln
yi+k ˆ
µi+k
i
Gamma Sp = 2ν
n P i=1
wi h
−lnyi ˆ
µi
+yi−µˆi ˆ
µi
i
Normal inversa Sp = σ12
n P i=1
wi(yi−µˆi)
2
yiµˆi
entonces
φ= 1; wi = 1; θi = ln
πi
1−πi
= ln
µi
mi−µi
y
b(θi) =miln
1 +eθi
=−miln (1−πi) =−miln
mi−µi
mi
.
Luego,
Sp= n X i=1 2 yi ln yi
mi−yi
−ln
ˆ µi
mi−µˆi
+miln
mi−yi
mi
−miln
mi−µˆi
mi
o
Sp = 2 n X
i=1
yiln
yi
ˆ µi
+ (mi−yi) ln
mi−yi
mi−µˆi
.
Esta expresión es válida para 0< yi< mi. Siyi = 0 eli-ésimo término deSp debe
sustituirse por2miln
mi
mi−µi
, mientras que siyi=mi, debe sustituirse por2miln
mi
µi
.
En la Tabla 2.3 se encuentran las deviances (escaladas) para algunas distribuciones de la familia exponencial. La deviance es siempre no negativa, y a medida que entran covariables en el componente sistemático, decrece hasta volverse cero para el modelo saturado. Cuanto mejor sea el ajuste del modelo menor será el valor deSp. En la práctica,
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
Para testear la adecuación de un MLG, el valor para la deviance (con (n−p) grados de libertad, siendo p el rango de la matriz del modelo) debe ser comparado con el percentil de alguna distribución de probabilidad de referencia. Para la distribución Normal, asumiendo que el modelo usado es verdadero con σ2 conocido, se tiene
Sp =
Dp
σ2 ∼χ 2
n−p
que es exacta.
Supóngase que el modelo usado es verdadero para la distribución Binomial, cuando n es jo y mi → ∞ ∀i (no vale cuando miπi(1−πi) es acotado) y para la distribución
Poisson, cuando µi → ∞ ∀ientonces se tiene (para φ= 1)
Sp=Dp ∼χ2n−p
En los casos queSp dependa de φ(conocido), se muestra que
Sp ∼χ2n−p, cuandoφ→0,
es decir, cuando la dispersión es chica. En general, no se conoce el valor del coeciente φ, y debe ser sustituido por una estimación consistente.
En la práctica se testean los MLGs sin demasiado rigor, comparando el valor Sp
con los percentiles de la distribución χ2n−p. De esta manera, en los casos que sea posible
obtener la aproximación de una χ2n−p, se tiene que si
Sp ≤χ2n−p;α
puede considerarse que existen evidencias, a un nivel aproximado de 100α% de proba-bilidad, que el modelo propuesto se ajuste bien a los datos. O, más aún, sabiendo que, si Z ∼ χ2n−p, entonces E(Z) = (n−p), un valor de Sp cercano a (n−p) puede ser
evidencia de bondad de ajuste.
Otra medida de discrepancia en el ajuste de un modelo a un conjunto de datos es el estadístico χ2 de Pearson generalizado, dado por:
χ2 =
n X
i=1 wi
(yi−µˆi)2
siendoV ( ˆµi)la función de varianza estimada bajo el modelo.
Para respuestas con distribución Normal se tieneχ2=SQRes y
χ2 σ2 ∼χ
2
n−p,
que es exacta.
Para datos provenientes de distribuciones Binomial y Poisson, conφ= 1,χ2 es el estadístico original de Pearson, que puede ser escrito como
χ2=
n X
i=1
(Oi−Ei)2
Ei ,
conOi la frecuencia observada yEi la esperada.
Para distribuciones no normales se pueden obtener sólo resultados asintóticos, es decir, la distribución χ2n−p puede ser usada solamente como una aproximación que, en
muchos casos, puede ser pobre. Además, χ2 tiene como desventaja, el hecho de tratar los yi's simétricamente. En muchos casos es preferida en relación a la deviance, por su
facilidad de interpretación.
Ejemplo 7. Siguiendo el ejemplo Binomial de la Sección 2.4.1 y la fórmula del Ejemplo 6, se tiene queS2= 10,26 =D2 (porqueφ= 1) yχ2 = 9,70con 4 grados de libertad. Si se inspecciona la tabla de distribuciones deχ24, se tiene queχ24;0,05= 9,49yχ24;0,01= 13,29, lo que indica la existencia de evidencias, a un nivel de signicancia entre 5 % y 1 % de probabilidad, de que el modelo logístico lineal se ajuste adecuadamente al conjunto de datos. Es necesario, además del test de la hipótesis H0 : β2 = 0, un análisis de residuos y de diagnósticos.
2.6. Estimación del Parámetro
φ
2.7. Análisis de la Deviance
Uno de los métodos utilizados para la estimación de φ es el método de máxima verosimilitud. Este método es siempre posible en teoría pero cuando no existe una solución explícita puede tornarse insoluble computacionalmente.
Si φ es el mismo para todas las distribuciones, la estimación de máxima verosi-militud de β es independiente de φ, pero este parámetro se encuentra involucrado en
la matriz de convarianzas de los β's. Dado y, se puede ver al logaritmo de la función de verosimilitud LL(β, φ|y) como función de β y de φ, y así obtener la estimación de
máxima verosimilitud para φhaciendo
∂LL(β, φ)
∂φ = 0.
Por ejemplo, seaY1, Y2, . . . , Ynuna muestra aleatoria de una distribuciónN µi, σ2
. Entonces el logaritmo de la función de verosimilitud es
LL=−1 2
n X
i=1
(yi−µi)2
φ −
n
2 ln (2πφ)
cuya derivada con respecto a φes
∂LL
∂φ =
1 2
n X
i=1
(yi−µi)2
φ2 −
n 2φ.
Igualando a 0 se obtiene ˆ φ= 1
n
n X
i=1
(yi−µˆi)2 =
1 nDp.
Análogamente, para la distribución normal inversa se llega al mismo resultado.
Para el modelo normal, se verica que la estimación de máxima verosimilitud para φes exacta. Para el caso de la distribución Gamma la estimación resulta no consistente, y es necesario recurrir a otros métodos.
2.7. Análisis de la Deviance
covariables y sus interacciones.
Sea Mp1, Mp2, . . . , Mpr una sucesión de modelos encajados de dimensiones res-pectivas p1 < p2 < . . . < pr, matrices de los modelos Xp1,Xp2, . . . , Xpr y deviances Dp1 > Dp2 > . . . > Dpr. Todos los modelos tienen la misma distribución y función de enlace. Las deviances son utilizadas como medidas de discrepancia de los modelos y se construye con ellas una tabla de diferencia de deviances. Estas desigualdades entre las deviances, en general, no se verican para el estadístico χ2 de Pearson generalizado y, por esta razón, la comparación de los modelos encajados se realiza, principalmente, a través de la deviance.
Sean los modelos Mp y Mq con p < q parámetros. La estadística Dp −Dq con
(q−p)grados de libertad, es interpretada como una medida de la variación de los datos, explicada por los términos que están en Mq y no en Mp, incluidos los efectos de los
términos en Mp, e ignorando los efectos de los términos que no están en Mq. Se tiene,
asintóticamente, paraφconocido, que
Sp−Sq=
1
φ(Dp−Dq)∼χ 2
q−p,
que es, simplemente, el test de razón de verosimilitudes (del que se hablará en la próxima sección). Si φ es desconocido, se debe obtener una estimación φˆ consistente, preferen-temente basada en el modelo maximal (con m parámetros), y realizar inferencias que pueden ser basadas en el estadísticoF, dado por
F = (Dp−Dq)/(q−p) ˆ
φ ∼Fq−p,n−m.
Para la distribución Normal, se tiene
(SQResp−SQResq)/(q−p)
SQResm/(n−m)
∼Fq−p,n−m
que es exacta.
Ejemplo 8. Siguiendo el ejemplo Binomial de la Sección 2.4.1, se pueden proponer los siguientes modelos encajados para analizar los datos:
1. Modelo nulo: ηi=β1.
2.8. Tests de Hipótesis
En la siguiente tabla se presentan para cada modelo las deviances y sus respectivos grados de libertad:
Modelo g.l. Deviances χ2 ηi =β1 5 163,74 135,70 ηi=β1+β2di 4 10,26 9,70
χ24;0,05= 9,49;χ24;0,01= 13,29
Como se vio anteriormente, existen evidencias de que el modelo logístico lineal se ajusta adecuadamente a los datos, a un nivel de signicancia entre 5 % y 1 %, pero se rechaza el modelo nulo. Dadas las deviances de los modelos (D1yD2, respectivamente) su diferenciaD1−D2con 1 grado de libertad se interpreta como una medida de la variación de los datos en términos de la regresión lineal, incluyendo el efecto del intercepto. En la siguiente tabla se ve cómo se rechaza la hipótesisH0 : β2 = 0, que conrma la adecuación del modelo logístico lineal. Sin embargo, es necesario también un análisis de residuos y de diagnósticos.
Causa de Variación g.l. Deviances P-valor Regresión lineal 1 153,48 <0,0001
Residuo 4 10,26
Total 5 163,74
χ21;0,05= 3,84;χ21;0,01= 6,64
2.8. Tests de Hipótesis
Los métodos de inferencia para los MLGs se basan, principalmente, en la teoría de máxima de verosimilitud. De acuerdo a ella, existen tres estadísticos para testear hipótesis relativas a los parámetros β's, que son deducidos de distribuciones asintóticas de funciones adecuadas de las estimaciones de losβ0s. Estos son:
1. Razón de verosimilitudes
2. Wald
que son asintóticamente equivalentes y, bajo H0, para φconocido, convergen a una va-riable con distribuciónχ2p.
Cuando se tiene un vector de parámetros, muchas veces es de interés testear hi-pótesis sólo sobre un subconjunto de ellos. Sea entonces una partición del vector de parámetros dada por:
β=βt1,βt2t
siendoβ1 el vector de interés de dimensiónq, yβ2 el vector nuisance de dimensiónp−q.
Análogamente, se tiene la partición de la matriz del modelo X = [X1,X2], del vector escoreU =φ−1XtW4(y−μ) =Ut1,Ut2t con U1 =φ−1Xt1W4(y−μ), y de la matriz de información de Fisher paraβˆ
I = 1 φX
tWX= "
I11 I12 I21 I22
#
,
conI12=I21t .
Usando resultados conocidos de álgebra de matrices que involucran la partición de matrices (Searle, 1982), se tiene, para muestras grandes, la varianza asintótica deβˆ
1:
V arβˆ1
= I11− I12I22−1I21−1
=φhXt1W12 (I−H2)W 1 2X1
i−1
,
conH2 =W 1 2X2
Xt2W12X2
−1
Xt2W12. Sean las hipótesis
H0 : β1 =β1,0
Ha: β1 6=β1,0
,
siendo β1,0 un valor especíco para β1. Sea βˆ = h
ˆ
β t
1,βˆ
t
2
it
el estimador de máxima ve-rosimilitud para β sin restricción y βˆ0 =
h βt1,0,βˆ
t
2,0
it
, conβˆ
2.8. Tests de Hipótesis
2.8.1. Test de Razón de Verosimilitudes
Este test comprende la comparación de los valores del logaritmo de la función de ve-rosimilitud maximizada sin restricciónLLβˆ1,βˆ2 |y
y bajo la hipótesisH0
LLβ1,0,βˆ2,0|y
, o, en términos de deviance, la comparación entre D(y|μˆ) y D y|μˆ0, donde μˆ0 =
g−1 ˆ
η0 yηˆ0 =Xβˆ0.
Generalmente, este test, es utilizado en el caso de hipótesis relativas a varios coe-cientes β's. Si las diferencias son grandes, entonces, se rechazaH0. El estadístico para este test está dado por:
Λ=−2 ln (λ) = 2hLLβˆ1,βˆ2 |y
−LLβ1,0,βˆ2,0 |y i
= 1 φ
D y|μˆ0−D(y; ˆμ).
Para muestras grandes, se rechaza H0, a un nivel de 100α% de probabilidad, si Λ> χ2q,1−α.
2.8.2. Test de Wald
El test de Wald se basa en la distribución normal asintótica deβˆ y es una generali-zación del estadístico t de Student. Se usa generalmente en el caso de hipótesis relativas a un solo coeciente βj.
Tiene como ventaja, en relación al test de razón de verosimilitudes, el hecho de no requerir el calcular βˆ
2,0. Como fue visto en la Sección 2.4.2, asintóticamente se tiene: ˆ
β∼Np β,I−1.
Por lo tanto, el estadístico para este test es
W =
ˆ
β1−β1,0 th ˆ V ar ˆ β1 i−1
ˆ
β1−β1,0
,
con V arˆ βˆ 1
siendo V arβˆ1
evaluada enβˆ=hβˆt 1,βˆ
t
2
it
.
2.8.3. Test Score
El test Score se obtiene a partir de la función score, siendo muy utilizado en Bio-estadística. El estadístico para este test está dado por:
U =Ut1
ˆ
β0
ˆ V ar0
ˆ β1 U1 ˆ β0 ,
conV arˆ 0βˆ 1
siendo V arβˆ1
evaluada enβˆ 0=
h
ˆ
β t
1,0,βˆ
t
2,0
it
.
Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si U > χ2q,1−α.
Ejemplo 9. Supóngase que es de interés el test de hipótesis para el vectorβ como un
todo, es decir, se quiere testear las hipótesis
H0: β=β0
Ha: β6=β0
.
El vectorβ2 desaparece, entonces β1 =β (q =p), y se tienen las siguientes expresiones
para cada test:
1. Test de razón de verosimilitudes: Λ =−2 ln (λ) = 2hLL
ˆ
β|y
−LL β0|y i
= 1
φ
D y|μ0−D(y|μˆ).
2. Test de Wald:W =
ˆ
β−β0 t
ˆ
Iˆβ−β0
, conIˆla matriz de información de Fisher evaluada en ˆβ.
3. Test Score: U = Ut β0I0−1U β0, con I0 la matriz de información de Fisher evaluada en β0.
La utilización de la matriz de información puede tener un efecto signicativo en el po-der de los tests para muestras nitas. Su uso resulta inapropiado ya que no representa correctamente a la función de verosimilitud, en contraposición con el test de razón de verosimilitudes que sí lo hace (Buse, 1982).
Ejemplo 10. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N µ, σ2
conµ desconocido yσ2 conocido. Visto como un MLG, se tiene:
2.8. Tests de Hipótesis
2. Ninguna variable explicativa.
3. La función de enlace es la identidad:η =µ.
El logaritmo de la función de verosimilitud es
LL=LL(µ|y1, . . . , yn) =−
1 2σ2
n X
i=1
(yi−µ)2−
n
2ln 2πσ 2
,
a partir de lo que se obtiene:
U = dLL
dµ = 1 σ2 n X i=1
(yi−µ) =
n
σ2(¯y−µ),
E(U) = n σ2
E Y¯−µ= 0 y
I =V ar(U) = n 2
(σ2)2V ar ¯ Y
= n 2
(σ2)2 σ2
n =
n σ2.
Por lo tanto,
U =UtI−1U = n
2 Y¯ −µ2
(σ2)2 σ2
n =
¯ Y −µ2
σ2
n
∼χ21.
Este resultado puede usarse para obtener intervalos de conanza paraµ.
Ejemplo 11. Sea Y ∼Bin(m, π), entonces el logaritmo de la función de verosimilitud será
LL(π |y) = ln
m y
+yln (π) + (m−y) ln (1−π),
que tiene función score
U = dLL
dπ =
y
π −
m−y 1−π =
Pero, como E(Y) =µ=mπ yV ar(Y) =mπ(1−π) = m1µ(m−µ), será
E(U) = E(Y)−mπ π(1−π) = 0 I =V ar(U) = V ar(Y)
π2(1−π)2 = m π(1−π). Luego,
U =UtI−1U = (Y −mπ) 2
π2(1−π)2
π(1−π)
m =
(Y −mπ)2 mπ(1−π) =
[Y −E(Y)]2 V ar(Y)
que, según el Teorema del Límite Central, sigue una distribuciónχ21, o lo que es equiva-lente a decir que
Y −E(Y)
p
V ar(Y) = √
m(Y −µ)
p
µ(m−µ) converge en distribución aN(0,1).
Este resultado puede ser utilizado para realizar inferencias con respecto a µ.
2.9. Intervalos de Conanza
Se pueden construir intervalos de conanza asintóticos para β1 usando cualquiera
de los estadísticos de los tests anteriores.
A partir del estadístico del test de razón de verosimilitudes, una región de conanza para β1, con un coeciente de conanza de 100 (1−α) %, incluye todos los valores de β1 tales que
2
h
LL
ˆ
β1,βˆ2 |y
−LL
β1,βˆ2,1 |y i
< χ2q,1−α,
con βˆ
2,1 la estimación de máxima verosimilitud de β2 para cada valor de β1 que es testeado si pertenece, o no, al intervalo.
Usando el estadístico de Wald, una región de conanza paraβ1, con un coeciente
de conanza de100 (1−α) %, incluye todos los valores deβ1 tales que
ˆ
β1−β1 th
ˆ V arβˆ1
i−1
ˆ
β1−β1