4. Material y métodos
4.9. Estimadores suavizados
Para valorar de forma gráfica en cada tipo de tumor qué ocupaciones pre- sentan SIRs muy divergentes a lo esperado, se ha utilizado una modificación de un método propuesto recientemente en la literatura [Carpenter, 1997]. La elección de este método fue debida a su simplicidad, a la ausencia de gran- des asunciones en cuanto a la distribución de los estimadores y sobre todo a la posibilidad de presentar de forma gráfica sus resultados Se ha ajustado por métodos Bayesianos un modelo de regresión en el que la ocupación fue considerada como término de efectos aleatorios.
La figura 5 representa el diagrama bayesiano del modelo (diagrama DAG de directed acyclic graph). En este tipo de representación los cuadrados signifi- can cantidades conocidas y los círculos cantidades desconocidos a estimar.
El cuadrado grande representa una ocupación, y fuera de él están las distri- buciones a priori necesarias para la estimación, como se explica más adelan- te.
La formulación matemática del modelo sería la siguiente:
ln(Dk) = ln(Ek) + bk
En el que:
Dk~ Poisson (µk) bk~ Normal (µb,σb2)
Figura 5. Representación bayesiana del modelo de regresión de Poisson de efectos aleatorios
Ocupación k
bk µb
µk σb
Ek Dk
SIRk
En la figura 1, el número de casos incidentes observados en una ocupa- ción,Dk, es una variable de Poisson con media µk. Esta media depende de dos factores: el número de casos esperados Ek, que es conocido, e introducido como offset en el modelo, y del efecto aleatorio bk que representa la desvia- ción de la media correspondiente a dicha ocupación. La modelización pre- tende estimar este efecto bk que es desconocido, cuya media es µby su va- rianza σb2. Los métodos bayesianos de estimación se basan en el conocimien- to previo de la distribución de estos dos parámetros (distribución a priori), para estimar su valor concreto dados los datos del estudio (distribución a posteriori) [Spiegelhalter, 1995].
En ausencia de información adicional, se parte de una “distribución a priori no informativa” basada en la hipótesis nula:
µb~ Normal (0, 105) σk~ Gamma (0,001, 1000)
Se asume que µbtiene una distribución normal (para permitir efectos po- sitivos y negativos) con media 0 y varianza muy grande (105en nuestro caso).
El valor esperado de la media de las bkes 0 como resultado de utilizar toda la cohorte como población de referencia. La varianza utilizada es lo suficiente- mente grande para que en el proceso iterativo que conlleva la estimación de los bksea posible muestrear y probar valores alejados de la media. La variabi- lidad entre los distintos bkes modelizada asumiendo que σb2 procede de una distribución gamma (ya que la varianza no puede tener valores negativos).
Introducir la ocupación como término de efectos aleatorios, en vez de considerarla de efecto fijo, supone asumir que cada ocupación representa una muestra aleatoria de la población de referencia. Los bk(que representan el logaritmo neperiano del SIR para la ocupación k) son el resultado de dos factores: la media general para el conjunto de ocupaciones (que como se co- mentó anteriormente es igual a 0), y la discrepancia entre observados y espe- rados para esa ocupación particular. Estos dos factores actúan en sentido opuesto, lo que produce una suavización del efecto de la ocupación hacia la media general (SIR=1).
Los modelos bayesianos proporcionan los estimadores buscados median- te un proceso de muestreo a partir de las distribuciones a priori especificadas mediante el método de muestreo de Gibbs que utiliza “Markov Chain Monte Carlo Sampling” [Spiegelhalter, 1995]. La fluctuación de dicho muestreo decre- ce en el tiempo hasta llegar a un estado de convergencia, ya que en cada ite- ración los valores elegidos son probados y el desplazamiento del muestreo si- guiente se basa en la “bondad” de dichos estimadores. En este estudio, para cada ocupación se ha considerado un calentamiento o burning (iteraciones
iniciales que son descartadas en el proceso de estimación) de 200000 itera- ciones, y los bkpresentados se basan en las 1000 iteraciones siguientes. Exis- ten distintos test y métodos gráficos para valorar si el proceso ha convergido.
La exploración gráfica de la convergencia de cada bkfue desechada en nues- tro caso, dado el gran número de ocupaciones estudiadas. Por ello se utilizó un burning suficientemente amplio y se comprobó que la z de Geweke en ningún caso era mayor de 1,96. El test de Geweke compara diferencias entre el primer cuartil y el último cuartil de la secuencia de iteraciones utilizadas en la estimación (las 1000 iteraciones señaladas). Cada uno de estos cuartiles es a su vez subdividido en 25 segmentos para los que se calcula la media y la varianza del bk. La fórmula de la z de Geweke es la siguiente [Spiegelhalter, 1995]:
(Einicial– Efinal) Z=
Vinicial+ Vfinal
√
25Einicialy Efinalse refieren el valor esperado calculado con las 25 medias del esti- mador en el primer y último cuartil respectivamente, y Vinicialy Vfinalal valor esperado de la varianza calculado con las 25 varianzas en los correspondien- tes cuartiles. Se trata de un test aproximado.
Los estimadores de cada ocupación,bk, proceden de una distribución nor- mal, por lo que es posible ordenarlos de menor a mayor y dibujar el normo- grama o gráfica de la distribución esperada (en el eje de las x) frente a la ob- servada (en el eje de las y). Cuando existen valores extremos, alejados de la hipótesis nula, se traducen en la gráfica por puntos dispersos, fácilmente re- conocibles. Para valores anormalmente bajos es esencial comprobar que no estén basados en 0 casos observados. En estos casos, aun cuando los estima- dores aparecen como valores inusualmente extremos, la precisión de estos estimadores puede ser muy baja. Para obviar en parte este problema, para cada sexo sólo se representan en la gráfica aquellas ocupaciones con al me- nos 100 personas expuestas.
Los resultados para cada sexo se presentan gráficamente. La parte que más nos interesa de las gráficas es la zona de estimadores bkalejados positi- vamente de la distribución esperada, que se encuentran en la gráfica en el cuadrante superior derecho, ya que el objeto de este estudio es investigar las ocupaciones que suponen un aumento de riesgo para alguno de los tumores estudiados.