Estimadores suavizados - Material y métodos

4. Material y métodos

4.9. Estimadores suavizados

Para valorar de forma gráfica en cada tipo de tumor qué ocupaciones presentan SIRs muy divergentes a lo esperado, se ha utilizado una modificación de un método propuesto recientemente en la literatura [Carpenter, 1997]. La elección de este método fue debida a su simplicidad, a la ausencia de gran- des asunciones en cuanto a la distribución de los estimadores y sobre todo a la posibilidad de presentar de forma gráfica sus resultados Se ha ajustado por métodos Bayesianos un modelo de regresión en el que la ocupación fue considerada como término de efectos aleatorios.

La figura 5 representa el diagrama bayesiano del modelo (diagrama DAG de directed acyclic graph). En este tipo de representación los cuadrados signifi- can cantidades conocidas y los círculos cantidades desconocidos a estimar.

El cuadrado grande representa una ocupación, y fuera de él están las distribuciones a priori necesarias para la estimación, como se explica más adelan- te.

La formulación matemática del modelo sería la siguiente:

ln(D_k) = ln(E_k) + b_k

En el que:

D_k~ Poisson (µ_k) b_k~ Normal (µ_b,σ_b²)

Figura 5. Representación bayesiana del modelo de regresión de Poisson de efectos aleatorios

Ocupación k

b_k µ_b

µ_k σ_b

E_k D_k

SIR_k

En la figura 1, el número de casos incidentes observados en una ocupa- ción,D_k, es una variable de Poisson con media µ_k. Esta media depende de dos factores: el número de casos esperados E_k, que es conocido, e introducido como offset en el modelo, y del efecto aleatorio b_k que representa la desvia- ción de la media correspondiente a dicha ocupación. La modelización pre- tende estimar este efecto b_k que es desconocido, cuya media es µ_by su varianza σ_b². Los métodos bayesianos de estimación se basan en el conocimien- to previo de la distribución de estos dos parámetros (distribución a priori), para estimar su valor concreto dados los datos del estudio (distribución a posteriori) [Spiegelhalter, 1995].

En ausencia de información adicional, se parte de una “distribución a priori no informativa” basada en la hipótesis nula:

µ_b~ Normal (0, 10⁵) σ_k~ Gamma (0,001, 1000)

Se asume que µ_btiene una distribución normal (para permitir efectos po- sitivos y negativos) con media 0 y varianza muy grande (10⁵en nuestro caso).

El valor esperado de la media de las b_kes 0 como resultado de utilizar toda la cohorte como población de referencia. La varianza utilizada es lo suficientemente grande para que en el proceso iterativo que conlleva la estimación de los b_ksea posible muestrear y probar valores alejados de la media. La variabi- lidad entre los distintos b_kes modelizada asumiendo que σ_b²procede de una distribución gamma (ya que la varianza no puede tener valores negativos).

Introducir la ocupación como término de efectos aleatorios, en vez de considerarla de efecto fijo, supone asumir que cada ocupación representa una muestra aleatoria de la población de referencia. Los b_k(que representan el logaritmo neperiano del SIR para la ocupación k) son el resultado de dos factores: la media general para el conjunto de ocupaciones (que como se co- mentó anteriormente es igual a 0), y la discrepancia entre observados y esperados para esa ocupación particular. Estos dos factores actúan en sentido opuesto, lo que produce una suavización del efecto de la ocupación hacia la media general (SIR=1).

Los modelos bayesianos proporcionan los estimadores buscados mediante un proceso de muestreo a partir de las distribuciones a priori especificadas mediante el método de muestreo de Gibbs que utiliza “Markov Chain Monte Carlo Sampling” [Spiegelhalter, 1995]. La fluctuación de dicho muestreo decre- ce en el tiempo hasta llegar a un estado de convergencia, ya que en cada ite- ración los valores elegidos son probados y el desplazamiento del muestreo siguiente se basa en la “bondad” de dichos estimadores. En este estudio, para cada ocupación se ha considerado un calentamiento o burning (iteraciones

iniciales que son descartadas en el proceso de estimación) de 200000 iteraciones, y los b_kpresentados se basan en las 1000 iteraciones siguientes. Exis- ten distintos test y métodos gráficos para valorar si el proceso ha convergido.

La exploración gráfica de la convergencia de cada b_kfue desechada en nuestro caso, dado el gran número de ocupaciones estudiadas. Por ello se utilizó un burning suficientemente amplio y se comprobó que la z de Geweke en ningún caso era mayor de 1,96. El test de Geweke compara diferencias entre el primer cuartil y el último cuartil de la secuencia de iteraciones utilizadas en la estimación (las 1000 iteraciones señaladas). Cada uno de estos cuartiles es a su vez subdividido en 25 segmentos para los que se calcula la media y la varianza del b_k. La fórmula de la z de Geweke es la siguiente [Spiegelhalter, 1995]:

(E^inicial– E^final) Z=

V^inicial+ V^final

√

²⁵

E^inicialy E^finalse refieren el valor esperado calculado con las 25 medias del esti- mador en el primer y último cuartil respectivamente, y V^inicialy V^finalal valor esperado de la varianza calculado con las 25 varianzas en los correspondien- tes cuartiles. Se trata de un test aproximado.

Los estimadores de cada ocupación,b_k, proceden de una distribución normal, por lo que es posible ordenarlos de menor a mayor y dibujar el normo- grama o gráfica de la distribución esperada (en el eje de las x) frente a la ob- servada (en el eje de las y). Cuando existen valores extremos, alejados de la hipótesis nula, se traducen en la gráfica por puntos dispersos, fácilmente re- conocibles. Para valores anormalmente bajos es esencial comprobar que no estén basados en 0 casos observados. En estos casos, aun cuando los estimadores aparecen como valores inusualmente extremos, la precisión de estos estimadores puede ser muy baja. Para obviar en parte este problema, para cada sexo sólo se representan en la gráfica aquellas ocupaciones con al me- nos 100 personas expuestas.

Los resultados para cada sexo se presentan gráficamente. La parte que más nos interesa de las gráficas es la zona de estimadores b_kalejados positi- vamente de la distribución esperada, que se encuentran en la gráfica en el cuadrante superior derecho, ya que el objeto de este estudio es investigar las ocupaciones que suponen un aumento de riesgo para alguno de los tumores estudiados.

In document ELECTROMAGNÉTICAS Y CÁNCER DE MAMA (página 76-79)