ESTUDIOS DE EVALUACIÓN DE LA UTILIDAD DE UNA PRUEBA DIAGNÓSTICA

Estudios descriptivos

ESTUDIOS DE EVALUACIÓN DE LA UTILIDAD DE UNA PRUEBA DIAGNÓSTICA

El objetivo de estos estudios es estimar la capacidad de una medida (prueba diagnóstica) para discriminar entre las personas que padecen una enfermedad y las que no la padecen, pero presentan síntomas similares. Se asume que el problema de salud puede medirse de forma válida y fiable mediante un procedimiento de referencia (gold standard), y se desea evaluar la utilidad de la nueva prueba.

La estrategia de investigación consiste en aplicar en una muestra de individuos tanto la prueba de referencia como la de estudio. La primera permitirá diferenciar los sujetos que padecen realmente la enfermedad de los que no la padecen, de forma que se podrá evaluar la capacidad de la nueva prueba diagnóstica para discriminar entre ambos grupos, que se cuantificará calculando su sensibilidad, especificidad y otros índices de utilidad.

Previamente al inicio del estudio, debe evaluarse la reproducibilidad de la prueba para comprobar si proporciona los mismos resultados cuando se aplica en más de una ocasión a pacientes estables. Una pobre reproducibilidad puede deberse a la propia naturaleza de la prueba, o a que se requiere cierta habilidad en su realización o interpretación, especialmente si los resultados dependen de la subjetividad del observador. Una prueba poco reproducible puede afectar de forma importante a la validez de los resultados del estudio.

Selección del criterio de referencia

La prueba de referencia se utiliza para diferenciar entre enfermos y no enfermos y, por tanto, corresponde al criterio contra el que se va a comparar la nueva prueba diagnóstica. Por ello, es muy importante elegir la adecuada y definirla con claridad.

Un criterio de referencia ideal es aquel que es siempre positivo en los enfermos y negativo en los no enfermos. Sin embargo, habitualmente hay que conformarse con el «mejor» procedimiento disponible. Si se utiliza un mal criterio y se evalúa una nueva prueba diagnóstica que es mejor que él, podría llegarse a

la conclusión errónea de que la nueva prueba no es útil (sesgo del criterio de referencia imperfecto). Si la nueva prueba es más sensible que la de referencia, una parte de los enfermos serán clasificados como falsos positivos. Si es más específica, una parte de los no enfermos serán clasificados como falsos negativos.

Si no se dispone de un procedimiento de referencia adecuado, puede utilizarse un conjunto de pruebas para determinar la presencia o ausencia de la enfermedad. En esta situación, debe evitarse que la nueva prueba que se evalúa sea una de las que for- man parte de dicho criterio compuesto, ya que su validez podría aparecer artificialmente aumentada (sesgo de incorporación).

En el caso de no disponer de un criterio de referencia adecuado, debe replantearse el estudio y limitarse a evaluar la con- cordancia entre métodos diagnósticos, y no la validez de uno respecto a otro.

Los estudios que evalúan una prueba diagnóstica requieren elegir un criterio de referencia adecuado, seleccionar una población que incluya un amplio espectro de situaciones clínicas y administrar las dos pruebas que se comparan de forma ciega e independiente a todos los sujetos.

Selección de la población

Los pacientes en que se evalúa una nueva prueba no han de diferir sustancialmente de la población a la que se aplicará en la práctica clínica. Si en el estudio se incluyen como enfermos únicamente pacientes con procesos extensos o graves, la nueva prueba proporcionará más resultados positivos que si se incluyen pacientes menos graves. En otras palabras, se tendería a disminuir el número de falsos positivos y, por consiguiente, a obtener una sensibilidad más alta. Por esta razón, se han de incluir pacientes con diferentes estadios clínicos y patológicos de la enfermedad.

La inclusión de no enfermos en el estudio permite descubrir la existencia de falsos positivos. Por ello, se deben incluir individuos

Figura 11-4 Cálculo del denominador perso-

que tengan procesos que planteen problemas de diagnóstico diferencial con los pacientes que tienen la enfermedad de interés. Si el grupo de referencia está constituido solo por individuos sanos, se encontrará un número menor de falsos positivos, lo que se traduce en una especificidad de la prueba más elevada.

Existen diferentes estrategias para seleccionar la muestra o las muestras de individuos que se incluirán en el estudio.

Selección de una sola muestra

Consiste en seleccionar una única muestra representativa de los sujetos a los que en la práctica se les aplicaría la prueba para realizar el diagnóstico de la enfermedad, y aplicar a todos sus componentes el criterio de referencia y la nueva prueba simul- táneamente. Corresponde a un diseño transversal muy similar al de los estudios de asociación cruzada.

Esta estrategia tiene ventajas de validez, porque se incluyen tanto individuos con un espectro amplio de la enfermedad como sujetos con signos y síntomas que impliquen un diagnóstico diferencial. Sin embargo, al tener que administrar a todos los pacientes las dos pruebas, el estudio puede resultar caro si el tamaño muestral requerido es muy amplio. Además, en determinadas ocasiones, la aplicación del criterio de referencia puede suponer riesgos excesivos, lo que puede plantear problemas, especialmente si debe aplicarse a un número elevado de sujetos.

Selección de dos muestras a partir del diagnóstico

Se seleccionan dos grupos: uno formado por enfermos diagnos- ticados a partir del criterio de referencia y otro formado por individuos sin la enfermedad. Se aplica la prueba en estudio a todos ellos y se comparan los resultados obtenidos. Este diseño es similar al de los estudios de casos y controles, en el sentido de que la enfermedad clasifica a los sujetos y la prueba se explora a continuación.

Es importante que en el grupo control se incluyan pacientes con situaciones que planteen problemas de diagnóstico diferencial con la enfermedad en estudio. Por ejemplo, si se desea evaluar una prueba diagnóstica del cáncer de colon, el grupo control debería incluir tanto a pacientes con colitis ulcerosa o enfermedad de Crohn, por ejemplo, como a pacientes con otros tipos de cáncer.

La limitación de esta estrategia es que la prevalencia de la enfermedad en la población de estudio puede ser muy diferente de la que existe en la práctica. Por ejemplo, si se incluye el mismo número de enfermos que de no enfermos, la prevalencia se es- tablece artificialmente en el 50%, lo que dificulta la estimación de los valores predictivos. Sin embargo, en relación a la estrategia anterior, tiene una mejor relación coste-efectividad si el coste de las pruebas es elevado, por lo que es el diseño que hay que consi- derar cuando se trata de evaluar exploraciones de alta tecnología.

Selección de dos muestras a partir del resultado de la prueba

Se parte de un grupo de individuos a los que se aplica la nueva prueba y se obtienen dos subgrupos de sujetos: uno con resultado positivo y otro con resultado negativo. A continuación se aplica a cada subgrupo el criterio de referencia para comprobar la existencia de enfermedad. Esta estrategia se asemeja más a un estudio de cohortes. Tiene la ventaja de que los valores predictivos pueden calcularse directamente, pero dificulta la estimación de la sensibilidad y la especificidad.

Tiene el inconveniente de que, en ocasiones, el procedimiento de referencia no se aplica a todos los sujetos, porque la decisión de

hacerlo está condicionada por los resultados de la prueba que se estudia, bien porque sea invasivo o mal tolerado. Esto podría ocu- rrir, por ejemplo, en un estudio en que los sujetos con sospecha de enfermedad coronaria y prueba de esfuerzo positiva fueran sometidos a una coronariografía (procedimiento de referencia) con mayor frecuencia que los que tienen una prueba de esfuerzo negativa. Aunque ello no sería sorprendente, ya que los clínicos serán más reticentes a someter a los riesgos de una coronariogra- fía a sujetos con una baja probabilidad de enfermedad coronaria, el resultado de este estudio conduciría a una sobrevaloración de la utilidad de la prueba de ejercicio para diagnosticar la enfermedad. En esta situación se produce el llamado sesgo de verificación o de confirmación (work-up bias), debido a que no se obtiene la confirmación diagnóstica en todos los casos. Este problema puede evitarse, al menos de forma parcial, con un seguimiento de los sujetos a los que no se ha podido aplicar la prueba de referencia con la finalidad de observar si aparece la enfermedad en estudio y detectar así errores de clasificación.

Aplicación de las pruebas a los sujetos

Ambas pruebas deben aplicarse a todos los sujetos y debe hacerse de forma ciega e independiente, sin que los observadores tengan conocimiento del resultado de la otra prueba, evitando así sesgos de información. Los resultados obtenidos no deben conducir a verificaciones en caso de discordancia con el criterio de referencia, ya que se produciría un sesgo sobreestimando la sensibilidad y la especificidad de la prueba. Las técnicas de enmascaramiento impiden que se produzca este sesgo de sospecha diagnóstica. Análisis de los resultados

La validez de una prueba diagnóstica se calcula partiendo de la información contenida en una tabla de 2 × 2 (tabla 11-6).

Sensibilidad y especificidad

La sensibilidad responde a la pregunta: si un individuo tiene la enfermedad, ¿qué probabilidad existe de que el resultado de la medida que se le aplica sea positivo? En otras palabras, ex- presa la probabilidad de que una medida clasifique correctamente a un individuo enfermo. La especificidad responde a la pregunta:

Resultados de un estudio hipotético de valoración de una prueba diagnóstica

Prueba de referencia

Enfermo No enfermo Total

Prueba de estudio Positiva 160a 80b 240a + b Negativa c 40 d720 c + d760 Total a + c 200 b + d800 a + b + c + d1.000 Prevalencia = (a + c)/(a + b + c + d) = 200/1.000 = 20% Sensibilidad = a/(a + c) = 160/200 = 80% Especificidad = d/(b + d) = 720/800 = 90% Falsos negativos = 1 – sensibilidad = 20% Falsos positivos = 1 – especificidad = 10%

Valor predictivo positivo (VPP) = a/(a + b) = 160/240 = 67% Valor predictivo negativo (VPN) = d/(c + d) = 720/760 = 94,7% Cociente de probabilidad positivo (CPP) = sensibilidad/

(1 – especificidad) = 80/10 = 8

Cociente de probabilidad negativo (CPN) = (1 – sensibilidad)/ especificidad = 20 / 90 = 0,22

TABLA

si un individuo no tiene la enfermedad, ¿qué probabilidad existe de que el resultado obtenido sea negativo? Representa, por tanto, la probabilidad de que una medida clasifique correctamente a una persona no enferma.

En el ejemplo de la tabla 11-6, se evalúa una prueba para detectar un cáncer. De las 1.000 personas estudiadas, 200 tienen cáncer según el criterio de referencia (la prevalencia es del 20%). La sensibilidad de la prueba es del 80% y la especificidad del 90%. Así pues, la nueva prueba ha sido positiva en el 80% de los casos de cáncer y negativa en el 90% de los casos sin cáncer. La prueba presenta un 20% de falsos negativos y un 10% de falsos positivos.

La sensibilidad y la especificidad son características intrínsecas de la prueba, es decir, que si esta se aplica en condiciones similares y los observadores tienen la misma experiencia, no variarán cuando se emplee en otras poblaciones.

Valores predictivos

En la práctica clínica, cuando un médico desconoce si el paciente tiene la enfermedad, solicita una prueba diagnóstica, esperando que sus resultados le ayuden a saber si la tiene o no. Existen dos modos de cuantificar la utilidad de la prueba: los valores predictivos y los cocientes de probabilidad.

El valor predictivo positivo (VPP) es la probabilidad de que un individuo en que la prueba ha dado un resultado positivo tenga la enfermedad. El valor predictivo negativo (VPN) es la probabilidad de que, si el resultado de la prueba es negativo, el paciente no tenga la enfermedad. En el ejemplo sus valores son del 67 y el 94,7%, respectivamente. Así pues, si en un sujeto se obtiene un resultado positivo con la prueba, la probabilidad de que tenga cáncer es del 67%, mientras que si se obtiene un resultado negativo, existe un 94,7% de probabilidades de que no lo tenga.

La validez de una prueba diagnóstica se evalúa mediante su sensibilidad y especificidad, que son características in- trínsecas. Su utilidad se determina mediante los valores pre- dictivos, que dependen en gran medida de la prevalencia de la enfermedad.

Los valores predictivos dependen no solo de la sensibilidad y la especificidad, sino también de la prevalencia de la enfermedad. Si es alta, un resultado positivo tiende a confirmar su presencia, mientras que uno negativo no ayudará a excluirla. Contrariamen- te, cuando la prevalencia es baja, un resultado negativo permitirá descartar la enfermedad con un elevado margen de confianza, mientras que uno positivo no permitirá afirmar su existencia. Así, por ejemplo, si se aplicara la prueba del ejemplo a una población con una prevalencia más elevada (del 40%), el VPP aumentaría al 84,2%, aun cuando la sensibilidad y la especificidad fueran las mismas (tabla 11-7).

Cocientes de probabilidad

Las razones o cocientes de probabilidad comparan la probabilidad de obtener un determinado resultado en un individuo que presente la enfermedad, con la de obtenerlo en un sujeto en el que se ha descartado su presencia.

El cociente de probabilidad positivo (CPP) se calcula dividiendo la proporción de casos que tienen un resultado de la prueba positivo (sensibilidad), entre la proporción de personas sin la enfermedad en las que la prueba también ha dado un resultado positivo (1 – especificidad):

CPP Sensibilidad 1 especificidad =

−

En el ejemplo de la tabla 11-6, su valor es 8, interpretándose como que en el grupo de pacientes con cáncer la probabilidad de encontrar un resultado positivo es ocho veces mayor que en los individuos sin la enfermedad.

Análogamente, el cociente de probabilidad negativo (CPN) se calcula dividiendo la proporción de casos que tienen un resultado negativo (1 – sensibilidad) entre la proporción de sujetos sin la enfermedad en los que el resultado de la prueba es negativo (especificidad):

CPN 1 sensibilidad Especificidad = −

En el ejemplo, su valor es 0,22, lo que indica que se encontró un resultado negativo 4,5 veces (1/0,22 = 4,5) más frecuente- mente en los individuos sin cáncer que entre los que tenían la enfermedad.

Una prueba útil desde el punto de vista clínico es aquella que, una vez aplicada, genera cambios desde la estimación diagnós- tica de la probabilidad antes de la prueba hasta la estimación después de ella. Las pruebas proporcionan una ganancia de in- formación cuando la prevalencia de la enfermedad es intermedia, superior al 10%. Las pruebas con un CPP superior a 10 o un CPN inferior a 0,1 tienen una gran utilidad clínica; si los valores de los cocientes de probabilidad están comprendidos entre 5 y 10 o 0,1 y 0,2, tienen una utilidad moderada.

Los cocientes de probabilidad relacionan la sensibilidad y la especificidad en un solo índice, por lo que no varían con la prevalencia. Además, tienen la ventaja de que no es imprescindible ex- presar los resultados de la prueba de forma dicotómica (normal/ anormal, positivo/negativo), sino que pueden obtenerse cocientes de probabilidad para diferentes valores de la nueva prueba.

In document Atencion.primaria..principios.organizacion.y.metodos.en.medicina.de.familia.Martin_Zurro.7ed.pdf (página 190-192)