2. Revisión bibliográfica
2.2. Resultados de la revisión
2.2.7. Propiedades empíricas del SF-6D en comparación a otras medidas
2.2.7.1. El “efecto suelo” del SF-6D
Es conocido que el SF-36 sufre del llamado “efecto suelo” (Bindman et al., 1990), expresión que hace referencia al hecho de que el sistema descriptivo no capta adecuadamente los estados de salud particularmente graves (aquellos a los que les corresponde un índice de utilidad más bajo). Esta deficiencia del SF-36 se ha trasladado al SF-6D, que resulta de redimensionar aquél, y son diversos los estudios que confirman la existencia de dicho “efecto suelo” en el SF-6D (Brazier et al., 1998, 2002, 2004b; O’Brien et al., 2003; Longworth y Bryan, 2003; Bryan y Longworth, 2005; Bharmal y Thomas, 2006; Lamers et al., 2006; Buxton et al., 2007).
Brazier et al. (2002) obtienen en su estudio de valoración de estados SF-6D con la lotería estándar una muy baja proporción de valores por debajo de cero y muy pocos por debajo de –1 (antes de reescalar); muchos menos de los que se han hallado para el HUI y el EQ-5D.17 Los valores negativos en sus valoraciones directas no llegan al 7% del total (245/3518), mientras que casi una cuarta parte de los valores (23%) se sitúa entre
17
Ya las primeras medidas del SF-6D obtenidas por Brazier et al. (1988) apuntaban que los estados definidos mediante este sistema descriptivo raramente se consideraban peores que la muerte, pese a la posibilidad que de hacer tal cosa brindaban los métodos de elicitación. Este resultado parece sugerir que el SF-6D, como el SF-36, no cubre los estados de salud “extremos” que con otros métodos de valoración se consideran peores que la muerte.
0.9 y 1. Incluso el “peor” estado de salud SF-6D fue considerado mejor que la muerte por una amplia mayoría de los entrevistados. Este dato, la proporción de sujetos que considera que el peor estado descrito por el sistema es mejor que la muerte, constituye una clara evidencia del “efecto suelo”. Dicha proporción es del 73% para el SF-6D (Brazier et al., 2002), mientras que para el HUI3 es del 9% (Feeny et al., 2002) y para el EQ-5D es del 8% (Dolan, 1997).
También se refleja el “efecto suelo” en el rango de valores o puntuaciones generado por cada instrumento de medida: el valor más bajo para el SF-6D es 0.35, en tanto que para el HUI3 es –0.36 y para la tarifa MVH-TTO del EQ-5D es –0.59. La conclusión es que, para estados graves, el EQ-5D y el HUI3 puede que sean medidas más apropiadas para generar valores que puedan utilizarse en la evaluación económica.
Lo contrario cabría decir para el caso de estados de salud leves, pues el EQ-5D parece adolecer de un “efecto techo”, ya que mucha gente describe su salud como “perfecta” con este instrumento. Esto no ocurre con el SF-6D, como se ha puesto de manifiesto en diversos estudios, como los de Petrou y Hockley (2005) para el Reino Unido con el SF- 6D(SF-36), o Bharmal y Thomas (2006) para los Estados Unidos con el SF-6D(SF-12), por citar los más recientes. Otra evidencia de que el SF-6D parece ser inmune al “efecto techo” es que apenas 20 de las más de 3500 valoraciones directas obtenidas por Brazier et al. (2002) con la lotería estándar para 249 estados de salud se tradujeron en una puntuación igual a 1.
En el mismo sentido apuntan los resultados de una comparación entre las puntuaciones del EQ-5D y el SF-6D en un estudio con pacientes transplantados hepáticos (Longworth y Bryan , 2003; Bryan y Longworth, 2003): para los estados con un valor medio entre las puntuaciones de ambos instrumentos inferior a 0.4 (estados más graves), el SF-6D arroja unos valores sistemáticamente superiores a los del EQ-5D; para estados con puntuaciones más elevadas (estados más leves), el SF-6D tiende a proporcionar valores inferiores a los del EQ-5D. También Szende et al. (2004) señalan que el SF-6D proporciona utilidades más bajas que el EQ-5D en pacientes asmáticos con un buen control de la enfermedad y puntuaciones más altas que éste en pacientes que controlan mal su dolencia, siendo las utilidades similares con ambos instrumentos en el caso de pacientes de asma con un nivel de control medio. Por último, Petrou y Hockley (2005), con datos de la Encuesta de Salud de Inglaterra de 1996, obtienen puntuaciones medias más bajas en el SF-6D que en el EQ-5D para los sujetos que declaran que su salud es
“muy buena”, “buena” o “regular”, y puntuaciones más altas en el SF-6D que en el EQ- 5D para los encuestados que dicen tener un estado de salud “malo” o “muy malo”. Las comparaciones con el HUI3 arrojan conclusiones similares. Sobre una muestra de 300 pacientes de cardiología, O’Brien et al. (2003) comprueban cómo la aplicación de los algoritmos del HUI3 (Feeny et al., 2002) y del SF-6D (Brazier et al., 2002) da lugar a una discrepancia sistemática entre las puntuaciones derivadas de uno y otro instrumento. Así, para valores HUI3 mayores que 0.75, las utilidades SF-6D correspondientes son notablemente inferiores, mientras que para utilidades HUI3 por debajo de 0.4, los valores SF-6D son claramente superiores. De igual modo, los 11 pacientes a los que le era asignada una puntuación negativa con el HUI3, obtenían puntuaciones iguales o superiores a 0.25 con el SF-6D.
Entre las razones que se aducen para explicar estas discrepancias sistemáticas, O’Brien et al. (2003) señalan en primer lugar las que se deben al instrumento descriptivo en sí mismo. Así, en el caso concreto de la comparación entre HUI3 y SF-6D, los conceptos de “salud” que subyacen a ambos instrumentos son radicamente diferentes. El HUI3 se centra en deficiencias visuales, auditivas, cognitivas o en el habla, en tanto que el SF- 6D se basa en la definición más amplia defendida por la Organización Mundial de la Salud, orientada a los problemas de funcionamiento físico, mental y social.
Una segunda razón que habitualmente se ofrece para explicar las diferencias atañe al método de elicitación empleado en los estudios de valoración que sirvieron de base a la estimación de los algoritmos. En el EQ-5D se utilizó la “equivalencia temporal” (TTO), mientras que en el SF-6D se utilizó una versión modificada del SG, y son varios los estudios18 que sugieren que los valores que se obtienen con el SG tienden a ser mayores que los obtenidos con el TTO. En el HUI3 las puntuaciones SG se obtuvieron mediante una transformación potencial de las valoraciones directas obtenidas mediante la escala visual analógica. No existe, sin embargo, evidencia concluyente al respecto, pues también hay autores que atribuyen las diferencias, no tanto al método de elicitación, cuanto a su forma concreta de administración.
Por último, los algoritmos también difieren en los métodos estadísticos utilizados para la estimación de los coeficientes. Como señalan O’Brien et al. (2003), el algoritmo HUI3 se basa en la forma multiplicativa de la función de utilidad, que permite un tipo
18
Cfr. Torrance (1976), Read et al. (1984), Hornberger et al. (1992), Stiggelbout et al. (1994), Bleichrodt y Johannesson, (1997), Lenert et al. (1998) y Dolan (2000).
de interacción entre dimensiones que se supone igual entre todas ellas y para todos los inveles. Por el contrario, la “tarifa” del SF-6D se estimó mediante técnicas de regresión, eligiéndose un modelo aditivo lineal sobre la base de la bondad de ajuste y la parsimonia.
2.2.7.2. Propiedades psicométricas
Una de las principales propiedades psicométricas que se debe exigir a un instrumento de medida de la calidad de vida relacionada con la salud, como el SF-6D, es la validez empírica. En un reciente estudio con una muestra de gran tamaño (n=16443) extraída de la Encuesta de Salud de Inglaterra de 1996, Petrou y Hockley (2005), hallan evidencia de que el SF-6D es una medida de utilidad multiatributo alternativa al EQ-5D empíricamente válida y eficiente, capaz de discriminar entre indicadores externos del estado de salud. La validez empírica del SF-6D queda demostrada, en primer lugar, por la existencia de diferencias estadísticamente significativas en las puntuaciones SF-6D entre sujetos que describieron su salud como “muy buena”, “buena”, “regular”, “mala” o “muy mala”. En segundo lugar, el SF-6D generó puntuaciones (utilidades) que decrecían de forma monótona con el deterioro del estado de salud auto-percibida.19
Otro estudio reciente (Lamers et al., 2006) con pacientes aquejados de problemas de salud mental confirma la validez empírica del SF-6D, comprobándose que las utilidades medias y medianas obtenidas con este instrumento decrecen conforme aumenta la gravedad del problema de salud mental, medida a través de un instrumento de medida específico, el Symptom Checklist (SCL-90).
Una de la principales ventajas del SF-6D frente a otros sistemas de clasificación y, en particular, frente al EQ-5D es su mayor sensibilidad a la hora de detectar pequeños cambios en la salud de los pacientes. Esta ventaja proviene, en primer lugar, del hecho de que el SF-6D define un número mucho mayor de estados (18000) que el EQ-5D (243), de manera que algunos niveles de discapacidad captados por el SF-6D no se observan en el EQ-5D. En consecuencia, la capacidad del SF-6D para detectar mejoras en el estado de salud de pacientes que están cerca del máximo de la escala de utilidad es mucho mayor que la del EQ-5D. Téngase en cuenta que, si tomamos el algoritmo
19
Los autores advierten, no obstante, de que los tests de validez empírica se han aplicado únicamente a datos de “sección cruzada” o corte transversal, no siendo posible concluir nada acerca de la validez “longitudinal” del instrumento de medida.
MVH-TTO20 del EQ-5D, encontramos un vacío entre el valor 0.883 y el valor 1, pues no existe ningún estado de salud con una utilidad comprendida en dicho intervalo. Además, la redacción de los ítems del SF-6D, que incluye aspectos positivos y negativos de la salud, puede contribuir a un mayor grado de sensibilidad a indicadores de salud externos, como también puede ayudar a ello el horizonte temporal (“las últimas 4 semanas” en el SF-6D, “hoy” en el EQ-5D).
Esta mayor sensibilidad ha sido puesta de manifiesto en diversas investigaciones (Longworth y Bryan, 2003; Petrou y Hockley, 2005). En el estudio de Petrou y Hockley (2005) el SF-6D resultó ser entre un 31% y un 100% más eficiente que el EQ-5D en detectar diferencias en el estado de salud auto-percibido, y entre un 10% y un 46% más eficiente en detectar diferencias en enfermedad, discapacidad o uso de medicamentos, lo cual se explica fundamentalmente por la mayor sensibilidad del sistema descriptivo SF- 6D. Una de las implicaciones que se derivan de la mayor eficiencia del SF-6D a la hora de detectar indicadores externos del estado de salud, es el menor requerimiento en términos de tamaño muestral para detectar diferencias mínimamente importantes (MID) en los estados de salud en el curso de ensayos clínicos (Petrou y Hockley, 2005).
No obstante, Bharmal y Thomas (2006), con una muestra de 11248 individuos, concluyen que el SF-6D –concretamente el SF-6D(SF-12)– no es capaz de discriminar entre individuos que declaran disfrutar de salud perfecta según el EQ-5D pero que presentan diferentes grados de morbilidad, algo que sí consiguen hacer la puntuación resumen del componente físico del SF-12 (el PCS-12) y la escala visual del EuroQol (EQ-VAS).
Son diversas las propiedades psicométricas, además de las mencionadas, que deberían considerarse al elegir una medida concreta de CVRS basada en preferencias con fines evaluativos. En particular, convendría tener en cuenta el desempeño de los instrumentos de medida en términos de factibilidad o viabilidad y fiabilidad, así como otras formas de validez distintas de la validez empírica, como la validez teórica, la validez de constructo, etc. Es éste un ámbito en el que resulta necesario disponer de más evidencia, pues la existente es ciertamente escasa. Si acaso cabría señalar la desventaja comparativa que el SF-6D puede tener frente al EQ-5D desde el punto de la viabilidad. Así, por ejemplo, en la Encuesta de Salud de Inglaterra de 1996, el porcentaje de sujetos
20
Tarifa del EQ-5D estimada a partir de valores obtenidos mediante la equivalencia temporal (TTO) por Dolan (1997).
que no completaron el cuestionario SF-36 fue más del cuádruple que el de los que no completaron el EQ-5D (10.38% vs. 2.41%). La mayor sensibilidad y eficiencia del SF- 6D se vería, así, compensada por peores tasas de respuesta y de completitud.