Machine learning para análisis de calidad en el proceso de atención en salud de pacientes con cáncer de tiroides

(1)

Machine learning para análisis de calidad en el proceso de atención en salud de pacientes con cáncer de tiroides

Machine learning for quality analysis in health care attention of thyroid cancer patients

Diana Isabel Cuéllar¹, José John Fredy González Veloza²

1Instituto Nacional de Cancerología. [email protected]

2Fundación Universitaria Los Libertadores. [email protected]

RESUMEN

En la atención en salud se han descrito tiempos apropiados para el acceso a servicios sanitarios (citas médicas, procedimientos quirúrgicos, tratamientos), así como estándares de manejo de la enfermedad cuya calidad puede ser evaluada, y que se han relacionado con complicaciones, recaídas y otros resultados en salud. El cáncer diferenciado de tiroides (CDT) es el cuarto cáncer más frecuente en las mujeres colombianas, importantes características propias de la patología definen el manejo y el pronóstico de la enfermedad en los pacientes. En este contexto, a través de machine learning, el presente estudio propone crear un modelo basado en aprendizaje automático que contribuya en la predicción del desenlace de la atención en salud de pacientes con CDT, de acuerdo con indicadores de calidad institucionales. En el modelo obtenido se logró un accuracy de 0.52 que da cuenta de un desempeño no tan bueno, por lo tanto, el aprendizaje alcanzado con este trabajo puede ser incorporado en futuros diseños de evaluación de la calidad de la atención en salud, en busca de un abordaje metodológico más adecuado.

(2)

Palabras clave: evaluación de procesos-resultados en atención de salud, cáncer de tiroides,

indicadores de calidad de la atención de salud, prestación de atención de salud, machine learning.

ABSTRACT

In health care, appropriate times for access to health services have been described, as well as disease management standards whose quality can be evaluated, and have been related to complications, relapses and other health outcomes. Differentiated thyroid cancer (DTC) is the fourth most frequent cancer in Colombian women, and important characteristics of the pathology define the management and prognosis of the disease in patients. In this context, through machine learning, the present study analyzed the relationship between the quality of care received by a group of patients with TDC during their health care, and the status of the disease using a classification model, in order to identify opportunities for improvement in health service delivery. Since we did not have the expected result, the learning achieved with this work can be incorporated in future health care quality evaluation designs, in search of a more adequate methodological approach and better data collection.

Keywords: outcome and process assessment-health care, thyroid neoplasms, quality indicators-health care, delivery of health care, machine learning.

INTRODUCCIÓN

La calidad en el proceso de atención a los pacientes constituye una de las preocupaciones centrales de los sistemas de salud. Se define atención en salud de calidad, como el acto de proporcionar a los pacientes servicios apropiados, técnicamente competentes, con buena

(3)

comunicación, toma de decisiones compartidas, y cultura de sensibilidad. Así mismo, el primer paso para medir calidad en la atención es el establecimiento de los atributos del cuidado del paciente que están correlacionados con desenlaces óptimos como la supervivencia, seguido de un segundo paso orientado a mejorar la medición de calidad mediante su vigilancia por parte del sistema (Spinks et al., 2012).

En Colombia se cuenta como referencia con el Sistema Obligatorio de Garantía de Calidad de la Atención de Salud, modelo que busca mejorar la calidad en la prestación de los servicios de salud a través de la definición de sus principios y las responsabilidades de cada entidad participante (Ministerio de la Protección Social, 2006). Con relación a los servicios oncológicos, estos deben prestarse de manera obligatoria, basados en las guías de práctica clínica y los protocolos de manejo, que garantizan la atención integral, oportuna y pertinente a estos pacientes (Defensoría del Pueblo, 2015).

De acuerdo con las cifras de Globocan 2020, el cáncer diferenciado de tiroides (CDT) tiene una tasa de incidencia ajustada de 13,4 por 100.000 en mujeres y 3,3 por 100.000 en hombres (Sung et al., 2021), lo que se traduce en 4.600-5.800 casos nuevos por año, de los cuales aproximadamente 500 son manejados en el Instituto Nacional de Cancerología de Colombia (INC) (Instituto Nacional de Cancerología & Ministerio de Salud y Protección Social, 2018, 2019, 2020). Se presenta principalmente en adultos y se diagnostica comúnmente entre los 40 a 60 años, ocurre de dos a cuatro veces con mayor frecuencia en las mujeres y constituye la enfermedad maligna más común del sistema endocrino (World Health Organization, 2004).

El pronóstico general suele serbueno, con una supervivencia estimada a 5 años cercana al 100% para los pacientes con enfermedad localizada, al 98% cuando hay diseminación regional y al 56% para las metástasis a distancia (American Cancer Society, 2018). El

(4)

manejo integral de estos pacientes comprende todas las intervenciones quirúrgicas, diagnóstico histopatológico y terapias con yodo practicadas durante el primer año contado a partir de la primera cirugía, con lo cual se logra el control locorregional de la enfermedad (Cuervo Martínez et al., 2013). Varias circunstancias, como la heterogeneidad del tumor, las decisiones terapéuticas y los factores locales relacionados con la atención sanitaria, como la experiencia del equipo quirúrgico, la precisión del informe histopatológico y la calidad de las pruebas diagnósticas, pueden influir en el manejo y el pronóstico de los pacientes; el resultado de los pacientes con CDT es diverso y no siempre fácil de predecir (Tuttle et al., 2019).

Aunque existe normatividad encaminada a garantizar la calidad en la prestación de los servicios de salud, se encuentran dificultades de acceso al diagnóstico y tratamiento, debido a la fragmentación de los servicios entre los diferentes actores del sistema de salud, lo cual tiene consecuencias en la oportunidad, la calidad de la atención y el seguimiento de los pacientes (Arrivillaga et al., 2019), por lo cual resulta importante la identificación de modelos locales ajustados a las características institucionales, que permitan reconocer las limitaciones en los procesos de atención en cada contexto.

Desde principios del nuevo siglo, el Comité de Calidad de la Atención Sanitaria en América identifica y recomienda mejoras en seis dimensiones de la atención sanitaria en Estados Unidos: seguridad del paciente, eficacia de la atención, atención centrada en el paciente, puntualidad, eficiencia de la atención y equidad (Institute of Medicine (US) Committee on Quality of Health Care in America, 2001). La utilización de indicadores de calidad en el manejo de pacientes con cáncer permite evaluar resultados a través del tiempo, así como la comparación con otros centros de atención y contra los estándares establecidos, con el fin de generar información objetiva y reproducible que permita

(5)

identificar puntos críticos en los procesos y orientar acciones de mejora (Donoso R et al., 2013). Se han realizado diferentes trabajos enfocados en la evaluación de la calidad de la atención en salud de los pacientes oncológicos (Donoso R et al., 2013; Navarro-Pérez et al., 2014; Piñeros et al., 2011), sin embargo, no se encuentra un abordaje desde la inteligencia artificial para esta temática.

El aprendizaje automático es una disciplina que se centra en cómo las máquinas (computadores) aprenden a partir de los datos, sin una programación específica (Deo, 2015). Aunque estas aproximaciones han sido más utilizadas en el ámbito del diagnóstico clínico, también representan una oportunidad para mejorar la gestión asistencial en las organizaciones de salud, con un potencial de aportar al análisis de los procesos clínicos y administrativos que tienen lugar estas organizaciones (Gomez Rodriguez, 2020; Pedrero et al., 2021; Rojas et al., 2016).

Dadas las complicaciones del sistema salud que no permiten tener un manejo integral de los pacientes en una sola institución, lograr determinar algunos factores que proporcionen una mejor calidad en la atención a los pacientes permitirá realizar una mejor clasificación dentro de la institución. Este trabajo tiene como objetivo crear un modelo basado en aprendizaje automático que contribuya en la predicción del desenlace de la atención en salud de un grupo de pacientes con cáncer de tiroides que fueron atendidos durante los años 2016 y 2017 en el Instituto Nacional de Cancerología E.S.E., de acuerdo con indicadores de calidad institucionales.

METODOLOGÍA

Estudio observacional multimétodo, con 2 componentes: i) Construcción de una estrategia para la evaluación de la calidad del proceso de atención en pacientes con cáncer

(6)

diferenciado de tiroides y ii) aplicación de la estrategia propuesta en un estudio de caso en una institución de referencia para el manejo de cáncer.

i) Construcción de una estrategia para la evaluación de la calidad:

Se llevó a cabo una revisión de la literatura científica en la que se incluyeron artículos indexados en MEDLINE sin restricción de fecha de publicación hasta la fecha de la búsqueda (diciembre de 2018), que presentaran la descripción o la validación de indicadores utilizados en las entidades de salud para medir la calidad del proceso de atención de pacientes con CDT, se excluyeron artículos en idiomas diferentes al inglés y al español y se excluyeron artículos que evaluaban la calidad medida en el Sistema General de Seguridad Social en Salud. Las referencias de la búsqueda realizada, fueron sometidas a revisión pareada por 2 investigadores independientes para definir su inclusión en el estudio.

Posteriormente se realizó la extracción de los indicadores descritos en cada documento revisado, en una matriz generada en Excel, la cual contenía datos de identificación del artículo y datos generales del indicador (nombre, fórmula propuesta, etc.).

El listado de indicadores fue analizado con expertos clínicos del servicio de endocrinología del Instituto Nacional de Cancerología (INC), con el fin de calificar diferentes atributos de los indicadores: la relevancia para la medición de la calidad, la utilidad (que realmente mida lo que se quiere medir), y la simplicidad (información fácil de recopilar y fácil acceso a los datos). Con base en dicho análisis se seleccionaron los indicadores de mayor relevancia para la institución y se llevaron mediante trabajo con expertos a la definición de un modelo para la medición de la calidad de la atención institucional en los pacientes con CDT.

ii) Estudio de caso

(7)

Una vez definidos los indicadores relevantes en el modelo institucional para la medición de la calidad, se identificaron las variables que componían la formulación de cada indicador, y con dichas variables se generó un instrumento de captura en el aplicativo RedCap® (Harris et al., 2009) En dicho instrumento se recolectó la información de los pacientes de ambos sexos, mayores de 18 años con diagnóstico confirmado de CDT, atendidos para su tratamiento en el INC entre el 1 de enero de 2016 y el 31 de diciembre 2017, con el ánimo de establecer la calidad ofrecida a dichos pacientes, en el proceso de atención institucional.

Se excluyeron pacientes que no siguieron en tratamiento institucional (atención esporádica) o pacientes con pobre historia clínica que dificulta su caracterización.

De un total de 827 pacientes atendidos entre 2016 y 2017 se tomó una muestra aleatoria de 300 pacientes. Este tamaño de muestra para la estimación de una proporción se estimó mediante el software en línea OPENEPI (Dean et al., 2013), teniendo como parámetros: el valor de una población finita (827 pacientes atendidos por primera vez en ambos años), una frecuencia anticipada general de 50%, un límite de confianza de 5% y el efecto de diseño igual a 1. Para la selección de los sujetos se realizó un muestreo aleatorio simple. Se realizó la revisión de cada una de las historias clínicas de los pacientes seleccionados registrando la información en el instrumento generado previamente en RedCap® (Harris et al., 2009) Para el estudio de caso se seleccionaron 6 indicadores, priorizados por los expertos clínicos, al ser reconocidos como hitos en la medición de la calidad en la atención de pacientes con este tipo de neoplasias, así:

- Calidad en la oportunidad de tratamiento quirúrgico: definido como el tiempo transcurrido entre la fecha en que se define el tipo de cirugía y la fecha de realización de la misma. Informando como buena calidad observar una oportunidad entre 6 a 12 semanas y mala calidad oportunidad mayor o igual que dicho estándar.

(8)

- Calidad en la oportunidad de yodoterapia: definido como el tiempo transcurrido entre la fecha en que la junta multidisciplinaria define la administración de terapia con yodo y la fecha de administración de ésta. Informando como buena calidad observar una oportunidad entre 6 a 12 semanas y mala calidad oportunidad mayor o igual que dicho estándar.

- Calidad en la oportunidad de seguimiento bioquímico: definido como el tiempo transcurrido entre la fecha del procedimiento quirúrgico y la fecha de realización del primer seguimiento bioquímico. Informando como buena calidad observar una oportunidad entre 6 a 12 semanas y mala calidad oportunidad mayor o igual que dicho estándar.

- Calidad en la oportunidad de seguimiento ecográfico: definido como el tiempo transcurrido entre la fecha del procedimiento quirúrgico y la fecha de realización del primer seguimiento ecográfico. Informando como buena calidad observar una oportunidad entre 6 a 12 semanas y mala calidad oportunidad mayor o igual que dicho estándar.

- Número de seguimientos bioquímicos por año: definido como el número de seguimientos con pruebas bioquímicas realizadas anualmente. Informando como buena calidad al menos dos seguimientos por año.

- Número de seguimientos ecográficos por año: definido como el número de seguimientos con imágenes ecográficas realizados anualmente. Informando como buena calidad al menos dos seguimientos por año.

Finalmente se establece como variable objetivo el estatus de salud de los pacientes definido luego de al menos un año posterior a la realización del procedimiento quirúrgico (Tabla 1).

Análisis de datos

(9)

Para el análisis de datos y construcción del modelo machine learning se utilizó la herramienta Google Colab Python versión 3.7.13 (Google, 2021), librerías SweetViz versión 2.1.4 (Bertrand, 2021) y Pycaret versión 2.3.10 (PyCaret, 2022). Se ejecutaron una serie de etapas para el desarrollo y evaluación del modelo: (a) limpieza de la base de datos (incluyendo la selección de variables relevantes y ajuste de indicadores, acorde a los objetivos del proyecto), (b) realización de análisis descriptivos y (c) elaboración de posibles modelos (incluyendo la evaluación de su desempeño)

(a) limpieza de la base de datos:

En la fase inicial se eliminaron algunas variables que fueron generadas durante la creación del instrumento de captura en RedCap® (Harris et al., 2009). Posteriormente se procedió a la determinación de los indicadores de interés y la variable de desenlace, la tabla 1 describe las variables relevantes para el análisis y sus transformaciones

Tabla 1. Variables incluidas en el análisis*

Variable original Nivel operativo Variable final Nivel operativo Variable de interés

desenlace: estado de salud del paciente al final del seguimiento

- Respuesta excelente - Indeterminada - Incompleta bioquímica - Incompleta estructural

enf_persistente: persistencia de la enfermedad al final del seguimiento

- Si (respuesta excelente) - No (indeterminada, incompleta bioquímica o estructural)

Variables: Sociodemográficas sexo: sexo biológico del

paciente

- Masculino - Femenino

Sin transformación regimen: régimen de

afiliación al SGSSS - Contributivo - Subsidiado

- Regímenes especiales - Particular

Por las características de los regímenes especiales y particular, se pueden agrupar con el régimen contributivo

- Contributivo - Subsidiado

depar_residencia:

departamento de residencia del paciente

Nombre del departamento de residencia de acuerdo con la categorización del DIVIPOLA

Considerando la distancia entre el lugar de residencia y el centro de atención

- Bogotá

- Cercano a Bogotá - Resto del país nivel_educativo: grado de

escolaridad del paciente

- Ninguno - Preescolar - Primaria - Bachillerato - Técnico o tecnólogo - Universitario o posgrado

Considerando los niveles educativos cercanos en el sistema educativo colombiano y buscando balance de clases

- Ninguno - Básico - Bachillerato - Superior

(10)

estrato_socioeconomico:

estrato socioeconómico del lugar de residencia del paciente

- uno - dos - tres - cuatro - cinco - seis

Teniendo en cuenta las características de la población atendida en la institución

- uno - dos - tres y cuatro

edad_diagnostico: edad cumplida al momento del diagnóstico

- años cumplidos Sin transformación

Variables: Indicadores fec_trata_quirurgico:

fecha en que se define el tratamiento quirúrgico fecha_cirugia: fecha en que se realiza la cirugía

- dd/mm/yyyy

- oport_cx: diferencia entre fecha_cirugia y

fec_trata_quirurgico.

Se categoriza

- 0-42 días - 43-84 días - más de 84 días

- cirugía en otra institución fec_junta_multi: fecha en

que se define la

pertinencia de yodoterapia fec_terapia_yodo: fecha en que se realiza la yodoterapia

- dd/mm/yyyy

- oport_yodo: diferencia entre fec_terapia_yodo y

fec_junta_multi.

Se categoriza

- 0-42 días - 43-84 días - más de 84 días - no indicado - no administrado fec_pri_segui_bio: fecha

en que se realiza el primer seguimiento bioquímico post quirúrgico fecha_cirugia: fecha en que se realiza la cirugía

- dd/mm/yyyy

oport_seg_bq_1: diferencia entre la fecha del primer seguimiento bioquímico y la fecha de la cirugía

- 0-42 días - 43-84 días - más de 84 días - no realizado

- cirugía en otra institución fec_pri_seg_ultra: fecha

en que se realiza el primer seguimiento ecográfico post quirúrgico fecha_cirugia: fecha en que se realiza la cirugía

- dd/mm/yyyy

oport_seg_eco_1: diferencia entre la fecha del primer seguimiento con ecografía y la fecha de la cirugía

- 0-42 días - 43-84 días - más de 84 días - no realizado

- cirugía en otra institución num_seg_bq: número de

seguimientos bioquímicos realizados por año

- número Sin transformación

num_seg_eco: número de seguimientos ecográficos realizados por año

- número Sin transformación

* Para todas las variables la categoría sin dato se ajustó en la limpieza de la base como valores nulos.

(b) realización de análisis descriptivos:

Mediante el uso de la librería SweetViz versión 2.1.4 se realizó el análisis descriptivo univariado obteniendo medidas de tendencia central y de dispersión para las variables numéricas, y de frecuencias absolutas y relativas para las categóricas. De igual manera se realizó un análisis bivariado entre la variable de desenlace y las variables de interés.

(c) elaboración de posibles modelos:

(11)

Para la elaboración del modelo machine learning mediante la librería Pycaret versión 2.3.10, se separaron los datos en datos de entrenamiento (80%) y datos de desarrollo (20%).

Se entrenaron diferentes modelos de clasificación para comparar las métricas de evaluación: Accuracy (número de predicciones correctas / número total de predicciones), Precisión (número de casos positivos verdaderos / número total de casos identificados como positivos), Recall (número de casos positivos verdaderos / número total de casos positivos) y F1 score (media armónica ponderada entre la sensibilidad y la especificidad), con el objetivo de determinar el mejor modelo posible para la predicción de enfermedad persistente en los pacientes.

RESULTADOS

La población de estudio está conformada por 300 pacientes con edad de diagnóstico de 49.8 años en promedio, 87% de sexo femenino. La mayoría de los pacientes eran afiliados al régimen subsidiado, residentes en Bogotá, con nivel educativo hasta bachillerato y de estrato 2. El 100% de los pacientes recibió tratamiento quirúrgico y el 35% fueron realizados en el instituto. La mayoría de las cirugías fueron tiroidectomía total (96%) y más del 70% de los pacientes tuvieron vaciamiento ganglionar central/mediastinal. Al 33% de los pacientes se les realizó el primer seguimiento bioquímico post quirúrgico y al 30% el primer seguimiento imagenológico en la institución. Para los demás casos no fue posible determinar con exactitud el momento de realización de dichos seguimientos postquirúrgicos. El 84% de los pacientes fue evaluado en la junta multidisciplinaria para cáncer de tiroides y se dio indicación de yodoterapia para 75% de los pacientes, la cual fue administrada en el instituto al 62% de ellos. Para el momento de realización del estudio, el

(12)

98% de los pacientes estaba vivo y alrededor del 50% con respuesta excelente al tratamiento. El promedio de tiempo de seguimiento fue de 2.9 años.

Tabla 2. Características de los pacientes en relación con la enfermedad persistente (n=300)

Características Enfermedad persistente - SI

(n=146) n (%) Enfermedad persistente – NO (n=154) n (%) Sexo

Mujeres 124 (48) 137 (52)

Hombres** 22 (56) 17 (44)

Régimen de afiliación

Subsidiado** 88 (51) 84 (49)

Contributivo 58 (45) 70 (55)

Departamento de residencia

Cercanos a Bogotá 67 (47) 76 (53)

Bogotá 49 (48) 54 (52)

Resto del país** 26 (62) 16 (38)

Nivel educativo

Bachillerato 45 (47) 51 (53)

Básico 32 (47) 36 (53)

Superior 26 (45) 32 (55)

Ninguno** 30 (55) 25 (45)

Estrato socioeconómico

Dos 54 (47) 60 (53)

Uno** 48 (51) 47 (49)

Tres - Cuatro 28 (48) 30 (52)

Oportunidad de cirugía

cirugía en otra institución 98 (50) 97 (50)

0-42 días 26 (41) 37 (59)

43-84 días 15 (52) 14 (48)

más de 84 días** 7 (54) 6 (46)

Oportunidad de terapia con yodo

43-84 días 49 (55) 40 (45)

no indicado 29 (38) 47 (62)

0-42 días 28 (43) 37 (57)

más de 84 días** 24 (57) 18 (43)

no administrado 8 (50) 8 (50)

Oportunidad de primer seguimiento bioquímico

más de 84 días 17 (50) 17 (50)

0-42 días 15 (47) 17 (53)

43-84 días 12 (39) 19 (61)

no realizado** 3 (75) 1 (25)

Oportunidad de primer seguimiento ecográfico

(13)

Características Enfermedad persistente - SI

(n=146) n (%) Enfermedad persistente – NO (n=154) n (%)

más de 84 días 23 (44) 19 (56)

43-84 días 12 (48) 13 (52)

no realizado** 8 (57) 6 (43)

0-42 días 4 (40) 6 (60)

Edad

Mediana (RI) 55 (22)

Mediana (RI) 55 (20) Numero de seguimientos

bioquímicos por año 3 (2) 3 (2)

Numero de seguimientos

ecográficos por año 1 (1) 2 (1)

** Indica la categoría que muestra mayor relación con la variable de desenlace

De acuerdo con el análisis descriptivo de la tabla 2, se realizó un modelo base utilizando el indicador de oportunidad para administración de yodoterapia como predictor de la variable de desenlace, con el cual se obtuvo un accuracy de 0.58. Con este modelo se puede establecer que los pacientes que reciben la terapia con yodo más de 84 días (12 semanas) después de su indicación, tienen enfermedad persistente al final del seguimiento. A partir de este modelo base, se pudo comparar el desempeño de los modelos de aprendizaje automático realizados con la librería Pycaret versión 2.3.10 (Tabla 3)

Tabla 3. Modelos para predecir el estado de enfermedad persistente en pacientes con CDT*

Modelo Accuracy AUC Recall Precisión F1

Light Gradient Boosting Machine 0.522 0.467 0.472 0.506 0.477

SVM - Linear Kernel 0.497 0.000 0.425 0.241 0.298

Quadratic Discriminant Analysis 0.491 0.504 0.962 0.487 0.647

Naive Bayes 0.455 0.318 0.861 0.455 0.589

K Neighbors Classifier 0.454 0.450 0.447 0.438 0.433

Base 0.583 NA 0.56 0.62 0.51

* Se muestran los cinco mejores modelos obtenidos con Pycaret y el modelo base. Los demás modelos se encuentran en los Anexos (Figura S1)

(14)

En general se observa que los modelos obtenidos no consiguen el desempeño esperado, sin embargo se seleccionó el modelo de Light Gradient Boosting Machine (LGBM), ya que tuvo las métricas de desempeño más aceptables en conjunto, con un área bajo la curva de 0.59 para la identificación de los pacientes con enfermedad persistente y una matriz de confusión que clasifica ligeramente mejor a los pacientes que quedan libres de enfermedad (57%) en comparación con los que permanecen con enfermedad persistente (51%). En cuanto a los falsos positivos (53%) y falsos negativos (42%), aunque la proporción de estos últimos es un poco menor (Figura 1), finalmente el modelo no logra clasificar de manera adecuada a los pacientes con enfermedad persistente (Anexos - Figura S3).

Figura 1. Matriz de confusión y curva ROC para el modelo LGBM sobre los pacientes de desarrollo

De acuerdo con el modelo LGBM, la edad al momento del diagnóstico es la variable de mayor importancia dentro del conjunto de datos. Las categorías de las demás variables tienen un F score menor de 50 y entre ellas se encuentran el pertenecer a estrato socioeconómico dos, el número de seguimientos bioquímicos, el régimen contributivo y el nivel educativo básico (Anexos - Figura S2), lo cual da cuenta de la poca precisión que aportan las demás variables en el rendimiento del modelo.

(15)

DISCUSIÓN

Con el fin de predecir la persistencia de CDT luego del manejo integral de la enfermedad, con base en una serie de indicadores de calidad de la atención, se propuso un diseño de clasificación basado en modelos de aprendizaje automático, logrando una exactitud ligeramente superior a 0.50. La comparación de estos resultados es bastante limitada, pues el abordaje de este tipo de problemas no suele enfocarse en métodos de machine learning.

En cuanto a las características de la población de estudio, se encontró un mayor número de pacientes de sexo femenino y con edades mayores de 50 años en más de la mitad de los pacientes, lo cual es similar a lo evidenciado en otros estudios como el realizado en la ciudad de Manizales donde encontraron 84% de mujeres con edades entre 40 y 64 años (Arias-Ortiz & Guzmán-Gallego, 2020) y lo presentado en otros reportes en donde la edad de diagnóstico oscila entre 40 y 60 años con una alta proporción de mujeres afectadas (Agate et al., 2012; Sawant et al., 2021). Esta información da cuenta del grupo poblacional afectado por esta patología, y considerando el incremento de su incidencia en los últimos años (Vigneri et al., 2015), es importante realizar estudios que permitan identificar aspectos relevantes de su manejo, con la intención de ser intervenidos de forma precoz, apoyados en un sistema de salud robustecido.

En Colombia las principales barreras de acceso a los servicios de salud, se relacionan con la oportunidad en el servicio, la falta de oferta de servicios de mediana y alta complejidad en municipios apartados y dificultades económicas, que afectan la adecuada atención sanitaria, retrasando el diagnóstico y tratamiento, y en consecuencia incrementando el riesgo de desenlaces desfavorables para los pacientes (Campaz Payan, 2019), por esta razón en este trabajo se definieron indicadores de oportunidad para la atención y un grupo de aspectos sociodemográficos que pudieran dar cuenta de estas barreras de acceso. A pesar de no

(16)

lograr un modelo de clasificación con el desempeño esperado, se pudo observar que algunas de estas variables pueden estar relacionadas con la persistencia de la enfermedad y posiblemente con las barreras de acceso mencionadas.

El aporte de este estudio, por lo tanto, es sobre las posibles causas que explican el obtener un modelo de clasificación no adecuado para predecir la persistencia de la enfermedad con base en indicadores de calidad de la atención en salud.

La metodología usada para el desarrollo de modelo ha sido implementada en el ámbito de la atención en salud, principalmente en diagnóstico de enfermedades, detección de enfermedades agudas, análisis de imágenes, descubrimiento de fármacos, administración de medicamentos y monitorización inteligente de la salud (Bordoloi et al., 2022), sin embargo en otros sectores del sistema sanitario, como el caso de interés de este trabajo, se observa menor utilización de esta forma de análisis, razón por la cual se encontraron pocos referentes para el tema en particular. Sería importante explorar otro tipo de análisis como el aprendizaje no supervisado o el diseño de modelos explicativos que permita una mejor identificación de grupos con determinadas características en la población de interés o de variables más relevantes que se relacionen con el desenlace.

Considerando las características de la enfermedad y el largo tiempo requerido para identificar desenlaces de la misma, sería adecuado contar con un número mayor de registros, más tiempo de seguimiento y con la menor cantidad de pérdida de pacientes posible, así como la inclusión de otras variables propias de la patología que pueden dar cuenta de la enfermedad persistente.

Finalmente, la base de datos que se utilizó como fuente de información fue desarrollada a partir de la revisión manual de historias clínicas de pacientes. La historia clínica es una de las principales fuentes de datos en el ámbito de la salud, al recopilar información sobre el

(17)

paciente, su enfermedad y tratamiento, sin embargo, al tener un sistema de salud fraccionado existe gran cantidad de información que reposa en diferentes instituciones de atención sanitaria, que no fue posible obtener para este trabajo. Para una posterior fase se podría, implementar el contacto directo con los pacientes o familiares de los mismos, para recabar la mayor cantidad de información posible.

CONCLUSIONES

A pesar de no lograr un modelo de clasificación con el desempeño esperado, se pudo observar que algunas de las variables definidas pueden estar relacionadas con la persistencia de la enfermedad y posiblemente con las barreras de acceso mencionadas. Es importante realizar estudios que permitan identificar aspectos relevantes del manejo del CDT, con la intención de ser intervenidos de forma precoz, apoyados en un sistema de salud integrado.

Aunque varios sectores del sistema sanitario han implementado el machine learning como herramienta de investigación y desarrollo, en el tema de interés de este trabajo se encontraron pocos referentes lo cual abre la puerta a proponer otros estudios, tal vez con otro tipo de análisis como el aprendizaje no supervisado o el diseño de modelos explicativos e incluyendo un número mayor de registros, más tiempo de seguimiento y con la menor cantidad de pérdida de pacientes posible, así como la inclusión de otras variables propias de la patología que pueden dar cuenta de la enfermedad persistente.

Finalmente, el aprendizaje alcanzado con este trabajo puede ser incorporado en futuros diseños de evaluación de la calidad de la atención en salud, en busca de un abordaje metodológico más adecuado y una mejor consecución de datos, para lograr mejores resultados.

(18)

REFERENCIAS BIBLIOGRÁFICAS

Agate, L., Lorusso, L., & Elisei, R. (2012). New and old knowledge on differentiated thyroid cancer epidemiology and risk factors. Journal of Endocrinological Investigation, 35(6 Suppl), 3–9.

American Cancer Society. (2018). Cancer facts & figures 2018.

https://www.cancer.org/content/dam/cancer-org/research/cancer-facts-and-statistics/an nual-cancer-facts-and-figures/2018/cancer-facts-and-figures-2018.pdf

Arias-Ortiz, N. E., & Guzmán-Gallego, E. A. (2020). Características clínicas del cáncer de tiroides en Manizales, Colombia, 2008-2015. Rev Peru Med Exp Salud Publica, 37(2).

https://www.scielosp.org/article/rpmesp/2020.v37n2/287-291/es/

Arrivillaga, M., Malfi Ruiz, D., & Medina, M. (2019). Atención en salud de mujeres con lesiones precursoras de cáncer de cuello uterino: evidencia cualitativa de la

fragmentación del sistema de salud en Colombia. Revista Gerencia y Políticas de Salud, 18(39). https://dialnet.unirioja.es/servlet/articulo?codigo=7284255

Bertrand, F. (2021). sweetviz - PyPI. https://pypi.org/project/sweetviz/

Bordoloi, D., Singh, V., Sanober, S., Buhari, S. M., Ujjan, J. A., & Boddu, R. (2022). Deep Learning in Healthcare System for Quality of Service. Journal of Healthcare

Engineering, 2022, 8169203. https://doi.org/10.1155/2022/8169203

Campaz Payan, N. (2019). Barreras de acceso al servicio de salud en el contexto de Colombia [Auditoría en Salud], [(2019)]. Auditoria En Salud, 1–24.

Cuervo Martínez, J. A., Osorio Luz, K., Romero Rojas, A. E., & Olaya Morales, N. (2013).

Caracterización clínica e histopatológica del carcinoma papilar de tiroides en el instituto nacional de cancerología E.S.E., bogotá-colombia durante los años 2006 a

(19)

2012. Revista Colombiana de Cancerología, 17(4), 188.

https://doi.org/10.1016/S0123-9015(13)70217-8

Dean, A. G., Sullivan, K. M., & Soe, M. M. (2013). OpenEpi: Open Source Epidemiologic Statistics for Public Health. Www.OpenEpi.Com.

https://www.openepi.com/Menu/OE_Menu.htm

Defensoria del Pueblo. (2015). Derechos en salud de los pacientes con cáncer (p. 112).

https://doi.org/ISBN: 978-958-8895-03-1

Deo, R. C. (2015). Machine learning in medicine. Circulation, 132(20), 1920–1930.

https://doi.org/10.1161/CIRCULATIONAHA.115.001593

Donoso R, A. M., Amar C, M., Minassian M, M., Salazar M, C., Arbulo L, D., Slater M, J., Schwartz J, R., Gómez S, L., & Lee C, K. (2013). Indicadores de calidad en cáncer de mama. Rev. Chilena de Cirugía, 65(3), 216–221.

https://scielo.conicyt.cl/pdf/rchcir/v65n3/art04.pdf

Gomez Rodriguez, J. I. (2020). Prototipo de Análisis de Información para el Sistema de Salud Colombiano Aplicado a la Enfermedad Renal Crónica Utilizando Técnicas de Aprendizaje Computacional.

https://repository.udistrital.edu.co/bitstream/handle/11349/27876/GomezRodriguezJos eIgnacio2020.pdf?sequence=1&isAllowed=y

Google. (2021). Te damos la bienvenida a Colaboratory - Colaboratory. Google Collaboratory. https://colab.research.google.com/?hl=es

Harris, P. A., Taylor, R., Thielke, R., Payne, J., Gonzalez, N., & Conde, J. G. (2009).

Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics, 42(2), 377–381. https://doi.org/10.1016/j.jbi.2008.08.010

(20)

Institute of Medicine (US) Committee on Quality of Health Care in America. (2001).

Crossing the Quality Chasm: A New Health System for the 21st Century.

https://doi.org/10.17226/10027

Instituto Nacional de Cancerología, & Ministerio de Salud y Protección Social. (2018).

Anuario estadístico 2019 (p. 121).

https://www.cancer.gov.co/recursos_user/files/libros/archivos/Anuario_INC_2019_FI NAL.pdf

Instituto Nacional de Cancerología, & Ministerio de Salud y Protección Social. (2019).

https://www.cancer.gov.co/recursos_user/files/libros/archivos/Anuario INC 2018.pdf Instituto Nacional de Cancerología, & Ministerio de Salud y Protección Social. (2020).

https://www.cancer.gov.co/recursos_user/files/libros/archivos/Anuario_INC_2020-_19 _NOV.pdf

Ministerio de la Protección Social. (2006). Decreto 1011 De 2006 (p. 17).

Navarro-Pérez, J., Peiró, S., Brotons-Muntó, F., López-Alcina, E., & Real-Romaguera, A.

(2014). Indicadores de calidad en hiperplasia benigna de próstata. Un estudio cualitativo. Atención Primaria, 46(5), 231–237.

https://doi.org/10.1016/j.aprim.2013.09.005

Pedrero, V., Reynaldos-Grandon, K., Ureta-Achurra, J., & Cortez-Pinto, E. (2021).

Generalidades del Machine Learning y su aplicación en la gestión sanitaria en Servicios de Urgencia. Revista Medica de Chile, 149, 248–254.

http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0034-98872021000200248&

nrm=iso

(21)

Piñeros, M., Sanchez, R., Perry, F., Garcia, O. A., Ocampo, R., & Cendales, R. (2011).

Demoras en el diagnóstico y tratamiento de mujeres con cáncer de mama en Bogotá, Colombia. Salud Pública de México, 53, 478–485.

http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0036-36342011000600 003&nrm=iso

PyCaret. (2022). Home - PyCaret. https://pycaret.org/

Rojas, E., Munoz-Gama, J., Sepúlveda, M., & Capurro, D. (2016). Process mining in healthcare: A literature review. Journal of Biomedical Informatics, 61, 224–236.

https://doi.org/10.1016/j.jbi.2016.04.007

Sawant, R., Hey, S. Y., Hulse, K., Hay, A., Gibb, F. W., Adamson, R., & Nixon, I. J. (2021).

Clinicopathological features of Differentiated Thyroid Cancer presenting in the UK versus internationally: An observational cohort study. Clinical Otolaryngology : Official Journal of ENT-UK ; Official Journal of Netherlands Society for Oto-Rhino-Laryngology & Cervico-Facial Surgery, 46(3), 522–529.

https://doi.org/10.1111/coa.13699

Spinks, T., Albright, H. W., Feeley, T. W., Walters, R., Burke, T. W., Aloia, T., Bruera, E., Buzdar, A., Foxhall, L., Hui, D., Summers, B., Rodriguez, A., Dubois, R., & Shine, K.

I. (2012). Ensuring quality cancer care: a follow-up review of the Institute of

Medicine’s 10 recommendations for improving the quality of cancer care in America.

Cancer, 118(10), 2571–2582. https://doi.org/10.1002/cncr.26536

Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I., Jemal, A., & Bray, F.

(2021). Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. https://doi.org/10.3322/caac.21660

(22)

Tuttle, R. M., Ahuja, S., Avram, A. M., Bernet, V. J., Bourguet, P., Daniels, G. H., Dillehay, G., Draganescu, C., Flux, G., Fuhrer, D., Giovanella, L., Greenspan, B., Luster, M., Muylle, K., Smit, J. W. A., Van Nostrand, D., Verburg, F. A., & Hegedus, L. (2019).

Controversies, Consensus, and Collaboration in the Use of (131)I Therapy in Differentiated Thyroid Cancer: A Joint Statement from the American Thyroid Association, the European Association of Nuclear Medicine, the Society of Nuclear Medicine and Molecular. Thyroid : Official Journal of the American Thyroid

Association, 29(4), 461–470. https://doi.org/10.1089/thy.2018.0597

Vigneri, R., Malandrino, P., & Vigneri, P. (2015). The changing epidemiology of thyroid cancer: why is incidence increasing? Current Opinion in Oncology, 27(1), 1–7.

https://doi.org/10.1097/CCO.0000000000000148

World Health Organization. (2004). Pathology and genetics of tumours of endocrine organs. (R. DeLellis, R. Lloyd, P. Heitz, & C. Eng (eds.)).

(23)

ANEXOS

Figura S1: Tabla resumen de los modelos de clasificación analizados con Pycaret

Figura S2: Gráfica de la importancia de los factores de la predicción

(24)

Figura S3: Reporte de clasificación separado por clases para el modelo LGBM