Datos de German Breast Group (GBG) - Método de normalización de datos y abstracción de consulta

3. METODOS

4.2.5. Datos de German Breast Group (GBG)

El último de los socios clínicos de EURECA es el German Breast Group (GBG)28. GBG participó en las distintas tareas clínicas del proyecto de investigación y facilitó acceso a datos procedentes de distintos ensayos clínicos sobre cáncer de pecho realizados por su organización:

• TBP (Metastatic study)29_{: ensayo clínico sobre el uso de trastuzumab en pacientes}

con cáncer de pecho

• GAIN (Adjuvant study)30: ensayo clínico para la observación y seguimiento de pacientes con cáncer de pecho y su tratamiento con epirubicin.

• GeparQuattro (NeoAdjuvant study)31: ensayo clínico que compara el tratamiento con y sin trastuzumab y capacitabine en pacientes con cáncer de pecho y sin operaciones de cirugía previas.

Tabla 7: Datos procedentes de GBG

Área Formato Terminología

Ensayos Clínicos TBP (Metastatic study) • CRD • CSV • Texto • Propia GAIN (Adjuvant study) • CRD • CSV • Texto • Propia 28_{https://www.gbg.de/} 29_{https://www.clinicaltrials.gov/ct2/show/NCT00148876}

(NeoAdjuvant study) • CRD • CSV • Texto • Propia

Los datos de estos ensayos clínicos provienen en su mayoría de los CRD y de las bases de datos propias de GBG. Estos datos son anonimizados por herramientas facilitadas dentro del proyecto de investigación EURECA para su posterior incorporación en la CIS. Previamente hay que estructurar y anotar los conceptos mediante terminologías presentes en el Core Dataset. Este paso se realiza bajo la supervisión de los propios clínicos del GBG para su validación, obteniendo finalmente un conjunto de datos anonimizados con 4929 pacientes.

Codificación de las fuentes de datos

La codificación o representación de los conceptos procedente de cada uno de las fuentes de datos es un proceso que se realizó manualmente con la ayuda de herramientas y buscadores de terminologías [114][113]. Si bien este proceso de codificación de las fuentes de datos no es un proceso realizado expresamente para la presente tesis doctoral, se cree oportuno realizar una descripción de cómo han sido codificados las distintas fuentes de datos con términos pertenecientes al Core Dataset para su posterior evaluación con los métodos desarrollados. Este proceso debía ser validado siempre por los propios socios clínicos que cedían sus datos, para asegurar la coherencia en la anotación de estas ideas clínicas, así como asegurar que se mantenía el significado de estos.

Capítulo 4: Pruebas y experimentos

En este paso se encontraron diversas diferencias dependiendo de cada uno de las fuentes de datos, ya que cada una de éstas tenían un ámbito y un formato distinto, así como unas terminologías distintas, llegando a estar representando en alguno casos con cadenas de texto o identificadores propios del país y del idioma. A continuación se detallan las diferencias básicas entre cada uno de los conjuntos de datos:

• IJB: Los datos de IJB procedían en su mayoría de CRD de varios de sus ensayos clínicos y de su propio sistema hospitalario. Por tanto, la mayor parte de sus datos se encontraban representados en una codificación propia del centro y en cadenas de texto en francés. Por tanto, se realizó una representación de estos conceptos haciendo uso de términos del Core Dataset, utilizando un total de 253 conceptos del Core Dataset, como puede comprobarse en el ANEXO C.

• UdS: En el caso de UdS, sus datos procedían mayormente del CRD del ensayo clínico SIOP, del que ya han realizado varios experimentos y aplicaciones [118] y que por tanto ya tienen representados. Por tanto, como puede comprobarse en el ANEXO C.2, sus términos surgen de preguntas y variables de su representación en el sistema de los CRD. De este conjunto de datos de más de 3.000 pacientes, se obtiene una representación de únicamente 23 términos del Core Dataset.

• Maastro: Los datos de Maastro proceden de su sistema electrónico y representan más de 8.000 pacientes. Estos conceptos se encontraban diferenciados de dos formas: representados mediante códigos de la terminología NCI y mediante cadenas de texto en holandés. Para el primero de los caso se hizo uso de la herramienta “Enlazado de terminologías” para su traducción a conceptos del Core Dataset. Para el segundo caso se necesitó de la ayudar de los proveedores de datos para asegurar el significado de los términos holandeses para su posterior anotación mediante terminologías del CD. Estos datos fueron representados por un total de 580 términos de del Core Dataset

• UOXF: En el caso de los datos del Hospital Universitario de Oxford, se trata de datos procedentes de su sistema sobre pacientes con distintos tipos de sarcoma. Estos ya datos ya se encontraban estructurados y anotados mediante terminologías extendidas en la práctica clínica. Por tanto, la búsqueda de términos sinónimos o

mediante el uso de 137 términos del Core Dataset.

• GBG: Los datos del GBG proceden de los CRD de 3 ensayos clínicos realizado por la institución. Estos datos se encontraban almacenados en su sistema en su propia estructura y anotados con sus propias terminologías, por tanto, como en los otros casos, se realizó una representación de estos términos mediante vocabularios presentes en el Core Dataset bajo la supervisión de los proveedores de los datos. Obteniendo que para los casi 5.000 pacientes presentes en estos datos, un total de 75 términos del Core Dataset de la CIS.

Una vez se conseguía una representación homogénea para todas las fuentes de datos mediante los vocabularios presentes en el Core Dataset, se pasaba a la generación de mensajes HL7 con esta información para almacenar los datos en el CDM. Esta generación se realizaba mediante el desarrollo de scripts ad-hoc que generaban mensajes genéricos en base al contexto para su posterior carga. Finalmente la carga de estos mensajes se hacía mediante le servicio Data Push que se encargaba de almacenar esta información en su correspondiente CDM y en hacer uso del método de normalización semántica para almacenar la representación normalizada de esta información en un CDM normalizado sobre el que posteriormente se harán las consultas.

Pruebas básicas de los métodos diseñados

In document Método de normalización de datos y abstracción de consultas basado en estándares médicos (página 117-120)