Big data and Fragilidad

(1)

Big data and Fragilidad

Francisco Lupiáñez-Villanueva [email protected]

Prof. Information and Communication Science

Pedro Javier Gonzalez Alonso [email protected] Analytics and Big Data Architect

Ruth Vilar Mateo, PhD [email protected]

Data Analyst and Data Engineer

(2)

Cátedra UOC-BSA

Scientific evidence for informed decision-

making

Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de

Catalunya

Gracias a la donación de un ciudadano de Badalona Romà Núñez Lloreda,

(3)

Salud, Big data y Análisis de datos

(4)

Salud, Big data y Análisis de datos

(5)

Plataforma orientada a la solución de

problemas…

(6)

… investigación

Requerimientos Analíticos

Sistemas clínicos

Algoritmos de aprendizaje automático/profundo Framework analítico

Document-

oriented storage Text-oriented

storage Distributed

storage engine Cohorte de pac.

Caso 1

Cohorte de pac.

Caso 2

(7)

BSA: área integral de salud

Centro Sociosanitario El Carme

• 529.582 población asignada ((Badalona, Montgat, Tiana, Teià, Masnou and Alella)

• 209 camas

• 50 camas paciente ambulatorio

• 7 consultorios

(8)

Finalidad y objetivos

Crear una herramienta de apoyo a la toma de decisiones que ayude a monitorear la actividad y mejore la planificación de la ocupación y los recursos disponibles.

• Predecir la ocupación.

• Predecir costes.

• Predecir la estancia para los nuevos ingresos

(9)

Plataforma orientada a la solución de

problemas…

(10)

De los datos al conocimiento para la acción

(11)

Entendiendo los datos

Actionable knowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH

Durante el proceso de desarrollo, se han realizado DATA

reuniones periódicas con:

 Gerencia. Para informar de la evolución del análisis y alinear los objetivos

 Responsables médicos y de enfermería de “El Carme”. Para compartir los hallazgos y determinar las mejores estrategias en cuanto a la selección de fuentes de datos relevantes.

 Responsables de Sistemas de información. Para determinar la disponibilidad de datos, evaluar las técnicas de extracción.

 Equipo directivo BSA. Para difundir el estado y los aspectos claves del proyecto, compartir la información y obtener una visión multidisciplinar.

(12)

Recogiendo los datos

validate models

team

HEALTH DATA

• Diseño coherente sobre el esquema general del Data Lab.

• Anonimización de los datos antes de salir de BSA y pasar a la “Staging area”

• Extracción de datos de todas las fuentes disponibles relevantes.

• Diseño de procesos de extracción con foco en la flexibilidad y la eficiencia.

(13)

Procesando y transformando los

datos

^Actionable^knowledge

validate models

team

HEALTH DATA

• Carga de las fuentes de datos con mínima transformación sobre un data store

“schemaless” (Document Store).

• Procesamiento mínimo para filtro y limpieza de datos.

• Almacenamiento de los datasets en el document store mediante modalidad dual: No compactado (una collection por grupo de datos) y compactado (una collection paciente con todos los datos en el documento de paciente).

• Esquema muy eficiente en tiempo de ejecución para volúmenes grandes de datos

(14)

Almacenaje y modelización de datos

validate models

team

HEALTH DATA

Transformación e integración de los datos a partir del document store hacia un esquema de BDD relacional más adecuado para la

Visualización de dashboards y adaptado al tipo de casos de uso

(15)

Análisis de datos

_knowledge^Actionable Data Understanding Data gathering

validate models

team

HEALTH DATA

• Generación del Data set para análisis y elaboración del modelo

• A partir de las BDD’s integradas.

• Análisis exploratorio de los datos y ajuste de modelos mediante R

(16)

Visualización de datos

validate models

team

HEALTH DATA

• Visualización de los datos, los análisis exploratorios y los

• Resultados de los modelos predictivos.

• Integración de los modelos predictivos en el dashboard

(17)

Monitorización y predicción: ocupación y los

recursos

(18)

Monitorización y predicción: ocupación y los

recursos

(19)

Predicción estancia para nuevos ingresos

Objetivos analíticos:

Estimar los días de estancia para nuevos ingresos del centro socio sanitario con el fin de mejorar la planificación del centro y la atención a pacientes y

familiares.

Aproximación:

• Aplicación de técnicas de aprendizaje automático (clasificación multinomial supervisada) factorizando la variable de salida (días de estancia) en varios intervalos de interés.

• Recopilación, integración y transformación de la información dispone para construir un vector de datos único por paciente.

• Análisis exploratorio, tratamiento de valores atípicos y valores nulos.

• Aplicación de técnicas de selección de variables para descartar variables correlacionadas y/o no relevantes.

• Construcción de varios modelos de clasificación supervisada. Selección de parámetros mediante 10- fold cross validation y generalización de resultados mediante test-set independiente.

(20)

Variables predictoras

• Diagnóstico principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)

• Procedimiento principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)

• Causas externas (codificación CIE-9). Variables multivaluadas (n por paciente)

• Variables analíticas. Niveles de Hemoglobina, Albúmina y Creatinina

• Valoraciones de enfermería para determinar los síndromes geriátricos.

• Valoración de capacidad funcional. Escala de Barthel.

• Valoración de capacidad cognitiva. Escala de Pfeiffer.

• Edad y sexo.

• Otras variables derivadas:

• Indicador de reingresos

• Días desde el anterior ingreso

• Mes ingreso y alta

• Mejora funcional (Barthel)

• Mejora cognitiva (Pfeiffer)

• Farmacia

• Valoraciones sociales.

(21)

Variables predictoras

Síndromes geriátricos.

• Resumen variables:

• Inmovilidad (RUG)

• Caídas (Valoración de caídas)

• Incontinencia urinaria (RUG)

• Incontinencia fecal (RUG)

• Demencia (RUG)

• Infecciones (RUG)

• Desnutrición (RUG)

• Alteraciones de la vista (Ingreso de Enfermería)

• Alteraciones del oído (Ingreso de Enfermería)

• Constipación (Ingreso de Enfermería)

• Depresión (RUG)

• Úlceras (RUG)

• Enfermedad terminal (RUG)

(22)

Características de las base de datos

• Registros históricos de 9703 pacientes (episodios).

• Algunas de ellas son multi-valuadas. Por ejemplo la lista de diagnósticos principales.

• Una vez expandidas las variables categóricas y multi-valuadas (ver estrategia de transformacion) el dataset de partida tiene una

dimensionalidad de 9703 muestras x 1054 variables

• Variable de respuesta: Número de días de hospitalización.

(23)

Protocolo de ajuste y generalización del

model

(24)

Resultados

El modelo identifica mejor los pacientes que harán estancias superiores a 70 días (clase 3) y los que harán estancias inferiores a 16 días (clase 0).

Por otro lado se observa mala capacidad de discriminación entre las clases 1 (estancias entre 17 y 40 días) y 2 (estancias entre 40 y 70 días).

Los resultados son estables y se obtienen siempre con un testset independiente no “visto” para el entrenamiento del modelo

(25)

Siguientes pasos

Actualmente estamos

analizando las fuentes de error en la matriz de

confusión con el fin de mejorar el modelo:

• Con métodos y criterios de Machine Learning.

• Mediante criterios clínicos,

a través de la exposición de

los resultados al equipo

médico de BSA.

(26)

Lecciones aprendidas

Adaptarse a la realidad

Evitar soluciones

‘all-in-one’ Herramientas flexibles

Coexistir con otros sistemas

Retorno de la inversión y gestión de expectativas

Gobernanza de los datos Concienciación,

Sensibilización y Formación

(27)

Muchísimas gracias

Scientific evidence for informed decision-

making

Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de

Catalunya

Francisco Lupiáñez-Villanueva [email protected]

Prof. Ciencias de la Información y la Comunicación Universita Oberta de Catalunya