Big data and Fragilidad
Francisco Lupiáñez-Villanueva [email protected]
Prof. Information and Communication Science
Pedro Javier Gonzalez Alonso [email protected] Analytics and Big Data Architect
Ruth Vilar Mateo, PhD [email protected]
Data Analyst and Data Engineer
Cátedra UOC-BSA
Scientific evidence for informed decision-
making
Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de
Catalunya
Gracias a la donación de un ciudadano de Badalona Romà Núñez Lloreda,
Salud, Big data y Análisis de datos
Salud, Big data y Análisis de datos
Plataforma orientada a la solución de
problemas…
… investigación
Requerimientos Analíticos
Sistemas clínicos
Algoritmos de aprendizaje automático/profundo Framework analítico
Document-
oriented storage Text-oriented
storage Distributed
storage engine Cohorte de pac.
Caso 1
Cohorte de pac.
Caso 2
BSA: área integral de salud
Centro Sociosanitario El Carme
• 529.582 población asignada ((Badalona, Montgat, Tiana, Teià, Masnou and Alella)
• 209 camas
• 50 camas paciente ambulatorio
• 7 consultorios
Finalidad y objetivos
Crear una herramienta de apoyo a la toma de decisiones que ayude a monitorear la actividad y mejore la planificación de la ocupación y los recursos disponibles.
• Predecir la ocupación.
• Predecir costes.
• Predecir la estancia para los nuevos ingresos
Plataforma orientada a la solución de
problemas…
De los datos al conocimiento para la acción
Entendiendo los datos
Actionable knowledge
Data Understanding Data gathering
Data processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH
Durante el proceso de desarrollo, se han realizado DATA
reuniones periódicas con:
Gerencia. Para informar de la evolución del análisis y alinear los objetivos
Responsables médicos y de enfermería de “El Carme”. Para compartir los hallazgos y determinar las mejores estrategias en cuanto a la selección de fuentes de datos relevantes.
Responsables de Sistemas de información. Para determinar la disponibilidad de datos, evaluar las técnicas de extracción.
Equipo directivo BSA. Para difundir el estado y los aspectos claves del proyecto, compartir la información y obtener una visión multidisciplinar.
Recogiendo los datos
Actionable knowledge
Data Understanding Data gathering
Data processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH DATA
• Diseño coherente sobre el esquema general del Data Lab.
• Anonimización de los datos antes de salir de BSA y pasar a la “Staging area”
• Extracción de datos de todas las fuentes disponibles relevantes.
• Diseño de procesos de extracción con foco en la flexibilidad y la eficiencia.
Procesando y transformando los
datos
ActionableknowledgeData Understanding Data gathering
Data processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH DATA
• Carga de las fuentes de datos con mínima transformación sobre un data store
“schemaless” (Document Store).
• Procesamiento mínimo para filtro y limpieza de datos.
• Almacenamiento de los datasets en el document store mediante modalidad dual: No compactado (una collection por grupo de datos) y compactado (una collection paciente con todos los datos en el documento de paciente).
• Esquema muy eficiente en tiempo de ejecución para volúmenes grandes de datos
Almacenaje y modelización de datos
Actionable knowledge
Data Understanding Data gathering
Data processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH DATA
Transformación e integración de los datos a partir del document store hacia un esquema de BDD relacional más adecuado para la
Visualización de dashboards y adaptado al tipo de casos de uso
Análisis de datos
knowledgeActionable Data Understanding Data gatheringData processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH DATA
• Generación del Data set para análisis y elaboración del modelo
• A partir de las BDD’s integradas.
• Análisis exploratorio de los datos y ajuste de modelos mediante R
Visualización de datos
Actionable knowledge
Data Understanding Data gathering
Data processing and transformation
Data mining Data storage
& modelling Get insights
Collect and review data Identify
analytical objectives
Select and clean data
Manioulate data & storage Develop &
validate models
Analytical lyfe cycle Multidisciplinary
team
HEALTH DATA
• Visualización de los datos, los análisis exploratorios y los
• Resultados de los modelos predictivos.
• Integración de los modelos predictivos en el dashboard
Monitorización y predicción: ocupación y los
recursos
Monitorización y predicción: ocupación y los
recursos
Predicción estancia para nuevos ingresos
Objetivos analíticos:
Estimar los días de estancia para nuevos ingresos del centro socio sanitario con el fin de mejorar la planificación del centro y la atención a pacientes y
familiares.
Aproximación:
• Aplicación de técnicas de aprendizaje automático (clasificación multinomial supervisada) factorizando la variable de salida (días de estancia) en varios intervalos de interés.
• Recopilación, integración y transformación de la información dispone para construir un vector de datos único por paciente.
• Análisis exploratorio, tratamiento de valores atípicos y valores nulos.
• Aplicación de técnicas de selección de variables para descartar variables correlacionadas y/o no relevantes.
• Construcción de varios modelos de clasificación supervisada. Selección de parámetros mediante 10- fold cross validation y generalización de resultados mediante test-set independiente.
Variables predictoras
• Diagnóstico principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)
• Procedimiento principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)
• Causas externas (codificación CIE-9). Variables multivaluadas (n por paciente)
• Variables analíticas. Niveles de Hemoglobina, Albúmina y Creatinina
• Valoraciones de enfermería para determinar los síndromes geriátricos.
• Valoración de capacidad funcional. Escala de Barthel.
• Valoración de capacidad cognitiva. Escala de Pfeiffer.
• Edad y sexo.
• Otras variables derivadas:
• Indicador de reingresos
• Días desde el anterior ingreso
• Mes ingreso y alta
• Mejora funcional (Barthel)
• Mejora cognitiva (Pfeiffer)
• Farmacia
• Valoraciones sociales.
Variables predictoras
Síndromes geriátricos.
• Resumen variables:
• Inmovilidad (RUG)
• Caídas (Valoración de caídas)
• Incontinencia urinaria (RUG)
• Incontinencia fecal (RUG)
• Demencia (RUG)
• Infecciones (RUG)
• Desnutrición (RUG)
• Alteraciones de la vista (Ingreso de Enfermería)
• Alteraciones del oído (Ingreso de Enfermería)
• Constipación (Ingreso de Enfermería)
• Depresión (RUG)
• Úlceras (RUG)
• Enfermedad terminal (RUG)
Características de las base de datos
• Registros históricos de 9703 pacientes (episodios).
• Algunas de ellas son multi-valuadas. Por ejemplo la lista de diagnósticos principales.
• Una vez expandidas las variables categóricas y multi-valuadas (ver estrategia de transformacion) el dataset de partida tiene una
dimensionalidad de 9703 muestras x 1054 variables
• Variable de respuesta: Número de días de hospitalización.
Protocolo de ajuste y generalización del
model
Resultados
El modelo identifica mejor los pacientes que harán estancias superiores a 70 días (clase 3) y los que harán estancias inferiores a 16 días (clase 0).
Por otro lado se observa mala capacidad de discriminación entre las clases 1 (estancias entre 17 y 40 días) y 2 (estancias entre 40 y 70 días).
Los resultados son estables y se obtienen siempre con un testset independiente no “visto” para el entrenamiento del modelo
Siguientes pasos
Actualmente estamos
analizando las fuentes de error en la matriz de
confusión con el fin de mejorar el modelo:
• Con métodos y criterios de Machine Learning.
• Mediante criterios clínicos,
a través de la exposición de
los resultados al equipo
médico de BSA.
Lecciones aprendidas
Adaptarse a la realidad
Evitar soluciones
‘all-in-one’ Herramientas flexibles
Coexistir con otros sistemas
Retorno de la inversión y gestión de expectativas
Gobernanza de los datos Concienciación,
Sensibilización y Formación
Muchísimas gracias
Scientific evidence for informed decision-
making
Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de
Catalunya
Francisco Lupiáñez-Villanueva [email protected]
Prof. Ciencias de la Información y la Comunicación Universita Oberta de Catalunya