• No se han encontrado resultados

Big data and Fragilidad

N/A
N/A
Protected

Academic year: 2021

Share "Big data and Fragilidad"

Copied!
27
0
0

Texto completo

(1)

Big data and Fragilidad

Francisco Lupiáñez-Villanueva [email protected]

Prof. Information and Communication Science

Pedro Javier Gonzalez Alonso [email protected] Analytics and Big Data Architect

Ruth Vilar Mateo, PhD [email protected]

Data Analyst and Data Engineer

(2)

Cátedra UOC-BSA

Scientific evidence for informed decision-

making

Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de

Catalunya

Gracias a la donación de un ciudadano de Badalona Romà Núñez Lloreda,

(3)

Salud, Big data y Análisis de datos

(4)

Salud, Big data y Análisis de datos

(5)

Plataforma orientada a la solución de

problemas…

(6)

… investigación

Requerimientos Analíticos

Sistemas clínicos

Algoritmos de aprendizaje automático/profundo Framework analítico

Document-

oriented storage Text-oriented

storage Distributed

storage engine Cohorte de pac.

Caso 1

Cohorte de pac.

Caso 2

(7)

BSA: área integral de salud

Centro Sociosanitario El Carme

529.582 población asignada ((Badalona, Montgat, Tiana, Teià, Masnou and Alella)

209 camas

50 camas paciente ambulatorio

7 consultorios

(8)

Finalidad y objetivos

Crear una herramienta de apoyo a la toma de decisiones que ayude a monitorear la actividad y mejore la planificación de la ocupación y los recursos disponibles.

• Predecir la ocupación.

• Predecir costes.

• Predecir la estancia para los nuevos ingresos

(9)

Plataforma orientada a la solución de

problemas…

(10)

De los datos al conocimiento para la acción

(11)

Entendiendo los datos

Actionable knowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH

Durante el proceso de desarrollo, se han realizado DATA

reuniones periódicas con:

 Gerencia. Para informar de la evolución del análisis y alinear los objetivos

 Responsables médicos y de enfermería de “El Carme”. Para compartir los hallazgos y determinar las mejores estrategias en cuanto a la selección de fuentes de datos relevantes.

 Responsables de Sistemas de información. Para determinar la disponibilidad de datos, evaluar las técnicas de extracción.

 Equipo directivo BSA. Para difundir el estado y los aspectos claves del proyecto, compartir la información y obtener una visión multidisciplinar.

(12)

Recogiendo los datos

Actionable knowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH DATA

• Diseño coherente sobre el esquema general del Data Lab.

• Anonimización de los datos antes de salir de BSA y pasar a la “Staging area”

• Extracción de datos de todas las fuentes disponibles relevantes.

• Diseño de procesos de extracción con foco en la flexibilidad y la eficiencia.

(13)

Procesando y transformando los

datos

Actionableknowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH DATA

• Carga de las fuentes de datos con mínima transformación sobre un data store

“schemaless” (Document Store).

• Procesamiento mínimo para filtro y limpieza de datos.

• Almacenamiento de los datasets en el document store mediante modalidad dual: No compactado (una collection por grupo de datos) y compactado (una collection paciente con todos los datos en el documento de paciente).

• Esquema muy eficiente en tiempo de ejecución para volúmenes grandes de datos

(14)

Almacenaje y modelización de datos

Actionable knowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH DATA

Transformación e integración de los datos a partir del document store hacia un esquema de BDD relacional más adecuado para la

Visualización de dashboards y adaptado al tipo de casos de uso

(15)

Análisis de datos

knowledgeActionable Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH DATA

• Generación del Data set para análisis y elaboración del modelo

• A partir de las BDD’s integradas.

• Análisis exploratorio de los datos y ajuste de modelos mediante R

(16)

Visualización de datos

Actionable knowledge

Data Understanding Data gathering

Data processing and transformation

Data mining Data storage

& modelling Get insights

Collect and review data Identify

analytical objectives

Select and clean data

Manioulate data & storage Develop &

validate models

Analytical lyfe cycle Multidisciplinary

team

HEALTH DATA

• Visualización de los datos, los análisis exploratorios y los

• Resultados de los modelos predictivos.

• Integración de los modelos predictivos en el dashboard

(17)

Monitorización y predicción: ocupación y los

recursos

(18)

Monitorización y predicción: ocupación y los

recursos

(19)

Predicción estancia para nuevos ingresos

Objetivos analíticos:

Estimar los días de estancia para nuevos ingresos del centro socio sanitario con el fin de mejorar la planificación del centro y la atención a pacientes y

familiares.

Aproximación:

Aplicación de técnicas de aprendizaje automático (clasificación multinomial supervisada) factorizando la variable de salida (días de estancia) en varios intervalos de interés.

Recopilación, integración y transformación de la información dispone para construir un vector de datos único por paciente.

Análisis exploratorio, tratamiento de valores atípicos y valores nulos.

Aplicación de técnicas de selección de variables para descartar variables correlacionadas y/o no relevantes.

Construcción de varios modelos de clasificación supervisada. Selección de parámetros mediante 10- fold cross validation y generalización de resultados mediante test-set independiente.

(20)

Variables predictoras

Diagnóstico principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)

Procedimiento principal y secundarios (codificación CIE-9). Variables multivaluadas (n por paciente)

Causas externas (codificación CIE-9). Variables multivaluadas (n por paciente)

Variables analíticas. Niveles de Hemoglobina, Albúmina y Creatinina

Valoraciones de enfermería para determinar los síndromes geriátricos.

Valoración de capacidad funcional. Escala de Barthel.

Valoración de capacidad cognitiva. Escala de Pfeiffer.

Edad y sexo.

Otras variables derivadas:

Indicador de reingresos

Días desde el anterior ingreso

Mes ingreso y alta

Mejora funcional (Barthel)

Mejora cognitiva (Pfeiffer)

Farmacia

Valoraciones sociales.

(21)

Variables predictoras

Síndromes geriátricos.

• Resumen variables:

Inmovilidad (RUG)

Caídas (Valoración de caídas)

Incontinencia urinaria (RUG)

Incontinencia fecal (RUG)

Demencia (RUG)

Infecciones (RUG)

Desnutrición (RUG)

Alteraciones de la vista (Ingreso de Enfermería)

Alteraciones del oído (Ingreso de Enfermería)

Constipación (Ingreso de Enfermería)

Depresión (RUG)

Úlceras (RUG)

Enfermedad terminal (RUG)

(22)

Características de las base de datos

• Registros históricos de 9703 pacientes (episodios).

• Algunas de ellas son multi-valuadas. Por ejemplo la lista de diagnósticos principales.

• Una vez expandidas las variables categóricas y multi-valuadas (ver estrategia de transformacion) el dataset de partida tiene una

dimensionalidad de 9703 muestras x 1054 variables

• Variable de respuesta: Número de días de hospitalización.

(23)

Protocolo de ajuste y generalización del

model

(24)

Resultados

El modelo identifica mejor los pacientes que harán estancias superiores a 70 días (clase 3) y los que harán estancias inferiores a 16 días (clase 0).

Por otro lado se observa mala capacidad de discriminación entre las clases 1 (estancias entre 17 y 40 días) y 2 (estancias entre 40 y 70 días).

Los resultados son estables y se obtienen siempre con un testset independiente no “visto” para el entrenamiento del modelo

(25)

Siguientes pasos

Actualmente estamos

analizando las fuentes de error en la matriz de

confusión con el fin de mejorar el modelo:

• Con métodos y criterios de Machine Learning.

• Mediante criterios clínicos,

a través de la exposición de

los resultados al equipo

médico de BSA.

(26)

Lecciones aprendidas

Adaptarse a la realidad

Evitar soluciones

‘all-in-one’ Herramientas flexibles

Coexistir con otros sistemas

Retorno de la inversión y gestión de expectativas

Gobernanza de los datos Concienciación,

Sensibilización y Formación

(27)

Muchísimas gracias

Scientific evidence for informed decision-

making

Proveedor integrado de servicios sanitarios y sociales Universitat Oberta de

Catalunya

Francisco Lupiáñez-Villanueva [email protected]

Prof. Ciencias de la Información y la Comunicación Universita Oberta de Catalunya

Referencias

Documento similar

Furthermore, some concepts that require specific attention are:.. In Chapter 2, we studied and classified all types of metadata that can be used by systems that intelligently

Així un número real és normal en base 10, si en la seva expressió decimal no hi ha cap bloc d’un número qualsevol de dígits que sigui privilegiat en- front dels altres de la

These are called Dirichlet type spaces because for p=0 one gets the classical Dirichlet space D of all analytic functions on 2 whose images have finite area, counting

Análisis de las características, herramientas, tecnologías y estándares relacionados con Big Data. Sectores que implementan en la actualidad soluciones Big Data en sus

Google Fusion Tables Visualisation application/service Yes Web application, API JavaScript, Flash Free Browser External server Yes Tableau Public

Linked data, enterprise data, data models, big data streams, neural networks, data infrastructures, deep learning, data mining, web of data, signal processing, smart cities,

Amount of the planet light that is self-subtracted by the post processing reduction (M1 corresponds to simple ADI, M2 is an ADI by using two references psf and so on. For the PCA

En el siguiente apartado y posteriores incorporamos el sector turístico como objetivo de la gestión del Big Data, el turismo es una rama principal en la economía de nuestro país y