Federación Médica del Interior (FEMI)
Sociedad Uruguaya de Informática en la Salud (SUIS)
Curso Introductorio a los Sistemas de Información en Salud
Edición 2009
Sistemas de Data Warehousing
Dr. Ing. AdrianaDr. Ing. Adriana MarottaMarotta (In.Co (In.Co -- F.IngF.Ing -- UDELAR)UDELAR) amarotta@fing.edu.uy
Temas
Temas
–
–
Temario
Temario
:
:
Introducci Introduccióón.n.Los Sistemas de Data Warehousing.
Los Sistemas de Data Warehousing.
Organizaci
Organizacióón de los Sistemas de DW.n de los Sistemas de DW. Usando los Sistemas de DW.
Usando los Sistemas de DW.
Factores de
Factores de ééxito, errores y beneficios.xito, errores y beneficios.
Conclusiones, Tendencias y Perspectivas.
Motivaciones
Motivaciones
Problem
Problem
á
á
tica planteada:
tica planteada:
–
–
Acceso a Informaci
Acceso a Informaci
ó
ó
n para la toma de
n para la toma de
decisiones.
decisiones.
Factores críticos:
Tiempo de acceso. Integración
Stock Farmacia Diagnósticos Gestión RRHH
¿?
Motivaciones
Motivaciones
Los datos existen, pero ...
Los datos existen, pero ...
–– No siempre se acceden fNo siempre se acceden fáácilmente. cilmente. –
– No siempre se utilizan. No siempre se utilizan.
La informaci
La informaci
ó
ó
n suele ser dif
n suele ser dif
í
í
cil de obtener:
cil de obtener:
–
– Deben obtenerse los datos:Deben obtenerse los datos:
A partir de los cuales se construye la informaci
A partir de los cuales se construye la informacióón.n. Que definen el contexto de los anteriores.
Que definen el contexto de los anteriores.
–
– En un cierto contexto, un En un cierto contexto, un íítem puede ser informacitem puede ser informacióón:n:
Dependiendo del tipo de decisiones a tomar.
Dependiendo del tipo de decisiones a tomar.
Dependiendo de la persona encargada.
Dependiendo de la persona encargada.
Dependiendo de la calidad de su valor.
Motivaciones
Motivaciones
Y los sistemas de informaci
Y los sistemas de informaci
ó
ó
n tradicionales ...
n tradicionales ...
–
–
Orientados a sistemas operacionales.
Orientados a sistemas operacionales.
–
–
Asociados a procesos productivos.
Asociados a procesos productivos.
–
–
Procesan grandes cantidades de transacciones.
Procesan grandes cantidades de transacciones.
Pueden resolver estas necesidades ?
Motivaciones
Motivaciones
Sistema orientado a la Producci
Sistema orientado a la Producci
ó
ó
n:
n:
–
– Prioridad: Prioridad:
tiempo de respuesta a transacciones
tiempo de respuesta a transacciones readread--writewrite..
–
– Se manejan datos actuales muy detallados.Se manejan datos actuales muy detallados. –
– Estables y de larga vida Estables y de larga vida úútil.til.
Sistema orientado a la Decisi
Sistema orientado a la Decisi
ó
ó
n:
n:
–
– Prioridad: Prioridad:
expresividad y eficiencia en consultas complejas.
expresividad y eficiencia en consultas complejas.
–
– Datos actuales+histDatos actuales+históóricos resumidos. ricos resumidos. –
Motivaciones
Motivaciones
Conclusi
Conclusi
ó
ó
n.
n.
–
–
Se trata de sistemas con objetivos diferentes.
Se trata de sistemas con objetivos diferentes.
–
–
Se construyen para ser eficientes en sus
Se construyen para ser eficientes en sus
objetivos.
objetivos.
–
Sistemas de Data Warehousing
Sistemas de Data Warehousing
Abordan la problem
Abordan la problem
á
á
tica planteada:
tica planteada:
Generar Informaci
Generar Informacióón para toma de decisiones.n para toma de decisiones.
siguiendo los principios:
siguiendo los principios:
–– Construir InformaciConstruir Informacióón desde datos de la empresa.n desde datos de la empresa. –
– Integrar diferentes fuentes de datos.Integrar diferentes fuentes de datos. –
– Ofrecer al usuario final mecanismos flexibles para el Ofrecer al usuario final mecanismos flexibles para el acceso a la informaci
acceso a la informacióón:n:
Pre
Pre--programada.programada. Libre, exploratoria.
Libre, exploratoria.
A trav
A travéés de los objetos de su negocio.s de los objetos de su negocio.
Observando los datos en formatos especializados.
Estructura de Sistemas de DW
Estructura de Sistemas de DW
... Bases de datos fuentes
Data Warehouse
• Carga automatizada.
• Control de Calidad de Datos. • Integración de BDs. Data Mining Consultas y reportes complejos Herramientas de exploración y análisis Multidimensional Analisis (OLAP) Fecha Pacientes
Patología - Construcción interactiva.- Agregación/Desagregación.
M E T A D A T A Búsqueda de correlaciones entre datos.
Históricos Archivos BD-Rel BD-Geo BD-Texto
Estructura de Sistemas de DW
Estructura de Sistemas de DW
Las Bases de Datos Fuente.
Las Bases de Datos Fuente.
–– AAlmacenanlmacenan datosdatos ““brutosbrutos”” para construir para construir ““la la informaci
informacióónn””.. –
– PPuedenueden ser ser heterogheterogééneasneas.. –
– AAlmacenanlmacenan íítemstems de de datosdatos detallados.detallados.
El Data Warehouse.
El Data Warehouse.
–– Base (o bases) de datos con el conjunto de Base (o bases) de datos con el conjunto de informaci
informacióón requerida para toma de decisiones.n requerida para toma de decisiones. –
– Incluye tablas con valores tomados de las BD Fuente Incluye tablas con valores tomados de las BD Fuente as
Estructura de Sistemas de DW
Estructura de Sistemas de DW
Herr. de Extracci
Herr. de Extraccióón y Transformacin y Transformacióón de datos (ETL).n de datos (ETL).
–
– Construyen el DW, transformando datos en BD Fuente.Construyen el DW, transformando datos en BD Fuente. –
– DDebeneben resolverresolver problemasproblemas ttéécnicoscnicos importantesimportantes::
A
Accesocceso a a sistemassistemas heterogheterogééneosneos.. E
Ejecucijecucióónn de de consultasconsultas complejascomplejas.. Operaci
Operacióón de carga global, combinando el conjunto de las n de carga global, combinando el conjunto de las operaciones.
operaciones.
La Calidad de los Datos.
La Calidad de los Datos.
–
– EEs un s un aspectoaspecto fundamentalfundamental credibilidad sistema.credibilidad sistema. –
– Se basa en:Se basa en:
La consistencia y correcci
La consistencia y correccióón cln cláásica de datos.sica de datos. Noci
Estructura de Sistemas de DW
Estructura de Sistemas de DW
Herramientas de acceso a Informaci
Herramientas de acceso a Informaci
ó
ó
n.
n.
–
–
Usadas para explorar la informaci
Usadas para explorar la informaci
ó
ó
n.
n.
–
–
Tipos de herramientas:
Tipos de herramientas:
Planillas electr
Planillas electróónicas.nicas.
Reportes y consultas interactivas.
Reportes y consultas interactivas.
OLAP (On
OLAP (On--Line Analytic Processing)Line Analytic Processing)::
–
– RRepresentaepresentann datosdatos comocomo DDimensionesimensiones y y MMedidasedidas..
Data Mining:
Data Mining:
–
Propiedades de los Sist. DW
Propiedades de los Sist. DW
Un Sistema de DW deber
Un Sistema de DW deber
í
í
a :
a :
–
–
Acceder a Bases Fuentes heterog
Acceder a Bases Fuentes heterog
é
é
neas y
neas y
multiplataforma.
multiplataforma.
–
–
Soportar m
Soportar m
ú
ú
ltiples tipos de usuarios.
ltiples tipos de usuarios.
–
–
Funcionar en forma independiente a los
Funcionar en forma independiente a los
Sistemas de Producci
Sistemas de Producci
ó
ó
n.
n.
–
–
Soportar configuraciones en red.
Soportar configuraciones en red.
–
–
Ofrecer Interfaces a usuario avanzadas.
Ofrecer Interfaces a usuario avanzadas.
–
Interfaces avanzadas a usuario
Interfaces avanzadas a usuario
Interfaces a usuario
Interfaces a usuario
especializadas.
especializadas.
– – Por quPor quéé ??Optimizar el tiempo del
Optimizar el tiempo del
usuario.
usuario.
–
– Principio:Principio:
A cada tipo de usuario o
A cada tipo de usuario o
aplicaci
aplicacióón se le ofrece la n se le ofrece la interfaz m
Espacio de Metadata
Espacio de Metadata
BD-Fuentes DW OLAP MDD/DBs MetadataOrganizaci
Organizaci
ó
ó
n de los Sist. DW
n de los Sist. DW
¿
¿
C
C
ó
ó
mo se organizan los sistemas DW en la
mo se organizan los sistemas DW en la
organizaci
organizaci
ó
ó
n ?
n ?
–
– DW a nivel de la organizaciDW a nivel de la organizacióón (o conjunto de n (o conjunto de ááreas).reas).
Almacena informaci
Almacena informacióón con alcance global.n con alcance global. Informaci
Informacióón integrada y n integrada y ““limpialimpia”” de la organizacide la organizacióón.n. Centraliza la carga (y controles) desde bases fuentes.
Centraliza la carga (y controles) desde bases fuentes.
–
– Data MartsData Marts por por áárea o aplicacirea o aplicacióón.n. Resuelven requerimientos concretos de
Resuelven requerimientos concretos de ááreas o aplicaciones.reas o aplicaciones. Basado en datos del DW.
Basado en datos del DW.
Tiene administraci
Tiene administracióón y evolucin y evolucióón relativamente autn relativamente autóónoma.noma. P.ej. : Gesti
Organizaci
Organizaci
ó
ó
n de los Sist. DW
n de los Sist. DW
¿
¿ CCóómo se organizan los sistemas DW en la organizacimo se organizan los sistemas DW en la organizacióón ?n ?
BDs Fuentes DW global Data Marts MOLAP ……... ROLAP Interfaz usuario Tecnologías de extracción y almacenamiento de info. ETL
Usando el Sistema de DW
Usando el Sistema de DW
¿
¿
C
C
ó
ó
mo se usa un Sistema de DW ?
mo se usa un Sistema de DW ?
–
–
A trav
A trav
é
é
s de herramientas de exploraci
s de herramientas de exploraci
ó
ó
n y
n y
an
an
á
á
lisis de informaci
lisis de informaci
ó
ó
n:
n:
BDs Escritorio.
BDs Escritorio.
Planillas Electr
Planillas Electróónicas.nicas.
Herramientas de consulta y reportes.
Herramientas de consulta y reportes.
OLAPs
OLAPs..
Herramientas Estad
Herramientas Estadíísticas y de Data Mining.sticas y de Data Mining. Modelizaci
Usando el Sistema de DW
Usando el Sistema de DW
... Bases de datos fuentes
Data Warehouse
• Carga automatizada.
• Control de Calidad de Datos. • Integración de BDs. Data Mining Consultas y reportes complejos Herramientas de exploración y análisis Multidimensional Analisis (OLAP) Fecha Pacientes
Patología - Construcción interactiva.- Agregación/Desagregación.
M E T A D A T A Búsqueda de correlaciones entre datos.
Históricos Archivos BD-Rel BD-Geo BD-Texto
Herramientas de Consultas y
Herramientas de Consultas y
Reportes
Reportes
Funcionalidades base:
Funcionalidades base:
–– Construir fConstruir fáácilmente consultas/reportes complejos.cilmente consultas/reportes complejos. –
– Muy buenos para construir reportes no previstos.Muy buenos para construir reportes no previstos. –
– Incorporan lenguajes para manejo de datos.Incorporan lenguajes para manejo de datos.
Incluyen funciones de todo tipo.
Incluyen funciones de todo tipo.
–
– Ofrecen diferentes niveles de complejidad orientada a Ofrecen diferentes niveles de complejidad orientada a diferentes tipos de usuario:
diferentes tipos de usuario:
Construcci
Construccióón de reporte complejo desde cero.n de reporte complejo desde cero. Construcci
Construccióón de reporte en base a n de reporte en base a ““moldesmoldes””.. Ejecuci
Ejecucióón de reportes con variables a llenar.n de reportes con variables a llenar. Ejecuci
OLAPs
OLAPs
Funcionalidades base:
Funcionalidades base:
–– Permiten consultar datos :Permiten consultar datos :
Interactivamente y en forma eficiente.
Interactivamente y en forma eficiente.
Usando mecanismos comprensibles para usuarios.
Usando mecanismos comprensibles para usuarios. –
– Una consulta corresponde a cruzar dimensiones y elegir la Una consulta corresponde a cruzar dimensiones y elegir la medida en el cruzamiento.
medida en el cruzamiento.
–
– Funcionalidades adicionales:Funcionalidades adicionales:
Visualizaci
Visualizacióón grn grááfica.fica. Operaciones en l
Operaciones en líínea.nea.
–
– Funcionalidades de herramientas:Funcionalidades de herramientas:
Integraci
Integracióón con BDs Relacionales.n con BDs Relacionales. Integraci
Modelos OLAP
Modelos OLAP
(o multidimensionales)
(o multidimensionales)
Motivaciones:
Motivaciones:
–– Facilitar y optimizar la realizaciFacilitar y optimizar la realizacióón de consultas de tipo n de consultas de tipo “
“cruzamientoscruzamientos””.. –
– Representar los datos en forma mRepresentar los datos en forma máás cercana a la s cercana a la intuici
intuicióón del usuario.n del usuario.
Principios generales:
Principios generales:
–– La informaciLa informacióón se representa como:n se representa como:
cuadros de doble o triple entrada.
cuadros de doble o triple entrada.
cubos de "n" dimensiones.
cubos de "n" dimensiones.
–
Modelos OLAP : Ejemplo
Modelos OLAP : Ejemplo
An
An
á
á
lisis de ventas de autos
lisis de ventas de autos
MODELO COLOR VOLUME-Ventas
MINI VAN BLUE 6
MINI VAN RED 5
MINI VAN WHITE 4
SPORTS COUPE BLUE 3
SPORTS COUPE RED 5
SPORTS COUPE WHITE 5
SEDAN BLUE 4 SEDAN RED 3 SEDAN WHITE 2 M O D E L O Mini Van Sedan Coupe 6 5 4 3 5 5 4 3 2 Tabla: Cuadro:
Modelos OLAP : Ejemplo
Modelos OLAP : Ejemplo
Agregando una 3a. dimensi
Agregando una 3a. dimensi
ó
ó
n:
n:
VENDEDOR
Mini Van
Coupe
Sedan
Blue Red White
Clyde Gleason Carr COLOR M O D E L O
Modelos OLAP : Ejemplo
Modelos OLAP : Ejemplo
Agregando una 4a. dimensi
Agregando una 4a. dimensi
ó
ó
n:
n:
VENDEDOR
Mini Van Coupe Sedan
Blue Red White
ClydeGleason Carr Color M O D E L O Mini Van Coupe Sedan
Blue Red White
ClydeGleason Carr
Color
...
Modelos OLAP
Modelos OLAP
Los Modelos OLAP constan de:
Los Modelos OLAP constan de:
–– Dimensiones:Dimensiones:
Dimensiones en el
Dimensiones en el hipercubohipercubo.. Macro
Macro--objetos del problema.objetos del problema. Criterios de an
Criterios de anáálisis de los datos.lisis de los datos.
–
– Medidas:Medidas:
Valores en los cruzamientos de las dimensiones.
Valores en los cruzamientos de las dimensiones.
Datos asociados a relaciones entre los objetos del problema.
Datos asociados a relaciones entre los objetos del problema.
Valores o Indicadores a analizar.
Dimensión:
Vendedores
Gleason Carr Levi Lucas Bolton Clyde VENDEDOR Gary St. Louis Chicago CIUDAD Midwest REGION
Jerarqu
Jerarqu
í
í
as:
as:
–
–
Los valores se organizan en jerarqu
Los valores se organizan en jerarqu
í
í
as
as
(categor
(categor
í
í
as).
as).
Dimensiones
Operaciones: Roll
Operaciones: Roll
-
-
up
up
Consolidaci
Consolidaci
ó
ó
n (Roll
n (Roll
-
-
Up).
Up).
Calcula las medidas en funci
Calcula las medidas en funcióón de agrupamientos.n de agrupamientos.
Mini Van
Coupe
Sedan
Blue Red White
Clyde Gleason Carr 5 10 Mini Van Coupe Sedan Blue Red White Chicago St.Louis Roll-up (Suma) Sobre Vendedor 15
Operaciones Multidimensionales
Operaciones Multidimensionales
Resumen:
Resumen:
– – SliceSlice..Selecciona dimensiones (y medidas) de trabajo.
Selecciona dimensiones (y medidas) de trabajo.
–
– Dice.Dice.
Selecciona valores en las dimensiones.
Selecciona valores en las dimensiones.
–
– RotaciRotacióón.n.
Selecciona el orden de visualizaci
Selecciona el orden de visualizacióón de las dimensiones.n de las dimensiones.
–
– DrillDrill--up/up/DrillDrill--downdown..
Selecciona un nivel de agregaci
Selecciona un nivel de agregacióón superior para una o mn superior para una o máás s dimensiones.
Data Mining
Data Mining
Objetivos:
Objetivos:
–
– Explorar BDs buscando relaciones desconocidas Explorar BDs buscando relaciones desconocidas
entre los datos.
entre los datos.
Por ejemplo:
Por ejemplo:
–
– Relaciones entre enfermedades y decesos.Relaciones entre enfermedades y decesos. Algunas candidatas a nuevas causas de decesos.
Algunas candidatas a nuevas causas de decesos.
Otras podr
Otras podríían ser datos erran ser datos erróóneos.neos.
Qu
Qu
é
é
incluye ?
incluye ?
–
– Un conjunto muy amplio y heterogUn conjunto muy amplio y heterogééneo de tneo de téécnicas cnicas y herramientas.
Data Mining
Data Mining
Los programas de Data Mining:
Los programas de Data Mining:
–– Analizan un conjunto de datos y generan Analizan un conjunto de datos y generan ModelosModelos..
Reglas.
Reglas.
Á
Árboles de Decisirboles de Decisióón.n. Clusters.
Clusters.
Ecuaciones.
Ecuaciones.
–
– Pueden estudiar varias dimensiones de datos Pueden estudiar varias dimensiones de datos simult
simultááneamente y descubrir los que tienen neamente y descubrir los que tienen comportamiento especial.
comportamiento especial.
–
Factores de
Factores de
é
é
xito
xito
Un proyecto DW se considera exitoso si:
Un proyecto DW se considera exitoso si:
–– Integra informaciIntegra informacióón heterogn heterogéénea.nea.
De diferentes tipos.
De diferentes tipos.
De diferentes or
De diferentes oríígenes.genes.
–
– Hace visible y manejable la informaciHace visible y manejable la informacióón n úútil.til. –
– Incluye datos de calidad validada.Incluye datos de calidad validada. –
– Ofrece acceso directo a usuarios.Ofrece acceso directo a usuarios. –
Errores a evitar
Errores a evitar
Se debe evitar:
Se debe evitar:
–
–
Establecer expectativas demasiados altas.
Establecer expectativas demasiados altas.
–
–
Cargar el DW con todo lo disponible.
Cargar el DW con todo lo disponible.
–
–
Elegir un DW manager sin orientaci
Elegir un DW manager sin orientaci
ó
ó
n al
n al
negocio.
negocio.
–
–
Dise
Dise
ñ
ñ
ar el DW igual que un sistema de
ar el DW igual que un sistema de
producci
producci
ó
ó
n.
n.
–
–
Ignorar fuentes de datos externas.
Ignorar fuentes de datos externas.
–
Beneficios esperables
Beneficios esperables
Se obtiene:
Se obtiene:
–– Acceso interactivo e inmediato a informaciAcceso interactivo e inmediato a informacióón n estrat
estratéégica de un gica de un áárea de negocios. rea de negocios. –
– Permite toma de decisiones basadas en datos Permite toma de decisiones basadas en datos objetivos.
objetivos.
–
– Los beneficios aumentan :Los beneficios aumentan :
cuanto m
cuanto máás importantes son las decisiones.s importantes son las decisiones. cuanto m
cuanto máás crs críítico es el factor tiempo.tico es el factor tiempo.
–
– CapitalizaciCapitalizacióón de datos en bases heterogn de datos en bases heterogééneas:neas:
Archivos,
Conclusiones
Conclusiones
Los Sistemas de DW resultan un aporte
Los Sistemas de DW resultan un aporte
importante para la toma de decisiones:
importante para la toma de decisiones:
–– Acercan la informaciAcercan la informacióón al usuario.n al usuario.
Los Sistemas DW permiten revalorizar los datos
Los Sistemas DW permiten revalorizar los datos
en la empresa:
en la empresa:
–– Integran datos en diferentes formatos.Integran datos en diferentes formatos.
Los Sistemas DW no son productos monol
Los Sistemas DW no son productos monol
í
í
ticos
ticos
sino composici
sino composici
ó
ó
n de soluciones t
n de soluciones t
é
é
cnicas.
cnicas.
–
– ConstrucciConstruccióón del Diccionario de Datos, Disen del Diccionario de Datos, Diseñño de o de Base de Datos, Conectividad, Control de calidad de
Base de Datos, Conectividad, Control de calidad de
datos,