Unidad III
Modelamiento Multidimencional
Tecnología
DATAWAREHOUSE
Prof. Fredi Palominos Villavicencio
Colección de datos integrados, variantes en el tiempo,
no volátiles, orientados a
temas
de interés para la
gestión de una organización o empresa, que
ayuda
en
los procesos de toma de decisiones.
Es una combinación de conceptos y tecnologías
destinadas a satisfacer los requerimientos de una
organización o empresa, en términos de mejorar la
gestión, con eficiencia y facilidad de acceso.
Principales Ventajas :
- Provee acceso a los datos organizacionales y corporativos.
- Integra y asocia información de diversas fuentes de datos.
- Brinda consistencia de datos y conceptos.
- La información es de calidad, consistente y garantizada.
- Soporta grandes volúmenes de información.
- Puede resumir y totalizar la información.
Prof. Fredi Palominos Villavicencio
Datawarehouse
Datos Orientados a Temas :
En un DW los datos se organizan y estructuran de acuerdo
a las áreas temáticas que son de interés para los directivos
de la empresa y no en función de procesos operacionales
específicos.
En un DW la información no necesariamente está
normalizada, por lo general existe redundancia y
duplicidad de datos, con el objeto de que el acceso a la
información sea rápido y expedito.
Datos Integrados :
Mediante el proceso de
Extracción, Trasformación y
Transporte
, los datos son almacenados
una sola vez
, de
acuerdo al área temática a la que pertenecen.
De esta forma la información es consistente, confiable,
estandarizada y consolidada, para todos los procesos y
análisis de la organización o empresa.
Prof. Fredi Palominos Villavicencio
Data Warehouse
Principales Características
Datos Variantes en el Tiempo :
Un DW se organiza como una sucesión de “fotografías” de
la organización o empresa,
cada una asociada a un
periodo o punto específico del tiempo
, lo que permite
realizar análisis en función del tiempo, con la finalidad de
realizar pronósticos y análisis de tendencias.
No Volátil :
En un DW
no se realizan actualización o eliminaciones de
los datos
, los datos se insertan como nuevos registros y por
tanto no sobrescriben los existentes.
Prof. Fredi Palominos Villavicencio
Data Warehouse
Principales Características
Principales Procesos
Tecnología
DATAWAREHOUSE
Bases de Dat os Ope raci onal es Datawarehouse Carga Control de Calidad Agrupamiento Agregación Direct ivo s y analistas Transformación Sistemas Operacionales Sistemas Decisionales
Prof. Fredi Palominos Villavicencio
Data Warehouse
Principales Procesos
Extracción de Información :
Extracción de datos desde los sistemas operacionales (alimentar procesos de transformación de datos).
Carga de Datos :
Carga de datos en el DW.
Control de Calidad :
Garantizar que los datos son limpios y consistentes.
Unificación, Transformación y limpieza de datos :
Unificación, validación y limpieza de tatos que pueden estar en mas de un sistema.
Auditoria y Seguridad :
Cuidar que los usuarios accedan a la información que les corresponde y registrar un seguimiento del acceso a los datos.
Sistema de Datawarehousing
OLTP
Bases de Dat os Ope raci onal es Datawarehouse Direct ivo s y analistasOLAP
Modelamiento Empresarial Guía para la Toma de decisiones
Prof. Fredi Palominos Villavicencio
CONCEPTO ESENCIAL
Tecnología
DATAWAREHOUSE
Concepto Esencial
Los Hechos :
Un hecho es un dato sensible al tiempo que es
funcionalmente dependiente de las dimensiones que lo
definen.
Ejemplo
:
Una matrícula
.
Una matrícula es un hecho en el que un estudiante, en una
determinada fecha, a través del banco o el departamento de
finanzas, paga el arancel de una determinada carrera.
Las dimensiones son
estudiante
,
fecha
,
medio de pago
y
carrera
.
El
arancel
es un valor agregado del hecho.
Prof. Fredi Palominos Villavicencio
Metodología de Diseño
Tecnología
DATAWAREHOUSE
Diseño de Datawarehouse [Go99]
VI V IV III II I DiseñadorEsquema Físico del DW Esquema de DW lógico; DBMS destino y Cargas de trabajo Diseño Físico Diseñador Esquema DW lógico Esquema dimensional, modelo lógico objeto y cargas de trabajo Diseño Lógico Diseñador y usuarios finales Carga de trabajo Esquema dimensional y cargas preliminares Refinamiento de Cargas de Trabajo y Validación de esquemas dimensionales Diseñador Esquema Dimensional Esquemas de Bases de
datos, Hechos y cargas de trabajo preliminares Diseño Conceptual Diseñador y Usuarios finales Hechos y cargas de trabajo preliminares Esquemas de Bases de Datos Especificación de Requerimientos Diseñador y Administradores de los sistemas de información Esquemas de Bases de Datos Documentación existente
Análisis de los Sistemas de Información
Involucrados Salida
Entrada Etapa
Prof. Fredi Palominos Villavicencio
Diseño de Datawarehouse [Go99]
Etapa I : Análisis de los sistemas de Información
- Averiguar con los administradores de sistemas sobre posibles datos desconocidos o anormales (tratamiento de los valores nulos).
- Seleccionar las fuentes operacionales en función de la calidad de los datos y estabilidad de sus esquemas (sincronización de vistas).
- Determinar cuales datos pueden ser totalmente integrados con el objeto de obtener un vista completa del dominio de la base de datos.
- Entender profundamente la semántica de los datos con el objeto de hacer un cruce equilibrado durante el proceso de organización de los datos.
Diseño de Datawarehouse [Go99]
Etapa II : Especificación de Requerimientos
- Consiste en recolectar y filtrar los requerimientos de los usuarios. Como resultado se obtiene la definición de los hechos e indicaciones concernientes a las cargas de trabajo. - La selección de los hechos se basa en la documentación de
los sistemas de información. Los hechos son conceptos de interés primario para los procesos de toma de decisiones. - De la comparación de los datos preliminares de la etapa
anterior es posible saber que requerimientos pueden ser satisfechos.
Prof. Fredi Palominos Villavicencio
Diseño de Datawarehouse Relacionales
Inconveniencia de los métodos de
diseño tradicionales :
1. En el modelo Entidad / Relación no permite determinar a simple vista cuales serán las tablas más importantes.
2. La base de datos relacional derivada no es generalmente apropiada para responder a las exigencias de un DW.
La metodología tradicional utiliza el Modelo Entidad /Relación como herramienta conceptual para determinar un conjunto de tablas.
Diseño de Datawarehouse [Go99]
Etapa III : Diseño Conceptual
Suponiendo que los sistemas operacionales son relacionales, para cada Hechose deben realizar las siguientes acciones :
- Construir el árbol de atributos - Podar e injertar el árbol de atributos - Definir las Dimensiones
- Definir las Medidas
- Definir las Jerarquías
Prof. Fredi Palominos Villavicencio
Un Esquema Dimensional, que es una representación de la realidad usando el MHD, consiste en un conjunto de
esquemas de hechos (uno o mas hechos) cuyos elementos básicos son hechos, dimensionesy jerarquías.
Las metas del modelo de [Go99] son :
- Soportar eficientemente el diseño conceptual
- Proveer un ambiente expresivo para formular consultas - Favorecer el refinamiento de los requerimientos - Proveer una plataforma sólida para el diseño lógico - Producir documentación expresiva y no ambigua
Diseño de Datawarehouse [Go99]
Etapa III : Modelo de Hechos Dimensional (MHD)
Un Esquema de Hechos es una séxtupla
f = ( M, A, N, R, O, S )
- Mes un conjunto de medidas.
- Aes un conjunto de atributos dimensionales. - Nes un conjunto de atributos no dimensionales. - Res un conjunto de pares ordenados (ai,aj), donde:
ai∈{ A∪a0 } , aj∈{ A ∪N } , ai= aj, a0es la raízdel hecho. - O⊂Res un conjunto de relaciones opcionales.
- Sen un conjunto de sentencias de agregación.
Diseño de Datawarehouse [Go99]
Etapa III : Esquema de
Hechos
Prof. Fredi Palominos Villavicencio
Diseño de Datawarehouse [Go99]
Etapa III : El esquema del hecho
Matrícula
Matrícula Monto Descuento Saldo Día Mes Periodo Año Día Semana Facultad Depto Carrera Tipo Estudios Teléfono Dirección Rut Nombre Comuna Vía Ingreso Hijo Funcionario Cupo Indígena Tipo Enseñanza Colegio Atributos no Dimensionales Hecho Jerarquía Atributo Dimensional
Diseño de Datawarehouse [Go99]
Etapa III : Conceptos Claves
Una Instancia de Hecho Primario es una unidad de información presente en el DW.
Una Instancia de Hecho Secundariacorresponde a una agregación de una conjunto de de hechos primarios.
Una Jerarquíaes una relación de Muchos a Uno que se da entre los valores de un determinado conjunto de atributos pertenecientes a una
dimensión.
Una Dimensión es un conjunto de atributos pertenecientes a una entidad asociada a uno o más hechos. Los atributos pertenecientes a una dimensión se utilizan como elementos de agrupación de los hechos o como mecanismos de búsqueda. Frecuentemente, los atributos de una dimensión conforman una jerarquía.
Esta fase esta orientada a:
1. Reformular las cargas de trabajo preliminares por medio de una reformulación detallada y profunda de los esquemas dimensionales.
2. Validar los esquemas desarrollados en las etapas anteriores.
Diseño de Datawarehouse [Go99]
Etapa IV : Refinamiento de Cargas y Validación de Esquemas
Las consultas correspondientes a las cargas de trabajo pueden ser correctamente formulada si las dimensiones o medidas han sido identificadas, jerarquizadas y correctamente formuladas.
Diseño de Datawarehouse [Go99]
Etapa V : Diseño Lógico
Prof. Fredi Palominos Villavicencio
La etapa del diseño lógico recibe como entrada un diseño multidimensional, cargas de trabajo e información adicional (frecuencias de actualización, disponibilidad de espacio de disco, etc.) para producir un esquema de DW que debería minimizar los tiempos de respuesta a las consultas, respetando las restricciones de espacio de disco.
Existen distintas alternativas de implementación tales como :
OLAP, HOLAP, MOLAPo ROLAP.
Se denomina modelo estrella cuando se define una gran tabla central con tablas más pequeñas desplegadas en torno a ellas.
Ejemplo :
Matrícula
.
Diseño de Datawarehouse [Go99]
Etapa V : Modelo Estrella
Rut Alumno Código Carrera Fecha Monto Descuento Saldo
MATRICULA Rut Alumno Nombre
Dirección Teléfono Comuna Vía Ingreso Tipo Colegio Colegio Hijo Func Cupo Indígena ALUMNO Código Carrera Tipo Estudios Depto Facultad CARRERA Día Día Semana Mes Año Periodo FECHA
Cuando la normalización no interfiere en el rendimiento de DW esta se puede aplicar y en este caso se obtienen estructuras que se denominan snowflake.
Ejemplo :
Matrícula
.
Prof. Fredi Palominos Villavicencio
Diseño de Datawarehouse [Go99]
Etapa V : Modelo Copo de Nieve (Snowflake)
Rut Alumno Código Carrera Fecha Monto Descuento Saldo
MATRICULA Rut Alumno Nombre
Dirección Teléfono Comuna Vía Ingreso Colegio Hijo Func Cupo Indígena ALUMNO Código Carrera Tipo Estudios Depto Facultad CARRERA Día Día Semana Mes Año Periodo FECHA Colegio Tipo Colegio COLEGIO
Bibliografía :
[JEB] Aproximación metodológica de un spatial data warehouse, Juan Eulises Bohorquez, ESRI GIS and Mapping Software.
[Go99] Designing the Data Warehouse: Key Steps and Crucial Issues,
Matteo Golfarelli, Stefano Rizzi, Journal of Computer Science and Information Management, Vol 2, N 3, 1999.
[Sa98] Extending the E/R Model for the Multidimensional Paradigm,
Carsten Sapia, Markuz Blaschka, Gabriele Hölling, Barbara Dinter, Springer Verlag 1998.
[Wo00] Implementando un data warehouse, Carmen Wolff, Revista Ingeniería Informática, DIICC Universidad de Concepción, Nº 5, [Gr95] Data Cube: A Relational Aggregation Operator Generalizing
Group-By, Cross-Tab, and Sub.Totals, Jim Gray, Adam Bosworth, Andrew Layman, Hamind Pirahesh, Tecnical Report MSR-TR-95-22, IBM Research, San Jose, CA, 1995..
[Ag97] Modeling Multidimensional Databases, R. Agrawal, A. Gupta, S. Sarawagi: 13th Int'l Conf. on Data Engineering, Birmingham, England, April 1997.