• No se han encontrado resultados

Unidad III Modelamiento Multidimencional. Tecnología DATAWAREHOUSE

N/A
N/A
Protected

Academic year: 2021

Share "Unidad III Modelamiento Multidimencional. Tecnología DATAWAREHOUSE"

Copied!
14
0
0

Texto completo

(1)

Unidad III

Modelamiento Multidimencional

Tecnología

DATAWAREHOUSE

Prof. Fredi Palominos Villavicencio

Colección de datos integrados, variantes en el tiempo,

no volátiles, orientados a

temas

de interés para la

gestión de una organización o empresa, que

ayuda

en

los procesos de toma de decisiones.

Es una combinación de conceptos y tecnologías

destinadas a satisfacer los requerimientos de una

organización o empresa, en términos de mejorar la

gestión, con eficiencia y facilidad de acceso.

(2)

Principales Ventajas :

- Provee acceso a los datos organizacionales y corporativos.

- Integra y asocia información de diversas fuentes de datos.

- Brinda consistencia de datos y conceptos.

- La información es de calidad, consistente y garantizada.

- Soporta grandes volúmenes de información.

- Puede resumir y totalizar la información.

Prof. Fredi Palominos Villavicencio

Datawarehouse

Datos Orientados a Temas :

En un DW los datos se organizan y estructuran de acuerdo

a las áreas temáticas que son de interés para los directivos

de la empresa y no en función de procesos operacionales

específicos.

En un DW la información no necesariamente está

normalizada, por lo general existe redundancia y

duplicidad de datos, con el objeto de que el acceso a la

información sea rápido y expedito.

(3)

Datos Integrados :

Mediante el proceso de

Extracción, Trasformación y

Transporte

, los datos son almacenados

una sola vez

, de

acuerdo al área temática a la que pertenecen.

De esta forma la información es consistente, confiable,

estandarizada y consolidada, para todos los procesos y

análisis de la organización o empresa.

Prof. Fredi Palominos Villavicencio

Data Warehouse

Principales Características

Datos Variantes en el Tiempo :

Un DW se organiza como una sucesión de “fotografías” de

la organización o empresa,

cada una asociada a un

periodo o punto específico del tiempo

, lo que permite

realizar análisis en función del tiempo, con la finalidad de

realizar pronósticos y análisis de tendencias.

(4)

No Volátil :

En un DW

no se realizan actualización o eliminaciones de

los datos

, los datos se insertan como nuevos registros y por

tanto no sobrescriben los existentes.

Prof. Fredi Palominos Villavicencio

Data Warehouse

Principales Características

Principales Procesos

Tecnología

DATAWAREHOUSE

(5)

Bases de Dat os Ope raci onal es Datawarehouse Carga Control de Calidad Agrupamiento Agregación Direct ivo s y analistas Transformación Sistemas Operacionales Sistemas Decisionales

Prof. Fredi Palominos Villavicencio

Data Warehouse

Principales Procesos

Extracción de Información :

Extracción de datos desde los sistemas operacionales (alimentar procesos de transformación de datos).

Carga de Datos :

Carga de datos en el DW.

Control de Calidad :

Garantizar que los datos son limpios y consistentes.

Unificación, Transformación y limpieza de datos :

Unificación, validación y limpieza de tatos que pueden estar en mas de un sistema.

Auditoria y Seguridad :

Cuidar que los usuarios accedan a la información que les corresponde y registrar un seguimiento del acceso a los datos.

(6)

Sistema de Datawarehousing

OLTP

Bases de Dat os Ope raci onal es Datawarehouse Direct ivo s y analistas

OLAP

Modelamiento Empresarial Guía para la Toma de decisiones

Prof. Fredi Palominos Villavicencio

CONCEPTO ESENCIAL

Tecnología

DATAWAREHOUSE

(7)

Concepto Esencial

Los Hechos :

Un hecho es un dato sensible al tiempo que es

funcionalmente dependiente de las dimensiones que lo

definen.

Ejemplo

:

Una matrícula

.

Una matrícula es un hecho en el que un estudiante, en una

determinada fecha, a través del banco o el departamento de

finanzas, paga el arancel de una determinada carrera.

Las dimensiones son

estudiante

,

fecha

,

medio de pago

y

carrera

.

El

arancel

es un valor agregado del hecho.

Prof. Fredi Palominos Villavicencio

Metodología de Diseño

Tecnología

DATAWAREHOUSE

(8)

Diseño de Datawarehouse [Go99]

VI V IV III II I Diseñador

Esquema Físico del DW Esquema de DW lógico; DBMS destino y Cargas de trabajo Diseño Físico Diseñador Esquema DW lógico Esquema dimensional, modelo lógico objeto y cargas de trabajo Diseño Lógico Diseñador y usuarios finales Carga de trabajo Esquema dimensional y cargas preliminares Refinamiento de Cargas de Trabajo y Validación de esquemas dimensionales Diseñador Esquema Dimensional Esquemas de Bases de

datos, Hechos y cargas de trabajo preliminares Diseño Conceptual Diseñador y Usuarios finales Hechos y cargas de trabajo preliminares Esquemas de Bases de Datos Especificación de Requerimientos Diseñador y Administradores de los sistemas de información Esquemas de Bases de Datos Documentación existente

Análisis de los Sistemas de Información

Involucrados Salida

Entrada Etapa

Prof. Fredi Palominos Villavicencio

Diseño de Datawarehouse [Go99]

Etapa I : Análisis de los sistemas de Información

- Averiguar con los administradores de sistemas sobre posibles datos desconocidos o anormales (tratamiento de los valores nulos).

- Seleccionar las fuentes operacionales en función de la calidad de los datos y estabilidad de sus esquemas (sincronización de vistas).

- Determinar cuales datos pueden ser totalmente integrados con el objeto de obtener un vista completa del dominio de la base de datos.

- Entender profundamente la semántica de los datos con el objeto de hacer un cruce equilibrado durante el proceso de organización de los datos.

(9)

Diseño de Datawarehouse [Go99]

Etapa II : Especificación de Requerimientos

- Consiste en recolectar y filtrar los requerimientos de los usuarios. Como resultado se obtiene la definición de los hechos e indicaciones concernientes a las cargas de trabajo. - La selección de los hechos se basa en la documentación de

los sistemas de información. Los hechos son conceptos de interés primario para los procesos de toma de decisiones. - De la comparación de los datos preliminares de la etapa

anterior es posible saber que requerimientos pueden ser satisfechos.

Prof. Fredi Palominos Villavicencio

Diseño de Datawarehouse Relacionales

Inconveniencia de los métodos de

diseño tradicionales :

1. En el modelo Entidad / Relación no permite determinar a simple vista cuales serán las tablas más importantes.

2. La base de datos relacional derivada no es generalmente apropiada para responder a las exigencias de un DW.

La metodología tradicional utiliza el Modelo Entidad /Relación como herramienta conceptual para determinar un conjunto de tablas.

(10)

Diseño de Datawarehouse [Go99]

Etapa III : Diseño Conceptual

Suponiendo que los sistemas operacionales son relacionales, para cada Hechose deben realizar las siguientes acciones :

- Construir el árbol de atributos - Podar e injertar el árbol de atributos - Definir las Dimensiones

- Definir las Medidas

- Definir las Jerarquías

Prof. Fredi Palominos Villavicencio

Un Esquema Dimensional, que es una representación de la realidad usando el MHD, consiste en un conjunto de

esquemas de hechos (uno o mas hechos) cuyos elementos básicos son hechos, dimensionesy jerarquías.

Las metas del modelo de [Go99] son :

- Soportar eficientemente el diseño conceptual

- Proveer un ambiente expresivo para formular consultas - Favorecer el refinamiento de los requerimientos - Proveer una plataforma sólida para el diseño lógico - Producir documentación expresiva y no ambigua

Diseño de Datawarehouse [Go99]

Etapa III : Modelo de Hechos Dimensional (MHD)

(11)

Un Esquema de Hechos es una séxtupla

f = ( M, A, N, R, O, S )

- Mes un conjunto de medidas.

- Aes un conjunto de atributos dimensionales. - Nes un conjunto de atributos no dimensionales. - Res un conjunto de pares ordenados (ai,aj), donde:

ai{ Aa0 } , aj{ A N } , ai= aj, a0es la raízdel hecho. - ORes un conjunto de relaciones opcionales.

- Sen un conjunto de sentencias de agregación.

Diseño de Datawarehouse [Go99]

Etapa III : Esquema de

Hechos

Prof. Fredi Palominos Villavicencio

Diseño de Datawarehouse [Go99]

Etapa III : El esquema del hecho

Matrícula

Matrícula Monto Descuento Saldo Día Mes Periodo Año Día Semana Facultad Depto Carrera Tipo Estudios Teléfono Dirección Rut Nombre Comuna Vía Ingreso Hijo Funcionario Cupo Indígena Tipo Enseñanza Colegio Atributos no Dimensionales Hecho Jerarquía Atributo Dimensional

(12)

Diseño de Datawarehouse [Go99]

Etapa III : Conceptos Claves

Una Instancia de Hecho Primario es una unidad de información presente en el DW.

Una Instancia de Hecho Secundariacorresponde a una agregación de una conjunto de de hechos primarios.

Una Jerarquíaes una relación de Muchos a Uno que se da entre los valores de un determinado conjunto de atributos pertenecientes a una

dimensión.

Una Dimensión es un conjunto de atributos pertenecientes a una entidad asociada a uno o más hechos. Los atributos pertenecientes a una dimensión se utilizan como elementos de agrupación de los hechos o como mecanismos de búsqueda. Frecuentemente, los atributos de una dimensión conforman una jerarquía.

Esta fase esta orientada a:

1. Reformular las cargas de trabajo preliminares por medio de una reformulación detallada y profunda de los esquemas dimensionales.

2. Validar los esquemas desarrollados en las etapas anteriores.

Diseño de Datawarehouse [Go99]

Etapa IV : Refinamiento de Cargas y Validación de Esquemas

Las consultas correspondientes a las cargas de trabajo pueden ser correctamente formulada si las dimensiones o medidas han sido identificadas, jerarquizadas y correctamente formuladas.

(13)

Diseño de Datawarehouse [Go99]

Etapa V : Diseño Lógico

Prof. Fredi Palominos Villavicencio

La etapa del diseño lógico recibe como entrada un diseño multidimensional, cargas de trabajo e información adicional (frecuencias de actualización, disponibilidad de espacio de disco, etc.) para producir un esquema de DW que debería minimizar los tiempos de respuesta a las consultas, respetando las restricciones de espacio de disco.

Existen distintas alternativas de implementación tales como :

OLAP, HOLAP, MOLAPo ROLAP.

Se denomina modelo estrella cuando se define una gran tabla central con tablas más pequeñas desplegadas en torno a ellas.

Ejemplo :

Matrícula

.

Diseño de Datawarehouse [Go99]

Etapa V : Modelo Estrella

Rut Alumno Código Carrera Fecha Monto Descuento Saldo

MATRICULA Rut Alumno Nombre

Dirección Teléfono Comuna Vía Ingreso Tipo Colegio Colegio Hijo Func Cupo Indígena ALUMNO Código Carrera Tipo Estudios Depto Facultad CARRERA Día Día Semana Mes Año Periodo FECHA

(14)

Cuando la normalización no interfiere en el rendimiento de DW esta se puede aplicar y en este caso se obtienen estructuras que se denominan snowflake.

Ejemplo :

Matrícula

.

Prof. Fredi Palominos Villavicencio

Diseño de Datawarehouse [Go99]

Etapa V : Modelo Copo de Nieve (Snowflake)

Rut Alumno Código Carrera Fecha Monto Descuento Saldo

MATRICULA Rut Alumno Nombre

Dirección Teléfono Comuna Vía Ingreso Colegio Hijo Func Cupo Indígena ALUMNO Código Carrera Tipo Estudios Depto Facultad CARRERA Día Día Semana Mes Año Periodo FECHA Colegio Tipo Colegio COLEGIO

Bibliografía :

[JEB] Aproximación metodológica de un spatial data warehouse, Juan Eulises Bohorquez, ESRI GIS and Mapping Software.

[Go99] Designing the Data Warehouse: Key Steps and Crucial Issues,

Matteo Golfarelli, Stefano Rizzi, Journal of Computer Science and Information Management, Vol 2, N 3, 1999.

[Sa98] Extending the E/R Model for the Multidimensional Paradigm,

Carsten Sapia, Markuz Blaschka, Gabriele Hölling, Barbara Dinter, Springer Verlag 1998.

[Wo00] Implementando un data warehouse, Carmen Wolff, Revista Ingeniería Informática, DIICC Universidad de Concepción, Nº 5, [Gr95] Data Cube: A Relational Aggregation Operator Generalizing

Group-By, Cross-Tab, and Sub.Totals, Jim Gray, Adam Bosworth, Andrew Layman, Hamind Pirahesh, Tecnical Report MSR-TR-95-22, IBM Research, San Jose, CA, 1995..

[Ag97] Modeling Multidimensional Databases, R. Agrawal, A. Gupta, S. Sarawagi: 13th Int'l Conf. on Data Engineering, Birmingham, England, April 1997.

Referencias

Documento similar

Esquema lógico Æ Descripción de la estructura de la base de datos según el modelo del SGBD que se vaya a utilizar.. Modelo lógico Æ Lenguaje que se utiliza para describir

GRÁFICO 49. El esquema real con todos sus acceso- rios lo representamos en un esquema funcional más simple. En el esquema, L 1 se conecta con el punto centro de conexión del

Incluso desviando mano de obra calificada de actividades programadas fuera de ruta critica, esto parecería lógico bajo el esquema de primero lo importante , pero finalmente todas

Promueve la investigación de concepto, etiología, signos y síntomas, diagnostico, tratamiento, complicaciones y cuidados de enfermería, en patologías musculo

X|En el siguiente esquema se muestra un sistema de utilización integral, con sus respectivas cargas, se le solicita hacer los detalles de los esquemas trifilares técnicos

Para lograr los objetivos planteados en los Lineamientos para la promoción y operación de la Contraloría Social en los Programas Federales de Desarrollo Social, publicados el 28 de

Abra la puerta, espere unos minutos antes de descargar el lavavajillas para evitar la manipulación de los platos y los utensilios cuando aún estén calientes y más susceptibles a

Telecomunicaciones, Ingeniería Técnica de Telecomunicaciones e Ingeniería Superior de Informática. A pesar de haber transcurrido sólo un cuatrimestre, en el nivel