• No se han encontrado resultados

Carga y Mantenimiento de DW

N/A
N/A
Protected

Academic year: 2021

Share "Carga y Mantenimiento de DW"

Copied!
12
0
0

Texto completo

(1)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 1 data marts MD implementación dis. ló gico esq. conceptual esq. lóg. MD

Proceso de Diseño

DW rel. bases fuente ER integrado

esq. lóg. rel. DW esq. lóg. rel. DW

fuente integ. dis. lógico integración implementación refinamiento dis. lógico diseño concep. dis. lóg ico carga carga

Carga y Mantenimiento

de DW

(2)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 3

Plan

n Contexto - Ciclo de vida de un DW

n Carga inicial

n Problemática del proceso de actualización

n Carga inicial

n Herramientas ETL

n Laboratorio

n Conclusión

Estructura del Data Warehouse

Metadata Datos:homogeneizadossin preparar Datos:homogeneizados.integrados. preparados. Datos :+ preparados.especializados.Describen los otros datos. BD

Fuente ODS Data Warehouse Corporativo

Aplicaciones (Data Marts) . . . Datos deta-llados

Transforma-ciones DatosPreparados (indicadores,

agregados, históricos)

(3)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 5

Ciclo de vida de un DW

n 3 grandes etapas n diseño n carga inicial n refresque

Ciclo de vida de un DW / Diseño

n Etapa diseño

n Consiste en la definición de:

n esquema del DW y de los DMs n extractores de fuentes

n limpiadores de datos n integradores de datos

n El resultado es un conjunto de especificaciones

formales o semi-formales que alimentan la

(4)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 7

Ciclo de vida DW / Carga Inicial

n Etapa carga inicial

n Consiste en la generación inicial del

contenido del dw.

n 4 actividades:

n preparación n integración

n agrupamiento (high level aggregation) n adaptación (customization)

Carga inicial

. . . . . . datos fuentes ODS CDW Data Marts Preparación Integración Agrupamiento Adaptación

Extracción Limpieza Integración Agrupamiento Adaptación

. . . . . .

(5)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 9

Carga inicial

n Preparaciónse realiza para c/fuente y consiste

en

n la extracciónde datos n lalimpiezade datos

n el almacenamientode datos

n Integración de datos consiste en

n lareconciliación dedatos provenientes de fuentes

heterogéneas

n la generación de las relaciones (vistas de base) del

ODS.

Carga inicial

n Agrupamiento consiste en la generación de las

"vistas agrupadas, resumidas" a partir de las vistas de base.

n Adaptación consiste en la generación y

especialización de las "vistas usuario" que definen a los data marts.

n Esta descomposición en 4 pasos es llevada a la

implementación de diferentes maneras en los productos y en los trabajos de investigación.

(6)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 11

Actualización

n La actualización en sistemas de dw trata el problema de cómo reflejar los

cambios que ocurren en las fuentes a partir de las cuales el depósito ha sido definido.

n En inglés, Refreshment Process.

"definición"

fuentes depósito de datos

Actualización

n Concepto de "frescura" (freshness)

n No se refiere necesariamente a los datos más

actuales.

n "Frescura" requerida por las aplicaciones (los

usuarios).

n Cambios que ocurren en las fuentes

n Esquema y datos

n Pocos trabajos sobre impacto en el depósito de datos debido a cambios en los

(7)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 13

Actualización

n Etapa actualización tiene un flujo de datos similar a la etapa de carga.

n Sin embargo, el proceso de actualización:

n captura los cambios diferencia que ocurren en

las fuentes

n propaga dichos cambios a lo largo de la

jerarquía de depósitos

Carga inicial y Actualización

n Diferencias

n Período de disponibilidad requerida de las fuentes n Carga inicial: un período largo

n Actualización: período / no sobrecargue las aplicaciones que usan a las fuentes.

n Restricciones sobre el tiempo de respuesta n Carga inicial: el tiempo de respuesta se mezcla con la

duración del proyecto.

n Actualización: depende de los requerimientos. n Paralelismo en la etapa de preparación

(8)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 15

Parámetros del proceso de actualización

n Parámetros estáticos y dinámicos.

n Estáticos

n Requerimientos de las aplicaciones

n ej.: "frescura" de los datos, tiempos de cálculo de consultas y de vistas, modo de actualización (historia, sobreescritura, ...).

n Restricciones de las fuentes

n ej.: períodos de disponibilidad, frecuencia de cambios n Restricciones del sistema de dw

n ej.: limite de espacio, limites de funcionalidades

n Estos parámetros pueden evolucionar llevando a

reconfigurar la arquitectura del dw y cambiar la estrategia de actualización.

Parámetros del proceso de actualización

n Dinámicos

n volumen de cambios en las fuentes n "perfiles" de consultas

(9)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 17

Dificultades en la actualización

n El volumen de datos almacenados en un dw.

n Los cambios deben propagarse a los distintos

niveles de la jerarquia de depósitos de datos.

n Datos de interés y también datos de los niveles intermedios.

n Concurrencia entre el refresque y el

procesamiento de consultas del dw

n Escenarios donde esta concurrencia es necesaria: n Período corto o inexistente en que no hay consultas. n Nivel de "frescura" de los datos.

n La dificultad radica en realizar el refresque sin

detener demasiado el despacho de consultas.

Dificultades en la actualización

n La carga transaccional.

n Actualización de un DWpuede involucrar

transacciones pesadas de carga y acceso.

Þuso de arquitecturas paralelas + compresión para transmisión + transacciones de larga duración. n Refresque de un DMpuede involucrar

transacciones que acceden muchos datos, realizan muchos cálculos para resumir y actualizan pocos datos en el DM.

Þproblema porque se debe actualizar en una cierta ventana de tiempo.

(10)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 19

Problema de la actualización

n El problema de la actualización de dws puede ser visto como la definición de un proceso de construcción

incremental de dws.

n La incrementalidad aparece en distintos niveles

n extracción n integración n carga

Problema de la actualización

n La extracción debe poder encargarse de registrar los cambios ocurridos en una fuente. Esta tarea requiere:

n la detección de cambios en las fuentes n la extracción de los cambios, y

n el registro de los cambios.

n Wrappers (uno en cada fuente)

n Funcionalidad típica: Traducir datos de la

fuente a modelo de datos común

(11)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 21

Problema de la actualización

n Una clasificación de las fuentes

Data Sources Non-Cooperative Sources Queryable Sources Snapshot Sources Cooperative Sources Replicated Sources Specific Sources Logged Sources Active Sources Callback Sources Internal Action Sources

Problema de la actualización

n La integración debe ser incremental.

n La limpieza debe ser incremental.

n Determinar las operaciones a aplicar sobre

el ODS.

n Determinar los datos que deben ser

cambiados en el dw.

n Determinar información de otras fuentes para

(12)

Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 23

Problema de la actualización

n La carga debe ser incremental.

n Las transacciones de actualización deben

ser sincronizadas de manera que las vistas accedidas por las consultas se encuentren en un estado "consistente".

n Planificar el momento en que las

Referencias

Documento similar

The general idea of the language is to “thread together,” so to speak, existing systems that parse and analyze single web pages into a navigation procedure spanning several pages of

All in all, writing a synthesis text, based on multiple sources, requires three main high level processes: (1) the sources must be read integratively, that implies that readers

Summary of individuals harvested from the backcross one (BC1) population derived from the cross between the hybrid ‘MB 1.37’ (almond ‘Texas’ × peach ‘Earlygold’) and the

We also note indications of strong contamination by point sources. Submillimeter or radio sources indeed emit a flux that can compensate for the SZ decrement and create holes in

Apart from the emission sources reported in Table 3, which are commonly considered in the general literature focussed on the calculation of CF, other specific emission sources

While Sargon prayed to Marduk and made massive offerings to the Babylonian gods ("Display Inscription," 11. 141-143), his son plundered the royal palace and paid

The blue triangles are source counts from the 1FHL catalog; Top left: all 1FHL sources, excluding those associated with extragalactic sources, right: 1FHL pulsars, Bottom left: all

There is a tight correlation (lower black line) between [O i] line emission and 63 μm continuum flux for non-outflow sources (sources with less than 3σ detection in line or