Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 1 data marts MD implementación dis. ló gico esq. conceptual esq. lóg. MD
Proceso de Diseño
DW rel. bases fuente ER integradoesq. lóg. rel. DW esq. lóg. rel. DW
fuente integ. dis. lógico integración implementación refinamiento dis. lógico diseño concep. dis. lóg ico carga carga
Carga y Mantenimiento
de DW
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 3
Plan
n Contexto - Ciclo de vida de un DW
n Carga inicial
n Problemática del proceso de actualización
n Carga inicial
n Herramientas ETL
n Laboratorio
n Conclusión
Estructura del Data Warehouse
Metadata Datos: •homogeneizados •sin preparar Datos: •homogeneizados. •integrados. •preparados. Datos : •+ preparados. •especializados. •Describen los otros datos. BD
Fuente ODS Data Warehouse Corporativo
Aplicaciones (Data Marts) . . . Datos deta-llados
Transforma-ciones DatosPreparados (indicadores,
agregados, históricos)
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 5
Ciclo de vida de un DW
n 3 grandes etapas n diseño n carga inicial n refresqueCiclo de vida de un DW / Diseño
n Etapa diseño
n Consiste en la definición de:
n esquema del DW y de los DMs n extractores de fuentes
n limpiadores de datos n integradores de datos
n El resultado es un conjunto de especificaciones
formales o semi-formales que alimentan la
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 7
Ciclo de vida DW / Carga Inicial
n Etapa carga inicial
n Consiste en la generación inicial del
contenido del dw.
n 4 actividades:
n preparación n integración
n agrupamiento (high level aggregation) n adaptación (customization)
Carga inicial
. . . . . . datos fuentes ODS CDW Data Marts Preparación Integración Agrupamiento AdaptaciónExtracción Limpieza Integración Agrupamiento Adaptación
. . . . . .
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 9
Carga inicial
n Preparaciónse realiza para c/fuente y consiste
en
n la extracciónde datos n lalimpiezade datos
n el almacenamientode datos
n Integración de datos consiste en
n lareconciliación dedatos provenientes de fuentes
heterogéneas
n la generación de las relaciones (vistas de base) del
ODS.
Carga inicial
n Agrupamiento consiste en la generación de las
"vistas agrupadas, resumidas" a partir de las vistas de base.
n Adaptación consiste en la generación y
especialización de las "vistas usuario" que definen a los data marts.
n Esta descomposición en 4 pasos es llevada a la
implementación de diferentes maneras en los productos y en los trabajos de investigación.
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 11
Actualización
n La actualización en sistemas de dw trata el problema de cómo reflejar los
cambios que ocurren en las fuentes a partir de las cuales el depósito ha sido definido.
n En inglés, Refreshment Process.
"definición"
fuentes depósito de datos
Actualización
n Concepto de "frescura" (freshness)
n No se refiere necesariamente a los datos más
actuales.
n "Frescura" requerida por las aplicaciones (los
usuarios).
n Cambios que ocurren en las fuentes
n Esquema y datos
n Pocos trabajos sobre impacto en el depósito de datos debido a cambios en los
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 13
Actualización
n Etapa actualización tiene un flujo de datos similar a la etapa de carga.
n Sin embargo, el proceso de actualización:
n captura los cambios diferencia que ocurren en
las fuentes
n propaga dichos cambios a lo largo de la
jerarquía de depósitos
Carga inicial y Actualización
n Diferencias
n Período de disponibilidad requerida de las fuentes n Carga inicial: un período largo
n Actualización: período / no sobrecargue las aplicaciones que usan a las fuentes.
n Restricciones sobre el tiempo de respuesta n Carga inicial: el tiempo de respuesta se mezcla con la
duración del proyecto.
n Actualización: depende de los requerimientos. n Paralelismo en la etapa de preparación
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 15
Parámetros del proceso de actualización
n Parámetros estáticos y dinámicos.
n Estáticos
n Requerimientos de las aplicaciones
n ej.: "frescura" de los datos, tiempos de cálculo de consultas y de vistas, modo de actualización (historia, sobreescritura, ...).
n Restricciones de las fuentes
n ej.: períodos de disponibilidad, frecuencia de cambios n Restricciones del sistema de dw
n ej.: limite de espacio, limites de funcionalidades
n Estos parámetros pueden evolucionar llevando a
reconfigurar la arquitectura del dw y cambiar la estrategia de actualización.
Parámetros del proceso de actualización
n Dinámicos
n volumen de cambios en las fuentes n "perfiles" de consultas
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 17
Dificultades en la actualización
n El volumen de datos almacenados en un dw.
n Los cambios deben propagarse a los distintos
niveles de la jerarquia de depósitos de datos.
n Datos de interés y también datos de los niveles intermedios.
n Concurrencia entre el refresque y el
procesamiento de consultas del dw
n Escenarios donde esta concurrencia es necesaria: n Período corto o inexistente en que no hay consultas. n Nivel de "frescura" de los datos.
n La dificultad radica en realizar el refresque sin
detener demasiado el despacho de consultas.
Dificultades en la actualización
n La carga transaccional.
n Actualización de un DWpuede involucrar
transacciones pesadas de carga y acceso.
Þuso de arquitecturas paralelas + compresión para transmisión + transacciones de larga duración. n Refresque de un DMpuede involucrar
transacciones que acceden muchos datos, realizan muchos cálculos para resumir y actualizan pocos datos en el DM.
Þproblema porque se debe actualizar en una cierta ventana de tiempo.
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 19
Problema de la actualización
n El problema de la actualización de dws puede ser visto como la definición de un proceso de construcción
incremental de dws.
n La incrementalidad aparece en distintos niveles
n extracción n integración n carga
Problema de la actualización
n La extracción debe poder encargarse de registrar los cambios ocurridos en una fuente. Esta tarea requiere:
n la detección de cambios en las fuentes n la extracción de los cambios, y
n el registro de los cambios.
n Wrappers (uno en cada fuente)
n Funcionalidad típica: Traducir datos de la
fuente a modelo de datos común
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 21
Problema de la actualización
n Una clasificación de las fuentes
Data Sources Non-Cooperative Sources Queryable Sources Snapshot Sources Cooperative Sources Replicated Sources Specific Sources Logged Sources Active Sources Callback Sources Internal Action Sources
Problema de la actualización
n La integración debe ser incremental.
n La limpieza debe ser incremental.
n Determinar las operaciones a aplicar sobre
el ODS.
n Determinar los datos que deben ser
cambiados en el dw.
n Determinar información de otras fuentes para
Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 23
Problema de la actualización
n La carga debe ser incremental.
n Las transacciones de actualización deben
ser sincronizadas de manera que las vistas accedidas por las consultas se encuentren en un estado "consistente".
n Planificar el momento en que las