Ponderacion PCI = 0
Capítulo 3. Modelamiento de Información 3.1 Alcance de Paquetes de Trabajo de B
3.2.5 Arquitectura de información de referencia
Desde el punto de vista del procesamiento de los datos (o la cadena de suministro de datos), la arquitectura de información puede ser representada a nivel conceptual a través de los siguientes componentes:
Imagen 3.6 Arquitectura de referencia
Se ha establecido como base de la arquitectura un EDW, y los objetivos de una arquitectura de este tipo son:
● Escalabilidad: La infraestructura técnica debe ser capaz de crecer en tamaño, capacidad y funcionalidad para satisfacer los cambiantes requisitos técnicos y del negocio sin la necesidad de rediseñar la arquitectura de la solución. Los volúmenes de datos en los sistemas de producción podrían aumentar después de la implementación de la arquitectura y probablemente modificarán su alcance. La demanda de un rendimiento sostenible o más eficiente exige solución escalable.
● Flexibilidad: A medida que el negocio cambia, las soluciones deben ser capaces de ajustarse en consecuencia sin que ello implique inversiones demasiado onerosas. Las soluciones deben tener la capacidad de apoyar a los futuros cambios en el negocio, sin necesidad de una revisión completa de la arquitectura. Un diseño flexible implica soluciones más longevas.
● Autonomía: La arquitectura debe reducir al mínimo el impacto de los cambios en las fuentes de datos, las estructuras de datos y los procesos ETL. Los cambios en los procesos ETL deben limitarse a la fase de extracción (E), procurando el mínimo impacto en las fases de transformación (T) y carga (L).
● Integración: La arquitectura debe facilitar el intercambio y utilidad de datos a través de todas las áreas de una organización. La correcta integración ofrece la posibilidad de combinar datos de múltiples fuentes de datos diferentes y disponerlos en un solo conjunto estandarizado y consistente de datos.
● Distribución: La arquitectura debe facilitar la entrega oportuna de la información a partir de un almacén centralizado y estandarizado, ofreciendo la información que cada usuario y área de la organización necesita sin perjuicio de la consistencia.
● Seguridad: El acceso a la información de diferentes niveles de sensibilidad debe ser controlado a través de un mecanismo centralizado en la arquitectura que sea consistente con las políticas aplicadas por el resto de la organización.
El sentido de organizar la arquitectura de este modo radica ir agregando valor a los datos hasta que cumplan de manera completa y eficiente con las necesidades que las personas tienen para tomar decisiones fundadas. Desde las fuentes de datos hasta el almacén de datos, es esfuerzo se concentra en la consolidación de los datos, transformándolos en información consistente, confiable y de la mayor calidad posible. Desde el almacén de datos hasta el consumo de información, el trabajo se enfoca a la especialización y diversificación de esa información consolidada para presentar del modo más adecuado para cada audiencia, pero con las garantías de calidad y confiabilidad conseguidas por el esfuerzo anterior.
Una arquitectura orientada a EDW es diferente a cualquier otro tipo de iniciativas de BI, y cuanto más grande y más compleja sea la organización, más cierto es esto y más provecho se obtiene de ella. Aunque el concepto es simple (la recopilación de información de todas las fuentes necesarias y su almacenamiento en un único repositorio central), la realidad impone desafíos complejos. Es imperativo que todos los interesados tengan una visión clara de los principios básicos, de los esfuerzos necesarios y de lo que puede obtenerse de un EDW. La forma en que se gestiona la arquitectura EDW es tan importante como el producto final que se busca. La calidad y la eficacia del producto final se relacionan directamente con las prácticas y disciplinas utilizadas en todo el ciclo de vida de del EDW. Algunos de los factores críticos de éxito que deben observarse para la sostenibilidad de un EDW:
Fuentes de datos
Son los sistemas que producen y registran la información de la organización. En el contexto de un proyecto BI se debe hacer concreta la definición de cada fuente de datos, para lo cual deben conocerse todas sus características tanto funcionales como técnicas. Las características funcionales hacen referencia al aporte que la fuente de datos hace a la solución que se construye en el proyecto dentro de sus restricciones de alcance desde el punto de vista del negocio. Se documentan en el contexto del proyecto como parte de su alcance, y se registran en el documento de definición de fuentes del proyecto. En abstracto, y con el objetivo de establecer las características de las soluciones
de BI y poder estimar el esfuerzo que implica construirlas, las fuentes de datos se clasifican del siguiente modo:
● Base de datos relacional: Instancia de base de datos relacional normalizada (2NF o 3NF).
● BI - Base de datos multidimensional: Instancia de base de datos multidimensional a través de cubos.
● BI - Base de datos relacional: Instancia de base de datos relacional con modelo de datos Star o Snowflake.
● Fuentes manuales – Excel: Archivo de Excel con una o más hojas de cálculo – Texto: Archivo de texto que organiza los datos de acuerdo a una convención (CSV, TSV, posicional, etc.).
● Web Service: Servicio web que expone los datos mediante una operación basada en un contrato estandarizado.
● Combinado: Implica combinar dos o más fuentes de datos, aunque sean del mismo tipo. Los datos de estas fuentes se obtienen mediante la aplicación de una de las siguientes técnicas:
● Apareo: Actualización completa mediante la comparación registro a registro para detectar novedades.
● Auditoría: Se detectan las novedades a partir de campos de fecha/hora en las tablas de origen, comparando las fechas disponibles con la última fecha en la que se realizó la actualización.
● Database log: Detección de novedades en el sistema interno de log de bajo nivel de la base de datos del sistema fuente.
● Manual: Los datos se cargan manualmente.
● Mensajería: Se deben desencolar las novedades de una cola de mensajes.
● Pooling: Se toman las novedades a partir de la presencia de un archivo en un directorio.
● Trigger: Se implementa un disparador sobre la tabla de origen que actualiza una tabla de copia cada vez que la tabla principal recibe una actualización.
● Recarga: Generalmente utilizado en aggregates que deben ser recalculadas de manera total o parcial.
Procesos ETL
Son los artefactos de software que transforman los datos de entrada en activos de información. También conocidos como procesos de extracción, transformación y carga de datos o ETL. Con el objetivo de establecer las características de las soluciones de BI y poder estimar el esfuerzo que
implica construirlas, las técnicas que se aplican para el procesamiento de datos se clasifican del siguiente modo:
● Subrogación y mapeos: Subrogación de claves y correspondencia entre atributos sin aplicar transformaciones.
● Transformaciones simples: Correspondencia entre atributos aplicando transformaciones o cálculos sobre el mismo atributo de entrada.
● Transformaciones complejas: Correspondencia entre atributos aplicando transformaciones o cálculos sobre dos o más atributos de entrada.
● Parametrización dinámica: Se requiere que el proceso tome como entradas valores de parámetros establecidos manual o automáticamente por el usuario final.
● Cálculo complejo: Se requiere de cálculo intensivo haciendo uso de múltiples consultas a datos históricos, sumarizaciones o consultas a diferentes fact tables para apoyar el procesamiento.
● Dependencias: Se requiere la gestión de dependencias, es decir, la carga del hecho o la dimensión guarda dependencias con la carga de otros hechos o dimensiones.
● Extracción compleja: La extracción implica operaciones más complejas que un JOIN entre tablas de una base de datos relacional, la selección directa de miembros de un cubo multidimensional o la carga directa de datos de un archivo de Excel.
Integración de datos
Es el área de trabajo para el aseguramiento de la calidad y la integración de los datos de diversas fuentes. Físicamente se trata de motores de bases de datos relacionales, servicios web y herramientas de extracción, transformación y carga de datos. El componente principal es un área de estacionamiento o Staging Area (generalmente una única instancia de bases de datos relacional dividida en varios esquemas), donde los datos son depositados luego del subproceso de extracción que tomaron los datos desde las fuentes. En el Staging Area es donde comienza a darse forma al modelo de datos corporativo, ya que se unifican semánticamente conceptos dispersos en la organización.
Este componente permite unificar los criterios que diferentes actores tienen sobre el mismo concepto y sobre las relaciones entre entidades mediante la aplicación de reglas de negocio consensuadas,
diseño del modelo de datos subyacente se basa en el modelo de datos canónico de la organización, aplicando técnicas de desnormalización que hacen más eficiente y sencilla su utilización por parte de las personas (en contraposición al diseño normalizado, del que se benefician las aplicaciones de software).
Además, el Staging Area cumple el importante rol de amortiguador entre los cambios que se producen en las fuentes de datos y el consumo de información que necesitan las personas. Como todo movimiento de datos esta transición se realiza mediante procesos ETL. En esta fase, el esfuerzo se concentra en detectar los cambios que sufrieron los datos en las fuentes desde la última extracción, y aplicar las técnicas de limpieza, integración y subrogación. En el Staging Area se conservan los siguientes componentes:
● Tablas volátiles de hechos: contienen los datos de la última ejecución para la carga de datos
de hechos. Sus datos son eliminados en cada nueva ejecución del proceso ETL que las carga. Generalmente sus claves primarias son las mismas que en la fuente de datos.
● Tablas permanentes de dimensiones: contienen los datos de cada dimensión, y la necesidad de
persistencia radica en que en ellas se mantiene la surrogación de claves (correspondencia entre claves
primarias de las fuentes de datos y claves primarias del EDW).
● Tablas de procesamiento: su contenido generalmente es volátil y se utilizan como tablas de
trabajo que almacenan datos necesarios para los procesos de ETL. Son utilizadas también por los
procesos de aseguramiento de la calidad de los datos.
● Tablas de parametrización: contienen valores para los parámetros utilizados por los procesos
ETL, y sirven para dotar de mayor flexibilidad y facilidad de mantenimiento a las soluciones BI y
para establecer las condiciones de aseguramiento de la calidad de los datos.
● Tablas de auditoría: es un modelo de datos que permite codificar errores y eventos técnicos
y/o funcionales para registrar su ocurrencia y permitir una auditoría de la solución, que sirve además
como una plataforma para generar notificaciones a los usuarios. El log técnico se registra de manera
separada al log funcional mediante un servicio centralizado para todas las soluciones informáticas de
la organización, pero es recomendable que tengan un vínculo que permita un análisis integral del
Calidad de datos
Son las estructuras y procesos para asegurar la calidad de los datos. Con el objetivo de establecer las características de las soluciones de BI y poder estimar el esfuerzo que implica construirlas, las técnicas que se aplican para asegurar la calidad de datos se clasifican del siguiente modo:
● Correspondencia: Existen valores diferentes con igual significado en la misma fuente, y se usan tablas de correspondencia para establecer su equivalencia. Se asume que las correspondencias son definidas, informadas y mantenidas por el cliente y no se incluyen en el alcance del equipo de BI.
● Deduplicación: Existen valores duplicados en la misma fuente y debe seleccionarse el adecuado. Se asume que las reglas de selección son definidas, informadas y mantenidas por el cliente y no se incluyen en el alcance del equipo de BI.
● Normalizar valores (simple): Gestionar valores nulos de manera directa, convertir mayúsculas y minúsculas, etc.
● Normalizar valores (complejo): Gestionar valores nulos mediante correspondencias complejas o dependientes del contexto.
● Superposición de dominio: Existen valores diferentes con igual significado en diferentes fuentes, y se usan tablas de correspondencia para establecer su equivalencia. Se asume que las correspondencias son definidas, informadas y mantenidas por el cliente y no se incluyen en el alcance del equipo de BI.
● Dispersión histórica: Se deben resolver problemas de dispersión de dimensiones o hechos que fueron registrados en diferentes períodos de tiempo en diferentes fuentes.
Se recomiendan las siguientes prácticas para la integración de datos:
● Autonomía: Siempre que sea posible, dejar que las fuentes de datos se encarguen de la lógica de negocio.
● Auditabilidad. Cada registro de datos que se carga en el Staging Area debe incluir las fechas de carga y actualización, el usuario con el que se ejecutó el proceso y la fuente de datos de donde se obtuvo el registro.
● Integración y estandarización: Los elementos de datos de diferentes fuentes que tienen un significado idéntico de negocio deben integrarse en un único atributo.
● Las claves primarias de distintas fuentes deben ser integradas y estandarizadas. Cada registro de datos debe incluir la clave primaria de la fuente.
Almacén de datos
Es el centro para el consumo de información consolidada y de alta calidad.
Dimensiones: Son los datos maestros centralizados, estandarizados y consistentes que tienen sentido para el negocio.Por ejemplo clientes, productos, proveedores, etc.
Hechos: Son las transacciones centralizadas, estandarizadas y consistentes que tienen sentido para el negocio. Por ejemplo ventas, facturas, cotizaciones, etc.
Agregaciones: Son las consolidaciones de datos que tienen sentido para el negocio. Resultan de operaciones de agrupación de los datos de dimensiones y de suma, cuenta, promedio u otro cálculo sobre las métricas. Por ejemplo, si existe un hecho cuya granularidad es ventas por día por sucursal, una agregación podría sumarizar las ventas por mes por región, siendo que varias sucursales pertenecen a una misma región.
Áreas de análisis
Conjuntos de dimensiones y hechos que tienen sentido para analizar un aspecto particular del negocio. Pueden ser con objetivo operacional, que representan información a nivel de detalle operativo para hacer análisis sencillos (modelos descriptivos) o analítico que representan información consolidada de alto nivel para hacer análisis complejos (modelos analíticos, descriptivos predictivos). Los hechos más importantes identificados son: cotización, facturación, pagos, casos (PQR), usos de convenios, uso de bonos, afiliaciones, usos de turismo, usos de recreación o deportes o cultura, solicitudes, créditos, cartera, interacciones. cada uno de estos genera un modelo tipo datamart, que unidos generan una bodega general (DWH)
Las dimensiones identificadas más importantes son: clientes, tiempo, porductos, hoteles, tipo de bono, tipo de recaudo, productos y servicios (PYS), tipo de afiliación, tipo de medio de pago, tipo de actividades, escenarios, sedes, tipo de canal, etc.
A continuación se presenta un cuadro que cruza el listado de dimensiones (columnas) y con el listado de hechos (filas). Este cruce de información es conocido como el bus dimensional.
Consumo de información
Conjunto de facilidades y herramientas que permiten acceder a la información de manera óptima para cada contexto. Las herramientas de consumo de información reconocen las siguientes categorías:
● Planilla de cálculo: Aplicación de escritorio para gestionar datos organizados en forma tabular (filas y columnas).
● Software de reportes y consultas: Aplicaciones, generalmente con un componente servidor y un componente cliente, que permiten ingresar parámetros para consultar fuentes de datos en diversos formatos y presentar los resultados de las consultas en forma de listados y gráficos.
● Herramientas OLAP:Aplicaciones, generalmente con un componente servidor y un componente cliente, que permiten hacer consultas realizando combinaciones y operaciones complejas a través de múltiples dimensiones y sus jerarquías.
● Minería de datos: Aplicaciones que permiten analizar relaciones estadísticas y patrones no evidentes en grandes conjuntos de datos estructurado o no estructurados.
● Minería de procesos: Aplicaciones que permiten analizar relaciones estadísticas y patrones no evidentes a partir de eventos que permiten inferir procesos del negocio no formalizados.
● Tablero de control: Aplicación que crea una sumarización gráfica navegable de información en unas pocas páginas digitales (generalmente en tecnología Web).
● Ingeniería de decisiones: Aplicación que establecen un marco de trabajo que implementa las mejores prácticas de mercado para los procesos de toma de decisión, basados en activos de información que son resultado de una solución de BI.