• No se han encontrado resultados

CAPITULO III. MARCO TEÓRICO

3.11 Metodología de Kimball

Considerado el principal promotor del enfoque dimensional para el diseño de almacenes de datos. Los sistemas Data Warehouse, son una copia de los datos guardados en los sistemas transaccionales, pero luego de haber pasado por ciertos procesos que aseguren su calidad e integridad, son específicamente estructurados para consultas y análisis del negocio.

A continuación, daremos una introducción a la metodología de desarrollo de Kimball, el cual se centra en el llamado modelo de ciclo de vida organizacional, basado en el libro del mismo autor The Data Warehouse Toolkit.

Las cadenas de valor de las organizaciones identifican el flujo natural de sus procesos de negocios. Por ejemplo, la cadena de valor de un vendedor mayorista pueden ser sus ventas y son estas las que deben ser almacenadas. Una cadena de valor de una empresa de transporte de carga, puede ser registrar cada uno de sus viajes, destinos y carga. Los sistemas de origen transaccional generalmente producen operaciones o transacciones en cada paso de la cadena de valor. Debido a que cada proceso produce métricas únicas en intervalos de tiempo, cada proceso típicamente genera al menos una tabla de hechos atómicos (que son las operaciones detalladas a cierto nivel de profundidad).

La arquitectura bus de almacenamiento de datos de la empresa, proporciona un enfoque incremental para construir el sistema DWH (ver anexo 4). Esta arquitectura descompone el proceso de planificación en partes manejables al centrarse en los procesos de negocios, al tiempo que ofrece integración a través de dimensiones conformadas estandarizadas que se reutilizan en todos los procesos. Proporciona un marco arquitectónico, que descompone el programa para alentar implementaciones ágiles, manejables correspondientes a las filas en la matriz bus del almacén de datos de la empresa. La metodología, está basado en cuatro principios:

La solución debe estar centrada en el negocio, para esto debemos asegurarnos de entenderlo.

Construir una infraestructura de información adecuada, a los requerimientos.

Realizar entregas en incrementos significativos (plazos menores a 12 meses)

Ofrecer la solución completa (almacén de datos, herramientas de consulta, informes y análisis avanzado, capacitación, soporte, sitio web y documentación).

A continuación, indicaremos las etapas de la metodología:

Planificación del Proyecto. Se determina el propósito del proyecto, sus objetivos específicos y el alcance, los principales riesgos y una aproximación inicial a las necesidades de información. Los objetivos del proyecto se pueden desarrollar fácilmente tomando en consideración las necesidades de las áreas de negocio, que normalmente se hacen estas afirmaciones:

Recopilamos toneladas de datos, pero no podemos acceder a ellos.

Necesitamos dividir y cortar los datos en todas direcciones.

Necesito acceder a los datos fácilmente.

Definición de Requerimientos del Negocio. La definición de requerimientos, es un proceso de entrevistar al personal de negocio y técnico. Estas son algunas características que la solución de DWH debe cumplir:

Información accesible, comprensible y oportuna.

La información debe ser consistente y creíble. Estructura adaptable al cambio.

Debe ser una plataforma segura que proteja los activos de información.

Debe ser la base autorizada y confiable para mejorar la toma de decisiones.

Debe ser aceptado por las áreas comerciales para considerarlo exitoso.

Modelado Dimensional. Para desarrollar el diseño dimensional se debe considerar cuatro etapas:

Elegir el proceso de negocio, consiste en elegir el área a trabajar. Esta decisión es tomada por la dirección, y depende fundamentalmente del análisis de requerimientos.

Establecer el nivel de granularidad, es decir especificar el nivel de detalle. La elección de la granularidad depende de los requerimientos del negocio y lo que es posible a partir de los datos actuales. La sugerencia general es comenzar a diseñar el DW al mayor nivel de detalle posible, ya que se podrían realizar agrupamientos posteriores, al nivel deseado.

Elegir las dimensiones, las dimensiones surgen naturalmente de las reuniones del equipo, y facilitadas por la elección del nivel de granularidad y de la matriz de procesos.

Las dimensiones tienen un conjunto de atributos, que brindan una idea del tipo de análisis que se realizara sobre la tabla de hechos.

Identificar medidas y las tablas de hechos, son las medidas o indicadores que surgen de los procesos de negocios. Una medida es un atributo que se desea analizar, sumando o agrupando sus datos a razón de las dimensiones creadas. Estas medidas son analizadas de acuerdo a la granularidad y se encuentran en las tablas de hechos. Cada tabla de hechos tiene como atributos una o más medidas de un proceso, de acuerdo a los requerimientos. Un registro de esta tabla contiene una medida expresada en números, como cantidad, tiempo, dinero, etc., sobre la cual se desea realizar una operación de agregación (promedio, conteo, suma, etc.) en función de una o más dimensiones.

Para esta etapa, se deben realizar talleres colaborativos de modelado dimensional, en colaboración con expertos en la materia y representantes de la gestión de datos de la empresa. El modelado debe desplegarse a través de una serie de talleres altamente interactivos con representantes comerciales. Estos talleres brindan una oportunidad para desarrollar los requisitos solicitados. Los modelos dimensionales no deben diseñarse de manera aislada por personas que no entienden completamente el negocio y sus necesidades.

Los modelos dimensionales implementados en sistemas de administración de bases de datos relacionales se conocen como esquemas en estrella debido a su parecido con una estructura similar a una estrella. Los modelos dimensionales implementados en entornos de bases de datos multidimensionales se denominan cubos de procesamiento analítico en línea (OLAP), como se ilustra en el anexo 5.

Diseño Físico. En esta etapa, se revisa la plataforma sobre la cual, estará el DWH, normalmente para diseñarlo, ayuda responder estas preguntas:

¿Determinar la capacidad y escalabilidad del sistema de DWH?

¿Cuáles son los factores que llevarán a una configuración más grande y más compleja?

¿Cuánta memoria y servidores se necesitan? ¿Qué tipo de almacenamiento y procesadores?

¿Qué necesitan instalar los diferentes miembros del equipo de DWH en sus estaciones de trabajo?

¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos?

¿Debe usarse la partición en las tablas relacionales?

Diseño e Implementación del subsistema de Extracción, Transformación y Carga (ETL). Las acciones de Extracción, Transformación y Carga (ETL por sus siglas en inglés) son los procesos de entrada del Data Warehouse. Se busca que el diseño de esta etapa, tenga acciones de data cleaning, antes de procesar la información, cabe resaltar que las fuentes u orígenes de datos, pueden ser variados. Luego de los procesos de extracción, limpieza, procesamiento, se puede cargar la información al DWH en un formato acorde para la utilización con las herramientas de análisis.

Implementación. La implementación representa la convergencia de la tecnología, los datos y las aplicaciones de usuarios finales accesible desde el escritorio del usuario del negocio. Existen varios factores extras que aseguran el correcto funcionamiento de todas estas piezas, entre ellos se encuentran la capacitación, el soporte técnico, la comunicación y las estrategias de feedback del equipo.

Mantenimiento y Crecimiento del Data Warehouse. Para administrar el entorno del DWH, es importante enfocarse en los usuarios de negocio, los cuales son el motivo del mismo, además de gestionar adecuadamente las operaciones, medir y proyectar las operaciones y recibir el feedback de los usuarios. Finalmente, es importante definir las bases para la escalabilidad del DWH, la clave es manejar el crecimiento utilizando el Ciclo de Vida propuesto en orden prioritario de la organización.

Especificación de aplicaciones de BI. Se refiere a levantar las necesidades finales y a elegir la herramienta adecuada de presentación o explotación de datos, según sea las características y funcionalidades que el usuario final requiera.

Desarrollo de aplicaciones de BI. Las aplicaciones de inteligencia de negocios, son la cara visible del DWH, son la forma de acceso de los usuarios finales, a través de informes, dashboard y aplicaciones de análisis, que buscan entregar información útil a los usuarios. Se puede dividir estas aplicaciones en dos categorías basadas en el nivel de sofisticación, y les llama: Informes estándar, son informes simples, predefinidos, y con parámetros de consulta fijos. Aplicaciones analíticas, son más complejas, pueden

incluir algoritmos y modelos de minería de datos, que ayudan a identificar oportunidades.

Diseño de la Arquitectura Técnica. La arquitectura técnica cubre los procesos y herramientas que se aplican a los datos. En el área técnica existen dos conjuntos que tienen distintos requerimientos, brindan sus propios servicios y componentes de almacenaje de datos: El área de soporte es el responsable de la obtención y preparación de los datos, conocidos como adquisición de datos y el área de explotación de datos, es responsable de entregar los datos a los usuarios.

Selección de Productos e implementación. Es la implementación final de los procesos diseñados sobre la plataforma de base de datos definida, con las herramientas de gestión, explotación y análisis.

Documento similar