UNIVERSIDAD REGIONAL AUTÓNOMA DE LOS ANDES UNIANDES – SANTO DOMINGO
FACULTAD DE SISTEMAS MERCANTILES. CARRERA DE SISTEMAS
PROYECTO EXAMEN COMPLEXIVO PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN SISTEMAS E INFORMÁTICA
TEMA:
IMPLEMENTACIÓN DE UN DATAWAREHOUSE PARA LA TOMA DE DECISIONES EN EL ÁREA LOGÍSTICA DE LA COMPAÑÍA PRONACA.
AUTOR: LCD. JARAMILLO DELGADO FREDDY RENE ASESOR: ING. MARTINEZ CAMPAÑA CARLOS EDUARDO
APROBACIÓN DEL ASESOR DEL TRABAJO DE TITULACIÓN
CERTIFICACIÓN:
Quien suscribe, legalmente CERTIFICA QUE: El presente Trabajo de Titulación realizado por el señor Freddy Rene Jaramillo Delgado, estudiante de la Carrera de Sistemas, Facultad de Sistemas Mercantiles, con el tema “IMPLEMENTACIÓN DE UN DATAWAREHOUSE PARA LA TOMA DE DECISIONES EN EL ÁREA LOGÍSTICA DE LA COMPAÑÍA PRONACA”, ha sido prolijamente revisado, y cumple con todos los requisitos establecidos en la normativa pertinente de la Universidad Regional Autónoma de los Andes -UNIANDES-, por lo que apruebe su presentación.
Ambato, Septiembre de 2016
_______________________________ Ing. Martínez Campaña Carlos Eduardo. ASESOR
DECLARACIÓN DE AUTENTICIDAD
Yo, Freddy Rene Jaramillo Delgado, estudiante de la Carrera de Sistemas, Facultad de Sistemas Mercantiles, declaro que todos los resultados obtenidos en el presente trabajo de investigación, previo a la obtención del título de INGENIERO EN SISTEMAS E INFORMÁTICA, son absolutamente originales, auténticos y personales; a excepción de las citas, por lo que son de mi exclusiva responsabilidad.
Ambato, Septiembre de 2016
_______________________________ Lic. Jaramillo Delgado Freddy Rene CI. 171446660-2
DERECHOS DE AUTOR
Yo, Freddy Rene Jaramillo Delgado, declaro que conozco y acepto la disposición constante en el literal d) del Art. 85 del Estatuto de la Universidad Regional Autónoma de Los Andes, que en su parte pertinente textualmente dice: El Patrimonio de la UNIANDES, está constituido por: La propiedad intelectual sobre las Investigaciones, trabajos científicos o técnicos, proyectos profesionales y consultaría que se realicen en la Universidad o por cuenta de ella;
Ambato, Septiembre de 2016
_______________________________ Lic. Jaramillo Delgado Freddy René CI. 171446660-2
DEDICATORIA
El presente trabajo de investigación dedico a mi esposa Mayra Enriquez quien es mi apoyo incondicional para el logro de mis objetivos.
A mis dos hijos Jearly y Josué, que son la razón de mi vida el tesoro más grande que Dios me regaló y el motivo de mí existir.
A mis padres Mariana Delgado y Faustino Jaramillo que se sacrificaron en post de mi bienestar, guiaron mis pasos con mucho amor, me enseñaron a continuar luchando para vencer los obstáculos, sin perder la esperanza de conseguir las metas propuestas, a pesar de los tropiezos y dificultades que se han presentado en el difícil sendero de mi vida.
AGRADECIMIENTO
Primero y antes que nada, gracias a Dios, por estar junto a mí en cada paso, por fortalecer nuestros corazones e iluminar nuestras mentes y por haber puesto en el camino a aquellas personas que han sido soporte y compañía durante mis estudios.
A mi esposa Mayra Enriquez por ser mi motivación, apoyo incondicional en cada momento de mi vida, pilar fundamental para el logro de la culminación de este trabajo.
A la Universidad Regional Autónoma de Los Andes, "Uniandes", por acogerme en sus aulas y permitir que continúe con una mejor formación profesional.
A mi asesor de Tesis Ing. Carlos Martinez, por la infinita comprensión y colaboración en guiarme en la realización y fortalecimiento del presente trabajo investigativo.
ÍNDICE GENERAL
APROBACIÓN DEL ASESOR DEL TRABAJO DE TITULACIÓN. DECLARACIÓN DE AUTENTICIDAD.
DERECHO DE AUTOR. DEDICATORIA.
AGRADECIMIENTO. RESUMEN EJECUTIVO. ABSTRACT.
INTRODUCCIÓN. ... 1
Antecedentes de la investigación. ... 1
Planteamiento del problema. ... 2
Formulación del problema. ... 2
Identificación de la línea de investigación. ... 2
Justificación del tema. ... 2
Objetivos. ... 3
Objetivo General... 3
Objetivos Específicos. ... 3
1 CAPITULO I. MARCO TEÓRICO. ... 4
1.1 Origen y evolución del objeto de investigación. ... 4
1.2 Análisis de distintas posiciones teóricas sobre el objeto de investigación. ... 4
1.3 Valoración crítica de los conceptos principales de las distintas posiciones teóricas sobre el objeto de investigación. ... 5
1.3.1 Business Intelligence. ... 5
1.3.1.1 Introducción. ... 5
1.3.1.2 Definiciones. ... 5
1.3.1.3 Objetivo de las herramientas de inteligencia de negocios. ... 6
1.3.1.4 Características de la inteligencia de negocios. ... 6
1.3.2 Sistemas de información. ... 6
1.3.2.1 Sistemas de soporte a decisiones (DSS). ... 7
1.3.2.1.1 Función. ... 7
1.3.2.1.2 Características. ... 7
1.3.3 Datawarehouse... 8
1.3.3.2 Función. ... 9
1.3.3.3 Características. ... 9
1.3.3.4 Arquitectura de un datawarehouse. ... 10
1.3.3.5 Estructura. ... 11
1.3.3.6 Proceso de extracción, transformación y carga ETL. ... 12
1.3.3.7 Modelo dimensional de un datawarehouse. ... 14
1.3.3.7.1 Tablas de dimensiones. ... 15
1.3.3.7.2 Tablas de hechos. ... 16
1.3.3.7.3 Nivel. ... 17
1.3.3.7.4 Jerarquías. ... 18
1.3.3.7.5 Granularidad. ... 18
1.3.3.7.6 Relaciones. ... 18
1.3.3.7.7 Claves subrogadas. ... 19
1.3.3.8 Análisis OLAP. ... 19
1.3.4 Desarrollo de un datawarehouse basado en la metodología Ralph Kimball. 21 1.3.4.1 Planeación y administración del proyecto. ... 22
1.3.4.2 Definición de los requerimientos del negocio. ... 24
1.3.4.3 Diseño técnico de la arquitectura... 24
1.3.4.3.1 Back Room. ... 24
1.3.4.3.2 Front Room. ... 24
1.3.4.4 Selección e instalación del producto. ... 25
1.3.4.5 Modelamiento dimensional. ... 25
1.3.4.5.1 Paso 1 – Seleccionar el Proceso de Negocio. ... 26
1.3.4.5.2 Paso 2 – Declaración de granularidad. ... 26
1.3.4.5.3 Paso 3 – Identificación de Dimensiones. ... 26
1.3.4.5.4 Paso 4 – Identificación de Hechos. ... 26
1.3.4.5.5 Datawarehouse Bus Matrix. ... 26
1.3.4.6 Diseño físico. ... 27
1.3.4.7 Diseño y desarrollo del proceso ETL. ... 27
1.3.4.7.1 Paso 1 – Trazar un plan de alto nivel... 28
1.3.4.7.2 Paso 2 – Seleccionar la herramienta ETL. ... 28
1.3.4.7.3 Paso 3 – Desarrollar estrategias por defecto. ... 28
1.3.4.7.5 Paso 5 – Poblar las tablas de dimensiones con los datos históricos. ... 28
1.3.4.7.6 Paso 6 – Realizar la carga histórica de la tabla de hechos. ... 28
1.3.4.7.7 Paso 7 – Procesamiento incremental de la dimensiones. ... 29
1.3.4.7.8 Paso 8 – Procesamiento incremental de los hechos. ... 29
1.3.4.7.9 Paso 9 – Operación y automatización del sistema ETL. ... 29
1.3.5 Herramientas para el desarrollo del datawarehouse. ... 29
1.3.5.1 Motor de base de datos. ... 29
1.3.5.2 Herramienta ETL. ... 30
1.3.5.3 Microsoft Integration Services. ... 30
1.3.5.4 Microsoft Analysis Services. ... 31
1.3.5.5 Herramienta de presentación. ... 31
1.4 Conclusiones parciales. ... 32
2 CAPITULO II MARCO METODOLÓGICO. ... 33
2.1 Caracterización del sector, rama, empresa, contexto institucional o problema seleccionado para la investigación. ... 33
2.2 Descripción del procedimiento metodológico para el desarrollo de investigación. 33 2.2.1 Modalidad de la Investigación. ... 33
2.2.2 Tipos de investigación. ... 33
2.2.3 Técnicas ... 34
2.2.4 Población. ... 35
2.3 Conclusiones parciales. ... 44
3 CAPITULO III MARCO PROPOSITIVO. ... 45
3.1 Planeación y administración del proyecto. ... 45
3.1.1 Definición del proyecto. ... 45
3.1.2 Alcance y justificación del proyecto. ... 45
3.2 Definición de los requerimientos del negocio ... 46
3.3 Diseño técnico de la arquitectura... 48
3.3.1 Back room ... 48
3.3.2 Front room ... 49
3.4 Selección del producto... 49
3.5 Identificar las dimensiones y mapear los datos. ... 50
3.5.1 Modelo dimensional ... 50
3.5.1.2 Dimensión cliente. ... 52
3.5.1.3 Dimensión proveedor. ... 53
3.5.1.4 Dimensión Tipo Movimiento. ... 54
3.5.1.5 Dimensión red de distribución. ... 55
3.5.1.6 Dimensión Compañía. ... 56
3.5.1.7 Dimensión Vehículos. ... 57
3.5.1.8 Dimensión Tiempo. ... 58
3.5.2 Identificar los hechos ... 58
3.5.2.1 Identificar las medidas. ... 58
3.5.2.2 Abastecimiento y distribución de producto terminado ... 59
3.5.2.3 Abastecimiento de materia prima ... 62
3.5.2.4 Nivel de servicio OTIF. ... 65
3.5.3 Datawarehouse busmatrix... 67
3.6 Diseño físico. ... 67
3.6.1 Base de datos origen ... 67
3.7 Diseño y desarrollo del proceso ETL. ... 68
3.7.1 Paso 1: Trazar un plan de alto nivel. ... 68
3.7.2 Paso 2: Funcionalidad de la herramienta ETL... 68
3.7.3 Paso 3: Desarrollar estrategias por defecto... 68
3.7.3.1 Proyecto SSIS en Integration Services. ... 71
3.7.4 Paso 4: Poblar las tablas de dimensión con los datos. ... 71
3.7.4.1 Extracción de Datos. ... 72
3.7.4.2 Transformación de Datos... 72
3.7.4.3 Carga de datos. ... 72
3.7.5 Paso 5: Poblar las tablas de hecho con datos. ... 72
3.8 Implementación de cubo. ... 73
3.9 Visualización de datos. ... 73
3.9.1 Tablero de control distribución de PT. ... 74
3.9.2 Tablero de control abastecimiento de materia prima... 75
3.9.3 Nivel de servicio OTIF ... 75
CONCLUSIONES. ... 76
RECOMENDACIONES. ... 77 BIBLIOGRAFÍA.
ÍNDICE DE GRÁFICOS
Figura 1-1: Pirámide Sistemas de Información ... 7
Figura 1-2: Arquitectura de un datawarehouse ... 10
Figura 1-3: Estructura de los datos de un datawarehouse ... 11
Figura 1-4: Proceso ETL ... 13
Figura 1-5: Esquema Estrella ... 15
Figura 1-6: Esquema copo de nieve ... 15
Figura 1-7: Tablas de Dimensiones ... 16
Figura 1-8: Tabla de Hecho ... 17
Figura 1-9: Niveles en la Dimensión ... 17
Figura 1-10: Jerarquía en la Dimensión. ... 18
Figura 1-11: Relaciones en un Modelo ... 18
Figura 1-12: OLAP (On-Line Analytical Processing) ... 19
Figura 1-13: Cubo OLAP ... 20
Figura 1-14: Operación OLAP - Drill Down ... 21
Figura 1-15: Operación OLAP - Roll Up ... 21
Figura 1-16: The Kimball Lyfecycle Diagramt ... 21
Figura 1-17: Datawarehouse Bus Matrix... 27
Figura 1-18: Arquitectura Integration Services ... 31
Figura 1-19: Visualización datos de cubos en hoja de Excel ... 32
Figura 2-1: Ilustración datos tabulados pregunta 1. ... 36
Figura 2-2: Ilustración datos tabulados pregunta 2. ... 37
Figura 2-3: Ilustración datos tabulados pregunta 3. ... 38
Figura 2-4: Ilustración datos tabulados pregunta 4. ... 39
Figura 2-5: Ilustración datos tabulados pregunta 5. ... 40
Figura 2-6: Ilustración datos tabulados pregunta 6. ... 41
Figura 2-7: Ilustración datos tabulados pregunta 7. ... 42
Figura 2-8: Ilustración datos tabulados pregunta 8. ... 43
Figura 3-1: Back Room – Proyecto ... 48
Figura 3-2: Front Room – Proyecto ... 49
Figura 3-3: Diseño físico tabla de hecho abastecimiento y distribución de PT. ... 61
Figura 3-4: Diseño físico tabla de hecho gestión logística MP ... 64
Figura 3-6: Estructura diagramas de base de datos temporal. ... 69
Figura 3-7: Diagrama gestiónlog_PT ... 70
Figura 3-8: Diagrama GestionLog_MP ... 70
Figura 3-9: Diagrama NivelServicio. ... 71
Figura 3-10: Esquema paquetes SSIS ... 71
Figura 3-11: Carga datos hacia el cubo. ... 72
Figura 3-12: Cubo OLAP en Analysis Services ... 73
Figura 3-13: Menú visualización de datos del cubo OLAP... 74
Figura 3-14: TC – Distribución de producto terminado. ... 74
Figura 3-15: TC TM abastecidas de MP. ... 75
ÍNDICE DE TABLAS
Tabla 2-1: La entrevista ... 34
Tabla 2-2: Datos tabulados pregunta1. ... 36
Tabla 2-3: Datos tabulados pregunta 2. ... 37
Tabla 2-4: Datos tabulados pregunta 3. ... 38
Tabla 2-5: Datos tabulados pregunta 4. ... 39
Tabla 2-6: Datos tabulados pregunta 5. ... 40
Tabla 2-7: Datos tabulados pregunta 6. ... 41
Tabla 2-8: Datos tabulados pregunta 7. ... 42
Tabla 2-9: Datos tabulados pregunta 8. ... 43
Tabla 3-1: Mapeo de datos Dimensión Artículo ... 51
Tabla 3-2: Mapeo de datos Dimensión Cliente ... 52
Tabla 3-3: Mapeo de datos Dimensión proveedor... 53
Tabla 3-4: Mapeo de datos Dimensión Tipomovimiento ... 54
Tabla 3-5: Mapeo de datos Dimensión redtransporte ... 55
Tabla 3-6: Mapeo de datos Dimensión compañiatrans ... 56
Tabla 3-7: Mapeo de datos Dimensión vehículo ... 57
Tabla 3-8: Mapeo de datos Dimensión Tiempo ... 58
Tabla 3-9: Medidas tabla de hecho gestión logística ... 58
Tabla 3-10 : Medidas tabla de hecho Nivel de Servicio ... 59
Tabla 3-11: Mapeo de datos tabla de hecho gestionlog_PT ... 60
Tabla 3-12: Mapeo de datos tabla de hecho gestionlog MP. ... 63
Tabla 3-13: Mapeo de datos tabla de hecho nivelservicio... 65
ANEXOS.
ANEXO 1- Modelo de la encuesta dirigido a los colaboradores del departamento de logística.
ANEXO 2- Manual de implementación de un proyecto SSIS en Integration Services proceso ETL.
ANEXO 3- Carga de datos ejecutando el proceso ETL.
ANEXO 4- Diagrama de flujo del funcionamiento del ETL por cada dimensión y tablas de hecho.
ANEXO 5- Diseño e implementación de un cubo.
RESUMEN EJECUTIVO
Se ha evidenciado en los últimos años el crecimiento de información en el negocio pecuario gestionado por el departamento de logística de la compañía PRONACA, lo cual constituye un valioso recurso, se ha convertido en un problema al momento de manejar la información, es aquí donde nace la necesidad del departamento logístico al no contar con una herramienta informática que permita realizar análisis de datos.
El presente proyecto se ejecutó por la importancia de tener una aplicación datawarehouse para gestionar toda la información que maneja el departamento de logística, con el fin de superar estas debilidades, para ser más competitivos, eficientes y mejorar la toma de decisiones.
Para el desarrollo de esta investigación se aplicó el método inductivo que parte de procesos logísticos en abastecimiento de materias primas y distribución de producto terminado y de la funcionalidad de cada proceso, el método deductivo que parte del conocimiento básico de inteligencia de negocios, investigando las diferentes ramas que van dirigidas a la implementación de este tipo de soluciones. Para el desarrollo de este tipo de proyecto de datawarehouse se estableció usar la propuesta de Ralph Kimball, porque garantiza funcionalidad, escalabilidad, permitiendo obtener un producto final de calidad.
El presente estudio está enmarcado en la línea de investigación de “Tecnologías de información y comunicaciones”
ABSTRACT
It has been demonstrated in the last few years the growth of information in the livestock business managed by the logistics department of the company PRONACA, which constitutes a valuable resource, has become a problem at the time to handle the information, it is here where is born the need of the logistics department by not having a computer tool that permits to perform data analysis.
This project was implemented by the importance of having an application datawarehouse to manage all the information that handles the logistics department, with the aim of overcoming these weaknesses, to be more competitive, efficient and improve decision-making.
For the development of this research was applied the inductive method that parts of the logistics processes in terms of the supply of raw materials and distribution of finished product and the functionality of each process, the deductive method that parts of the basic knowledge of business intelligence, investigating the different branches that are directed to the implementation of this type of solutions. For the development of this type of project of datawarehouse was established using the proposal of Ralph Kimball, because it ensures functionality, scalability, allowing to obtain a high quality final product.
The present study is framed in the research line of "information technologies and communications"
1
TEMA: IMPLEMENTACIÓN DE UN DATAWAREHOUSE PARA LA TOMA DE DECISIONES EN EL ÁREA LOGÍSTICA DE LA COMPAÑÍA PRONACA.
INTRODUCCIÓN.
Antecedentes de la investigación.
En la actualidad, la manera cómo se gestiona la información en el mundo es cada vez más importante y genera ventajas competitivas, es por esta razón que se han venido desarrollando un conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos como son el estudio del datawarehouse como apoyo soporte a la toma de decisiones de manera que pueda responder a las necesidades en el ámbito gerencial y a las nuevas tecnologías de información y comunicación, de ahí que se ha investigado la herramienta tecnológica datawarehouse basada en Business Intelligence (BI).
En la actualidad, el dinámico mundo de los negocios plantea la necesidad de disponer de un acceso rápido y sencillo a la información para la toma de decisiones, pudiéndose evidenciar el interés de los sectores empresariales tanto privados como públicos con relación a los beneficios de los (DSS), los cuales han sido implementados por empresas importantes del mundo en áreas como finanzas, contabilidad, venta – marketing, manufactura, gestión logística, entre otros.
En el Ecuador el uso de los sistemas de soporte a la toma de decisiones, se encuentra en pleno desarrollo, de acuerdo a lo que se ha podido evidenciar en la página oficial del (BCE, 2015) quienes cuentan con un sistema de información para la toma de decisiones financieras y económicas, de igual forma en el sitio web del (INEC, 2015) cuenta con un sistema estadístico como un auxiliar fundamental para la toma de decisiones de política pública, también se ha podido evidenciar que las grandes empresas sobre todo las trasnacionales instaladas en el país son las que están empleando esta tecnología para la gestión de sus procesos de negocio, además, existen varias consultoras que ofrecen esta herramienta para pequeñas y medianas empresas, ofertando como beneficios la eficiencia y eficacia en la toma de las decisiones.
2
Planteamiento del problema.
La empresa PRONACA área de logística regional Santo Domingo actualmente no cuenta con el suficiente flujo de información para las gerencias del departamento de logística. Entendiendo que la información no se encuentra estructurada y procesada. Los datos están almacenados en diferentes bases de datos (ERP, Excel, sistema de gestión pesaje (Aries)), y para poder llevar a cabo la obtención de reportes necesitamos demasiado tiempo. Los gerentes requieren tener el acceso a la información de una manera más personalizada y rápida, debido a que en algunas ocasiones se ha perdido tiempo en tomar acciones en eventualidades por la falta inmediata de información estructurada, de forma que se pueda analizar y tener un soporte en la toma de decisiones. Uno de los problemas principales se da cuanto a la generación de reportes, estos son realizados de una forma manual, lo que requiere tiempo para el área de sistemas en la generación de los mismos además causando un gran tráfico en la base de datos de producción. Reflejándose en el tiempo de espera de cada consulta realizada a la base de datos.
Formulación del problema.
Deficiente gestión de la información para la toma de decisiones en el área logística de la compañía PRONACA.
Identificación de la línea de investigación.
El presente trabajo investigativo se enmarca en la línea denominada: Tecnologías de información y comunicaciones.
Justificación del tema.
En base a mis conocimientos adquiridos sobre esta investigación en la implementación de un datawarehouse, he podido ver la importancia de tener información tratada en un negocio para la toma de decisiones. Dentro de la gestión logística se aumentará la capacidad de generar y recoger datos, los cuales serán identificados, categorizados y resumidos para aportar con información analítica, la misma que podrá ser utilizada eficiente y oportunamente; esto apoyará la toma de decisiones permitiendo incrementar la credibilidad institucional.
3
almacenar más y más datos, mayor es la incapacidad para extraer información realmente útil de éstos en las empresas. Mucha información importante, quedaba sepultada y disgregada, y los sistemas existentes no estaban preparados para el nuevo reto.
Por ello se plantea una solución basada en tecnologías de información mediante la implementación de un almacén de datos (datawarehouse), para obtener un producto que permita generar información tratada y útil, la cual apoyará el análisis del negocio (procesos) que se requieran, como son: Gestión logística pecuaria en abastecimiento de materia prima, distribución de producto terminado a diferentes tipos de clientes, lo que permitirá dar soporte a los directivos del negocio en la toma de decisiones.
En el campo de la investigación podemos decir que este tema constituye un aporte científico del investigador, ya que es original por no existir un tema igual.
Objetivos.
Objetivo General.
Implementar un datawarehouse para mejorar la toma de decisiones en el área de logística de la compañía PRONACA.
Objetivos Específicos.
Realizar el análisis y levantamiento de los requerimientos para la construcción de un datawarehouse.
Estudio bibliográfico de herramientas para construir un datawarehouse, y la gestión de la información.
4
1 CAPITULO I. MARCO TEÓRICO.
1.1 Origen y evolución del objeto de investigación.
Dentro del marco histórico que presenta la gestión logística en las empresas al nivel mundial, los procesos de abastecimiento de materias primas y distribución de producto terminado, se originaron por las necesidades de abastecerse de materia prima para cumplir sus demandas en su producción y colocar sus productos en el lugar y tiempo adecuado, con el pasar del tiempo estas necesidades fueron creciendo ya que la demanda de los diferentes productos iban en aumento, esto ocasiono mayores flujos por lo que se requería de mayor recursos como el talento humano, el transporte y la información, uno de ellos y el más importante para la administración logística son los datos, grandes cantidades de datos que deben ser tratados para lograr una buena toma de decisiones en la administración de sus recursos.
1.2 Análisis de distintas posiciones teóricas sobre el objeto de investigación.
Según (Casanovas & Cuatrecasas, 2003). La gestión logística se debe encargar de “coordinar y gestionar, como un sistema único, los flujos de información y de materiales de un extremo al otro del canal, a fin de obtener con un coste mínimo el mejor nivel de servicio al cliente, al mismo tiempo que reducir la inactividad asociada al conducto”, generando para la empresa un valor agregado que contribuya al buen funcionamiento de todos sus procesos.
En el sitio web de la revista É Logística (Tesler, 2010) cita que “Las soluciones de Business Intelligence ofrecen diferentes maneras para ver, analizar y presentar métricas corporativas, como Key Performance Indicators (KPI) con el uso de tableros de control, análisis interactivo, informes estándar o al publicar información al momento que sea necesario, usando el medio necesario dentro de una infraestructura integrada para mejorar el desempeño corporativo al tomar mejores decisiones.”
En el sitio web de la revista (Logistec, 2014) cita que “En la actualidad, la inteligencia de negocios o Business Intelligence puede aportar muchísimo más valor a la logística que en el pasado. Esto se debe a que la cadena de valor del negocio logístico hoy en día puede recoger los datos en tiempo real y disponer de estos en cualquier momento gracias a las tecnologías de las telecomunicaciones.”
5
abastecimiento de materias primas y distribución de producto terminado, permite mejorar significativamente la toma de decisiones.
1.3 Valoración crítica de los conceptos principales de las distintas posiciones teóricas sobre el objeto de investigación.
1.3.1 Business Intelligence. 1.3.1.1 Introducción.
Hoy en día en las empresas y organizaciones, la gestión de información es un elemento clave para poder competir de mejor manera en un mercado muy cambiante, y de una sociedad de negocio. La información que se maneja es de vital importancia, porque en ella se fundamenta la toma de decisiones, sirviendo de pilar para el crecimiento y gestión, como también de guía en la consecución de los objetivos que persiguen las empresas. Además cada vez es más importante saber qué es lo que sucede con los negocios que en ellas se gestiona, y de cómo mejorarlas. Por otro lado existen organizaciones las cuales poseen un sin número de datos, pero que a su vez no cuentan con información, esto se debe por el gran problema de que no saben qué hacer ni cómo utilizar esos datos en beneficio propio, y como resultado, hoy en día gran parte del sector empresarial no sabe que cuentan con información valiosa capaz de ser utilizada para mejorar la competitividad del negocio.
Aquí es donde nace el concepto de Business Intelligence o Inteligencia de Negocios, como solución para el soporte de toma de decisiones, mediante la generación y análisis de información, y con la que se busca el conocimiento organizacional. (Rojas & Duque, 2010)
1.3.1.2 Definiciones.
Para definir inteligencia de negocios partiremos de la definición de Gartner editada en el libro del autor: (Cano, 2007): “BI es un proceso interactivo para explorar y analizar información estructurada sobre un área (normalmente almacenada en un datawarehouse), para descubrir tendencias o patrones, a partir de los cuales derivar ideas y extraer conclusiones. El proceso de inteligencia de negocios incluye la comunicación de los descubrimientos y efectuar los cambios”.
6
tecnologías para convertir datos en información, información en conocimiento y planes para conducir de forma eficaz las actividades de los negocios.”
Cavalcanti define como: “Un concepto actualizado que va más allá de la gestión empresarial. Consiste en la utilización de productos y soluciones con tecnologías analíticas avanzadas para transformar los datos en información que ayuda a los distintos niveles de la organización en la toma de decisiones y otras contribuciones, casi todas en análisis de estrategias.” (Puerta Gálvez, 2015)
1.3.1.3 Objetivo de las herramientas de inteligencia de negocios.
El objetivo principal de la inteligencia de negocios es mejorar la toma de decisiones del negocio a través del uso de herramientas tecnologías que permitan reunir, almacenar, analizar, y proporcionar acceso a los datos de gestión de la empresa.
1.3.1.4 Características de la inteligencia de negocios.
Tienen en común las siguientes características:
Accesibilidad a la información.- Los datos son la fuente principal de este concepto y lo primero que debe garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de estos.
Apoyo en la toma de decisiones.- Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen. Orientación al usuario final.- Se busca independencia entre los conocimientos
técnicos de los usuarios y su capacidad para utilizar estas herramientas. (Espinosa, DATAPRIX, 2010)
1.3.2 Sistemas de información.
Las empresas son cada vez más conscientes de la importancia de disponer de más y mejor información, actualizada, estructurada, fácilmente accesible y adaptada a sus necesidades concretas, como un soporte en la toma de decisiones.
7
necesarios para desempeñar las funciones de negocio de la empresa de acuerdo con su estrategia”. (Lapiedra Almaí, Devece Carañana , & Guiral Herrando, 2011)
Figura 1-1: Pirámide Sistemas de Información Fuente: (Ferrer Mos, 2015)
1.3.2.1 Sistemas de soporte a decisiones (DSS).
Un sistema de información basado en un computador interactivo, flexible y adaptable, especialmente desarrollado para apoyar la solución de un problema de gestión no estructurado para mejorar la toma de decisiones. Utiliza datos, proporciona una interfaz amigable y permite la toma de decisiones en el propio análisis de la situación. (Turban, 1995)
1.3.2.1.1 Función.
La función principal del Sistema de Soporte de Decisiones es la de apoyar a la toma de decisiones mediante el análisis de las variables de un negocio con la generación y evaluación de diferentes alternativas de decisión, todo esto utilizando modelos y herramientas computacionales.
1.3.2.1.2 Características.
El sistema de soporte de decisiones es una de las herramientas más emblemáticas de la inteligencia de negocios, estas son algunas de sus características principales:
8
No requiere conocimientos técnicos, un usuario no técnico puede crear nuevos gráficos e informes y navegar entre ellos, solo con “arrastrar y soltar” y examinar la información disponible o crear nuevas métricas.
Rapidez en el tiempo de respuesta, ya que la base de datos suele ser un datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve. Este tipo de bases de datos están optimizadas para el análisis de grandes volúmenes de información.
Integración entre todos los sistemas, el proceso de ETL previo a la implantación de un sistema de soporte a la decisión garantiza la calidad y la integración de los datos entre las diferentes unidades de la empresa.
Cada usuario dispone de información adecuada a su perfil, no se trata de que todo el mundo tenga acceso a toda la información, sino de que tenga acceso a la información que necesita para que su trabajo sea lo más eficiente posible.
Disponibilidad de información histórica, en estos sistemas está a la orden del día comparar los datos actuales con información de otros períodos históricos de la compañía, con el fin de analizar tendencias, fijar la evolución de parámetros de negocio, entre otros.
1.3.3 Datawarehouse. 1.3.3.1 Definiciones.
En la actualidad existen muchas definiciones para el datawarehouse, las más conocidas e importantes que fueron citadas por (Días & Cnesa, 2010) son: Bill Inmon y Ralph Kimball.
Inmon (considerado por muchos el padre del concepto) dice: “Un Data Warehouse es un conjunto de datos orientados por temas, integrados, variantes en el tiempo y no volayiles, que tienen por objetivo dar soporte a la toma de decisiones”.
9
1.3.3.2 Función.
La principal función de un datawarehouse es almacenar datos para convertirlos en información útil para las empresas, esta información debe estar disponible para las gerencias en el momento que requieran y con un formato adecuado sin afectar las operaciones de los sistemas operacionales.
1.3.3.3 Características.
Según definió Bill Inmon, el datawarehouse se caracteriza por ser:
Integrado.- Los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temático.- Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del Datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar. Histórico.- El tiempo es parte implícita de la información contenida en un
Datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el Datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
10
1.3.3.4 Arquitectura de un datawarehouse.
Para comprender el concepto de datawarehouse, es importante considerar los procesos que lo conforman. A continuación se describen dichos procesos clave en la gestión de un datawarehouse: (Fernandez, 2009)
Figura 1-2: Arquitectura de un datawarehouse Fuente: (Duque Galvez, 2010)
Sistemas origen.- En cuanto a los sistemas origen, son en donde se encuentra los datos de interés y que serán objeto de extracción, estos orígenes pueden ser desde múltiples lugares como por ejemplo las bases de datos, así como también hojas de cálculo, archivos planos, Sistemas ERP (Enterprise Resource Planning), entre otros que serán los que proveerán los datos de interés.
Staging Area (Area Temporal).- Es un área en la que se almacenará de manera temporal todos los datos que son extraídos de los sistemas origen según las necesidades planteadas del negocio. La función primordial es minimizar la afectación a los sistemas origen, porque cuando se realiza la carga al Datawarehouse, los orígenes de datos no intervendrán hasta que se realice una próxima carga.
11
y ni siquiera es algo específico del Business Intelligence, los ODS ya existían antes de que empezáramos a hablar de BI y de DWH.
Datawarehouse.- Los datos a ser cargados en el almacén provendrán del Staging Area así como también puede ser desde el ODS. Aquí los modelos de datos no serán tan normalizados como lo es en los sistemas origen y en el ODS, aquí sucede lo contrario y se realizan técnicas de des normalización.
Data marts.- Es un subconjunto de los datos del datawarehouse cuyo objetivo es responder a un determinado análisis, función o necesidad, con una población de usuarios específica. Al que en un datawarehouse, los datos están estructurados en modelos de estrella o copo de nieve y un data mart puede ser dependiente o independiente de un datawrehouse. Por ejemplo, un posible uso seria para la minería de datos o para la información de marketing. El data mart está pensado para cubrir las necesidades de un grupo de trabajo o de un determinado departamento dentro de la organización. (Días & Cnesa, 2010)
1.3.3.5 Estructura.
Los datawarehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan, en la siguiente figura se puede apreciar mejor su estructura. (INEI, 1997)
Figura 1-3: Estructura de los datos de un datawarehouse Fuente: (Bernabeu, 2010)
12
cuales son de gran interés, es voluminoso, ya que se almacena al más bajo nivel de granularidad, casi siempre se almacena en disco el cual es de fácil acceso, aunque su administración sea costosa y compleja.
Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.
Datos ligeramente resumidos.- Son aquellos que proviene desde un bajo nivel de detalle y sumarizan o agrupan los datos bajo algún criterio o condición de analisis. Este nivel del datawarehouse casi siempre se almacena en disco.
Datos completamente resumidos.- Estos datos son compactos y fácilmente accesibles, a veces se encuentra en el ambiente de dfatawarehouse y en otros, fuera del límite de la tecnología que ampara al datawarehouse. (De todos modos, los datos completamente resumidos son parte del datawarehouse sin considerar donde se alojan los datos físicamente.)
Metadata.- El componente final del datawarehouse es el de la metadata. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del datawarehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional. La metadata juega un rol especial y muy importante en el datawarehouse y es usada como: Un directorio para ayudar al analista a ubicar los contenidos del datawarehouse, y es una guía para el mapping de datos de cómo se transforma, del ambiente operacional al de datawarehouse. Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc. (INEI, 1997)
1.3.3.6 Proceso de extracción, transformación y carga ETL.
13
estuvieran en el mismo formato o lenguaje de destino no será necesario hacer la transformación. (Puerta Gálvez, 2015)
Existe un conjunto básico de procesos de suma importancia detrás de una arquitectura de datawarehouse, que garantizan la calidad de datos que en ella se almacenarán. Este proceso de Extracción, Transformación y Carga, también conocido como ETL o proceso de integración de datos, cumple con la función principal de organizar e integrar el flujo de datos desde múltiples fuentes, hacia un destino que es el almacén de datos (Datawarehouse). El proceso ETL brinda soporte a la gestión de datos que se va a realizar, obteniendo calidad de los mismos dentro de un almacén como se puede apreciar en la figura 1-4. (Duque Galvez, 2010)
Figura 1-4: Proceso ETL Fuente: (Duque Galvez, 2010)
Este proceso general se encuentra subdividido en tres subprocesos fundamentales como se detalla a continuación:
14
Transformación.- Es el subproceso más laborioso con respecto a los otros dos, debido a que en esta etapa se realiza el refinamiento de los datos que han sido extraídos de las diferentes fuentes, por lo que aquí se especificará pasos de acuerdo a los datos que van a ser tratados dando valor para los usuarios. Este proceso incluye corrección de errores, decodificación, borrado de campos que no son de interés, generación de claves, agregación de información, etc., lo que es más conocido como limpieza de los datos fuentes. (Duque Galvez, 2010)
Carga.- El último subproceso se caracteriza por realizar la carga hacia el datawarehouse, los datos que previamente han sido extraídos y tratados en los dos subprocesos anteriores para contar con datos de calidad, ahora se procederá a realizar la carga de los mismos a un nuevo ambiente que es el de almacén de datos, para ello es importante implementar métodos y/o maneras de carga de datos con el fin de controlar por ejemplo datos actualizados o históricos. (Rojas & Duque, 2010)
1.3.3.7 Modelo dimensional de un datawarehouse.
Un datawarehouse adopta un modelo dimensional en su estructura de almacenamiento, caracterizado por ser un esquema en estrella o copo de nieve, lo que permite maximizar el rendimiento de las consultas, a continuación una definición de modelo dimensional: “El modelado dimensional es una forma de acercar los datos a la manera en que estos serán convertidos en información útil para los usuarios del negocio. La aplicación del modelo dimensional tiene lugar en la fase de diseño lógico, lo que permite la traducción del esquema resultante del diseño conceptual al plano lógico.” (Leon, 2014)
Esquema estrella.
15
Figura 1-5: Esquema Estrella Fuente: (Duque Galvez, 2010)
Esquema copo de nieve.
Es un esquema de representación derivado del esquema en estrella, en el que las tablas de dimensión se normalizan en múltiples tablas. Por esta razón, la tabla de hecho deja de ser la única tabla del esquema que se relaciona con otras tablas y aparecen nuevas uniones. (Días & Cnesa, 2010)
Figura 1-6: Esquema copo de nieve Fuente: (Duque Galvez, 2010)
1.3.3.7.1 Tablas de dimensiones.
16
y manipular la información almacenada en la tabla de hechos. En la siguiente figura se puede apreciar un ejemplo.
Figura 1-7: Tablas de Dimensiones Fuente: (Duque Galvez, 2010)
Cada tabla posee un identificador único y al menos un campo o dato de referencia que describe los criterios de análisis relevantes para la empresa, los datos dentro de estas tablas, que proveen información del negocio o que describen alguna de sus características, son llamados datos de referencia. Cada tabla de dimensión podrá contener los siguientes campos:
Clave principal o identificador único. Clave foráneas.
Datos de referencia primarios que identifican la dimensión. Ej: nombre del cliente. Datos de referencia secundarios: datos que complementan la descripción de la
dimensión. Por ejemplo: e-mail del cliente, fax del cliente, etc. (Bernabeu, 2010)
1.3.3.7.2 Tablas de hechos.
17
relacionadas a este. En la siguiente figura se puede apreciar lo anterior misionado. (Bernabeu, 2010)
Figura 1-8: Tabla de Hecho Fuente: (Duque Galvez, 2010)
1.3.3.7.3 Nivel.
En las dimensiones se pueden especificar características (atributos) en particular de acuerdo a cada dimensión. Estos atributos necesitan ser ordenados o agrupados de acuerdo a un fin en específico como por ejemplo se puede observar en la Figura 1-9, en la cual dos dimensiones se encuentran agrupadas de cierta manera, a estas agrupaciones son llamadas niveles.
Figura 1-9: Niveles en la Dimensión Fuente: (Duque Galvez, 2010)
18
1.3.3.7.4 Jerarquías.
Las jerarquías son estructuras lógicas usadas para categorizar los datos, de acuerdo a los niveles definidos, la jerarquía también ayuda a definir la navegación por la información que va a tener la dimensión en un orden (de los niveles) definido. (Duque Galvez, 2010)
Figura 1-10: Jerarquía en la Dimensión. Fuente: (Duque Galvez, 2010)
1.3.3.7.5 Granularidad.
La granularidad es el nivel de detalle en que se almacena la información. Por ejemplo: Las ventas pueden expresarse por día y los objetivos por mes. El atributo de granularidad de la relación normal permite gestionar este caso sin problema. En todos los casos, y de forma especial en el caso de una dimensión realizadora de funciones, usted define en la relación la columna o columnas del grupo de medidas ligadas al atributo de granularidad. (Gauchet, 2011)
1.3.3.7.6 Relaciones.
Las relaciones mantienen la integridad de la información del negocio, referenciando datos entre diferentes tablas, en este caso, relacionando las dimensiones con los hechos, como por ejemplo la relación Producto – Ventas, Almacén – Pedidos, etc.
19
1.3.3.7.7 Claves subrogadas.
Una clave subrogada es un identificador único que se asigna a cada registro de una tabla de dimensión. Esta clave, generalmente, no tiene ningún sentido específico de negocio. Son siempre de tipo numérico. Preferiblemente, un entero autoincremental. (Urquizu, 2009)
1.3.3.8 Análisis OLAP.
El procesamiento analítico en línea permite obtener acceso a datos organizados y agregados de orígenes de datos empresariales, organiza subconjuntos de datos con una estructura multidimensional de manera que represente un significado especial o responda a una pregunta en particular (Gomez, 2010). OLAP (On-Line Analytical Processing) o Procesamiento Analítico en línea, surge como contraste a OLTP (On-Line Transactional Processing) que define a los sistemas de ambientes transaccionales.
El análisis multidimensional (Análisis OLAP), parte de una visión de la información como dimensiones de negocio, en la que hay que tomar en cuenta que se debe de olvidar lo que son las tablas y campos, dando mayor énfasis a lo que son las dimensiones y medidas.
Figura 1-12: OLAP (On-Line Analytical Processing) Fuente: (Duque Galvez, 2010)
Las herramientas OLAP se caracterizan por subdividirse en tres tipos de acuerdo a la manera de almacenar los datos, estos son:
ROLAP (Relational OLAP).
20
caracterizada por la arquitectura. Los esquemas más comunes sobre los que se trabaja son estrella o copo de nieve. La arquitectura está compuesta por un servidor de datos relacional y el motor OLAP.
MOLAP (Multidimentional OLAP).
En este tipo de arquitectura los datos se almacenan de manera dimensional en un servidor de base de datos multidimensional, permitiendo optimizar los tiempos de respuesta en la información, ya que al ser sumarizada y/o agregada ayuda mucho a los datos calculados por adelantado como por ejemplo los totales, lo que aumenta el desempeño de análisis.
Para tener un idea de cómo funciona la tecnología OLAP se puede hacer una analogía con la representación de un cubo, y es aquí donde nace el término de los cubos de información, que no son otra cosa más que el análisis multidimensional de los datos, como se puede apreciar en la figura 1-13 a continuación.
Figura 1-13: Cubo OLAP Fuente: (Sanches, 2012)
En un análisis OLAP se implementan funcionalidades las cuales permiten interpretar la información de diferentes maneras, estas funciones u operaciones entre las más importantes son:
21
Figura 1-14: Operación OLAP - Drill Down Fuente: (Duque Galvez, 2010)
Roll up.- Agregar una métrica de lo particular a lo general por la jerarquía ascendente de sus dimensiones.
Figura 1-15: Operación OLAP - Roll Up Fuente: (Duque Galvez, 2010)
1.3.4 Desarrollo de un datawarehouse basado en la metodología Ralph Kimball.
Ralph Kimball plantea una metodología para el desarrollo de soluciones de BI/DWH, que garantiza buenas prácticas para la implementación de un proyecto de este tipo, mediante la consecución de una serie de pasos a seguir durante toda la administración del proyecto, como se muestra en la figura a continuación.
22
En base a esta metodología, se tomará los puntos con mayor importancia para que sean especificados, y se realizará ciertas adecuaciones para este proyecto según las necesidades que se presenten. (Kimball, 2008)
1.3.4.1 Planeación y administración del proyecto. Definición del proyecto.
En la definición se identifica el escenario para poder determinar el alcance del proyecto, en el sentido que se puede apreciar de donde se origina la demanda dentro de la organización. Los posibles escenarios originados dentro de una empresa son:
Demanda de un sector del negocio.- Un Sector en específico como por ejemplo los directivos del negocio.
Demasiada demanda de la información.- Se caracteriza por provenir de más de un sector del negocio, por ejemplo aparte de los directivos del negocio, los de la empresa y ciertos gerentes relacionados con el negocio.
En busca de demanda.- Escenario en el que se encuentra involucrado el presidente o directivo principal de la empresa.
Determinar preparación de la empresa para un proyecto de Datawarehouse.
Son cinco factores importantes según la metodología de Ralph Kimball, las que se deben tomar en cuenta para poder iniciar un proyecto de almacén de datos, estos son:
Patrocinio de la gerencia del negocio. Motivación del negocio.
Acompañamiento del departamento de tecnología y de negocio. Presencia de cultura analítica.
Factibilidad.
Desarrollo del alcance preliminar.
Se centra en definir de manera preliminar el alcance del proyecto, para poder hacerlo, la base debe ser los requerimientos del negocio. Para la definición del alcance es importante seguir los siguientes parámetros:
Desarrollo de la Justificación del Negocio.
En la Justificación se deben especificar e identificar el costo y beneficio que está relacionado con el proyecto.
23
Costos de Hardware.- Se toma en cuenta el costo de acuerdo a los equipos que serán utilizados para el proyecto.
Costos de Software.- Tomar en cuenta el costo de Software que se necesitara para el proyecto, como software para ETL, reportería, entre otros.
Recursos Internos.- Recursos con los que la organización cuenta para el proyecto. Recursos Externos.- En caso de necesitar algún tipo de consultoría o servicio
externo a la organización.
Costos de Mantenimiento.- La mayoría de productos de hardware y software necesitan de un mantenimiento.
Soporte.- Todo lo que es el soporte a los usuarios ya sean estos a través de help desk. Costos de Crecimiento.- Se debe considerar nuevos requerimientos, mejoras
tecnológicas de los productos relacionados de software. Se considera también los retornos y beneficios a obtener, como:
Incremento de ganancias.
Incremento en los niveles de servicio a los clientes.
Aumento de información para la empresa, y su rápido acceso a ella.
Planeación del Proyecto.
Se debe especificar un nombre para el proyecto, así como los roles de la(s) persona(s) que participara en el proyecto, dependiendo la participación de cada una y requerimientos que se hayan especificado.
Los principales roles para el proyecto son: Patrocinadores de negocio.
Gerente o administrador del proyecto. Líder de negocio del proyecto.
Analista de negocio. Arquitecto de datos. Modelador de datos.
Administrador de base de datos. Diseñador de proceso de ETL.
24
Aquí se deberá considerar las reuniones con el equipo de trabajo, el monitoreo de estado del proyecto realizado periódicamente, el alcance y estrategias de comunicación ya sea con el equipo de trabajo o con usuarios externos, en estos últimos esencialmente la manera de tratar por ejemplo cuando llegan nuevos requerimientos a los cuales hay que ver la manera de manejar estas situaciones.
1.3.4.2 Definición de los requerimientos del negocio.
Los requerimientos de los usuarios del negocio ayudan a definir el diseño e implementación del datawarehouse, es por esto que desde una perspectiva macro los requerimientos son el centro del negocio y por ende factor de éxito para un satisfactorio desarrollo de un datawarehouse.
Algo importante a tener en cuenta es saber identificar y asociar los requerimientos desde una perspectiva macro y así como también desde pequeñas perspectivas.
Para empezar se debe hablar con los usuarios del negocio, sobre sus trabajos, objetivos, e intentar conocer cómo y en base a que toman decisiones, al contrario lo que no se debe hacer es preguntar a los usuarios que datos quieren que aparezca o conste en el datawarehouse, ya que al conocer su objetivos, decisiones, metas tendremos una mayor perspectiva de que desean o de qué tipo de información manejan más frecuencia.
1.3.4.3 Diseño técnico de la arquitectura.
Se detalle el ambiente de integración, junto con las tecnologías a utilizar, y el cómo va a funcionar, uniendo tres factores que son: los requerimientos, el entorno técnico, y las estrategias de diseño a implementar.
Para determinar el diseño técnico se basará en dos divisiones que son:
1.3.4.3.1 Back Room.
Se implementa la integración de datos mediante el proceso de ETL, desde el origen de los datos hasta la carga de los mismos en el datawarehouse que es la base destino.
1.3.4.3.2 Front Room.
25
En esta etapa, el entregable es diseño de la arquitectura de todo el proceso de integración de los datos y de la presentación de los mismos, con el fin de obtener un esquema gráfico del funcionamiento del datawarehouse.
1.3.4.4 Selección e instalación del producto.
Mediante las especificaciones tratadas en el diseño técnico de la arquitectura, se visualiza de mejor manera el ambiente en el cual se va a desarrollar el proyecto. Se evalúa las herramientas a utilizar de acuerdo a cada sección o área del proceso de desarrollo. Con lo cual estará dirigido para:
Plataforma DBMS.
Existen dos tipos, motor relacional y motor OLAP, lo que se deberá tener en cuenta cuales son las necesidades, para seleccionar una o ambas opciones.
Herramienta ETL.
Se evalúa la herramienta a utilizar, tomando en cuenta aspectos importantes, como si es funcional, y si cumple las posibles necesidades a presentarse en el desarrollo, como por ejemplo si la herramienta puede generar claves subrogadas y hacer búsquedas de ellas, entre otras; esto ayudará determinar la herramienta a utilizar. Herramienta BI.
Para seleccionar la mejor opción de una herramienta de Front room o de presentación, se debe tomar en cuenta la funcionalidad, versatilidad y manejo amigable para el usuario final. En esta etapa como entregable, son las herramientas a utilizar en cada sección de desarrollo.
1.3.4.5 Modelamiento dimensional.
26
En el modelo dimensional se especifican las medidas y las características. Las medidas son usualmente numéricas y son referidas a los hechos, mientras que las características de estas medidas son representadas por las dimensiones, describiendo por ejemplo quien, que, cuando, de la medida.
Según la tesis elaborada por Duque Gálvez cita cuatro pasos para el diseño dimensional:
1.3.4.5.1 Paso 1 – Seleccionar el Proceso de Negocio.
El primer paso es determinar el proceso que va a ser modelado. Esto es un poco formalismo ya que la selección del proceso es básicamente referente a los requerimientos que se tomaron, a través de ello ya se puede determinar cuál será el proceso a que se va a modelar. Los procesos de negocio son la parte fundamental del datawarehouse, y es aconsejable construirlo de manera iterativa es decir un proceso por momento. Vale recalcar que cada proceso de negocio puede producir una o varias tablas de hechos.
1.3.4.5.2 Paso 2 – Declaración de granularidad.
El segundo paso es definir claramente el nivel de granularidad lo que es lo mismo un registro de la tabla de hecho y decir exactamente la representación de la medida de la tabla de hechos.
1.3.4.5.3 Paso 3 – Identificación de Dimensiones.
El tercer paso es determinar las dimensiones aplicables a la tabla de hechos en el nivel de granularidad que se detalló. Al agregar nuevas dimensiones los atributos de estas deben cumplir con la misma granularidad que se haya definido.
1.3.4.5.4 Paso 4 – Identificación de Hechos.
El paso final es identificar los hechos o medidas del negocio. Para la mayoría de los procesos orientados a transacciones, solo hay algunos hechos fundamentales, que miden por ejemplo la cantidad o monto. (Duque Galvez, 2010)
1.3.4.5.5 Datawarehouse Bus Matrix.
27
Figura 1-17: Datawarehouse Bus Matrix Fuente: (Duque Galvez, 2010)
En la etapa de modelamiento dimensional, como entregable es el diseño de la base de datos del datawarehouse, es decir el modelo de las tablas, junto con la matriz de procesos-hechos vs. dimensiones.
1.3.4.6 Diseño físico.
Esta etapa se centra en definir la estructura física, como: Configuración del entorno de base de datos.
Creación de espacios de tablas para datos y metadatos.
Creación de tablas, para el datawarehouse y para las bases origen en caso de ser necesario.
Creación de llaves primarias y foráneas. Creación de índices en las tablas.
Desarrollo de tablas temporales (Staging Area) en caso de ser necesario.
En esta etapa, el entregable son los scripts, que son generados al finalizar el diseño y desarrollo físico. (Kimball, 2008)
1.3.4.7 Diseño y desarrollo del proceso ETL.
El desarrollo del Sistema ETL es un desafío para un proyecto de este tipo ya que se debe tomar en cuenta aspectos como: estudio y análisis de los datos, integración de los mismos con el objetivo de resolver problemas de calidad, cargas automáticas; por lo que se considera fundamental al proceso ETL en el marco de desarrollo de un proyecto de BI/DWH.
28
Desarrollo del Plan ETL.
1.3.4.7.1 Paso 1 – Trazar un plan de alto nivel.
Se diseña un mapa mediante cuadros que especifican la actividad a realizar, con el fin de mostrar el flujo de datos, desde el origen hacia el destino.
1.3.4.7.2 Paso 2 – Seleccionar la herramienta ETL.
Se selecciona la herramienta ETL adecuada, tomando en cuenta las funcionalidades que se van a utilizar.
1.3.4.7.3 Paso 3 – Desarrollar estrategias por defecto.
Teniendo la idea de cómo va a funcionar el proceso ETL, se desarrollará estrategias con el fin de garantizar y aumentar el rendimiento del mismo, como por ejemplo:
Administración de cambios en los atributos de las dimensiones. Carga de datos.
Frecuencia de carga.
Organización del área temporal ETL.
Secuencia de los procesos de transformaciones. Registro y manejo de errores.
1.3.4.7.4 Paso 4 – Profundizar la tabla objetivo.
Se diseña la jerarquía de las tablas objetivo mediante gráficos, es decir, se le da un orden a los niveles de las dimensiones, con lo que se puede apreciar la estructura desde un nivel macro hasta el más detallado.
Desarrollo de Carga Inicial.
1.3.4.7.5 Paso 5 – Poblar las tablas de dimensiones con los datos históricos.
Las dimensiones (tablas objetivo) serán pobladas por primera vez, para lo cual se implementarán actividades como:
Extracción de datos Transformaciones Carga de datos.
1.3.4.7.6 Paso 6 – Realizar la carga histórica de la tabla de hechos.
29
De igual manera se implementará las actividades de extracción, transformación según la necesidad, y de carga de datos.
Desarrollo de carga incremental.
1.3.4.7.7 Paso 7 – Procesamiento incremental de la dimensiones.
Las dimensiones serán pobladas de manera incremental, es decir a partir de la segunda carga de datos. Al igual que el poblado inicial, se realizará las transformaciones, y carga de datos, con la diferencia ahora, que la extracción se realizará exclusivamente con datos nuevos o que hayan cambiado en el origen.
1.3.4.7.8 Paso 8 – Procesamiento incremental de los hechos.
Así mismo el poblado incremental se realizará a partir de la segunda carga a la tabla de hecho, y tomando en cuenta únicamente de los datos nuevos o que hayan sufrido cambios; y al igual que la carga inicial se implementa las demás actividades como transformaciones.
1.3.4.7.9 Paso 9 – Operación y automatización del sistema ETL.
Con el fin de garantizar la ejecución periódica del proceso ETL, es necesario automatizar los trabajos y transformaciones.
Según la herramienta ETL que se haya seleccionado, esta implementará pasos para configurar tareas programadas, permitiendo que por cierto tiempo como por ejemplo cada día se proceda automáticamente con el poblado de datos hacia el Datawarehouse. Esto es de gran ayuda, en el sentido que no se necesitará la intervención humana para que se realice el proceso ETL.
Como entregable en la etapa de Diseño y Desarrollo ETL es el documento con las especificaciones de acuerdo a cada paso de la misma sobre el Proyecto, lo que muestra cómo funcionará el proceso ETL. (Duque Galvez, 2010)
1.3.5 Herramientas para el desarrollo del datawarehouse.
Las herramientas que se especificarán a continuación serán utilizadas para el desarrollo del proyecto. Se dividió en tres tipos de herramientas las cuales serán objeto de uso de acuerdo a cada etapa en que se encuentre el desarrollo del mismo.
1.3.5.1 Motor de base de datos.
30
Es por ello la importancia de una base de datos para una aplicación de este tipo, ya que es la base, y el núcleo en el cual reposarán los datos que previamente han sido tratados.
Por lo que para la creación de la base de datos se debe tomar en cuenta ciertas funcionalidades como:
Alto rendimiento y gestión de datos.
Alta escalabilidad y desempeño para el crecimiento exponencial de datos, lo cual depende mucho de la cantidad de datos a tratar y ser alojados en el almacén. (Duque Galvez, 2010)
1.3.5.2 Herramienta ETL.
Hoy en día existe en el mercado varias herramientas ETL de diferente proveedor o casa comercial, aparte de esto se debe tomar en cuenta funcionalidades que permitan el buen desarrollo del proceso ETL para lo cual se formuló características básicas que debe tener un herramienta de este tipo, lo que permite garantizar el trato de los datos.
Extracción de datos desde archivos planos, hojas de cálculo, bases de datos. Carga de datos de forma masiva en bases de datos.
Limpieza de datos. Interfaz gráfica amigable. Unificar datos.
Seguridad de la información transmitida.
Retención temporal de información hasta conseguir sincronización. Conectividad con diferentes motores de base de datos.
Soporte de la herramienta para problemas técnicos. Interfaz para implementación de código SQL.
1.3.5.3 Microsoft Integration Services.
Es una plataforma para la actualización de almacenamiento de datos, limpieza y minería de datos, y la administración de objetos y datos de SQL Server. Los paquetes pueden funcionar en solitario o junto con otros paquetes para hacer frente a las complejas necesidades de la empresa.
31
Figura 1-18: Arquitectura Integration Services Fuente: (Mendoza Rivera, 2008)
1.3.5.4 Microsoft Analysis Services.
Analysis Services de Microsoft SQL Server es un servidor de nivel intermedio para procesos analíticos en línea (OLAP) y minería de datos. El sistema Analysis Services incluye un servidor que administra cubos de datos multidimensionales para analizarlos y proporciona un rápido acceso a la información de los cubos, organiza los datos de un almacenamiento de datos en cubos con datos de agregación pre calculados para proporcionar respuestas rápidas a consultas analíticas complejas. (Nima Ramos, 2009)
1.3.5.5 Herramienta de presentación.
Como parte de la explotación del datawarehouse es importante contar con una herramienta que permita brindar una interfaz de usuario final, con facilidades y funcionalidades amigables que permitan una mayor y mejor interpretación de los datos que se encuentran en el almacén. Por lo que es recomendable que para la selección de una herramienta de este tipo, ella cuente con funcionalidades como:
Visualización de gráficos para análisis. Navegabilidad dimensional.
Soporte para agregaciones y sumarizaciones. Interfaz amigable para el usuario final. Opciones de filtrado o condicionales.
Soporte a operaciones OLAP como Dril Down, Roll Up, Slice, Dice.
32 Microsoft Excel.
Es mucho más que una simple hoja de cálculo. Se ha convertido en la herramienta multipropósito del puesto de escritorio: permite realizar cálculos, tratar y consolidar datos, realizar el control de gestión, crear cuadros de mando. Muchas de estas actividades que han encontrado su lugar natural dentro de Excel se aplican de forma lógica en el sistema decisional. Aun así Excel es la herramienta ideal para el puesto de trabajo en lo que respecta al consumo de datos decisionales: su interfaz es conocida, posee una gran potencia de cálculo y de formateo de datos orientada a business intelligence. Por último, es capaz de conectarse a orígenes de datos relacionales o decisionales. (Gauchet, 2011)
Figura 1-19: Visualización datos de cubos en hoja de Excel Elaboración: Freddy Jaramillo.
1.4 Conclusiones parciales.
A lo largo de esta presente investigación dentro del marco teórico se logra constatar la importancia de tratar los datos para tener información concreta al momento de la toma de decisiones, esto como herramienta para los altos mandos dentro de una empresa.
33
2 CAPITULO II MARCO METODOLÓGICO.
2.1Caracterización del sector, rama, empresa, contexto institucional o problema seleccionado para la investigación.
En 1957 nació INDIA, empresa precursora del grupo, dedicada a la importación de insumos agrícolas. Creció en la industria avícola con la incubación, venta de huevos comerciales y más adelante fortaleció el campo agrícola con la investigación y producción de semillas. En 1979 se crea PRONACA, Procesadora Nacional de Aves, que se convierte en Procesadora Nacional de Alimentos en 1999.
En los 90 diversificó su producción en cárnicos y otros alimentos, e inició la exportación de palmito en conserva. En el nuevo siglo PRONACA lleva su modelo de producción y comercialización de palmito a Brasil y productos listos a Colombia.
Esta empresa es el resultado de años de trabajo, creatividad y constancia. Como empresa procesadora y comercializadora de alimentos, ha alcanzado el reconocimiento por la alta calidad de sus productos que provienen de los sectores: cárnico, agroindustrial y acuacultura. Actualmente, es una empresa orgullosamente ecuatoriana, que alimenta bien y genera desarrollo en el sector agropecuario con responsabilidad social y ambiental.
2.2Descripción del procedimiento metodológico para el desarrollo de investigación. 2.2.1 Modalidad de la Investigación.
Para el desarrollo del proyecto se utiliza el método inductivo, este método se utilizará para el análisis de la información in-situ que se obtuvo de las encuestas aplicadas a los colaboradores involucrados en los procesos y entrevista al jefe regional de logística y correlacionar con la información del marco teórico respecto a los datawarehouse, esto como herramienta de apoyo en la toma de decisiones. El método deductivo ha permitido estructurar el marco teórico en forma técnica, científica y ensayar con los resultados que se obtiene de las encuestas a través de las conclusiones que se deducen de principios, categorías y de la idea a defender planteada.
2.2.2 Tipos de investigación.
También se aplicó el método cualitativo porque ha permitido incorporar los resultados estadísticos a un análisis e interpretación crítica por parte del investigador para la validación del proyecto.