• No se han encontrado resultados

Capítulo 3 INTEGRACIÓN DE DATOS

3.1 Extracción y Transformación

Al comenzar a trabajar con la herramienta se definió una conexión (Ver figura12) con el Sistema Gestor de Base de Datos PostgreSQL utilizada en todas las transformaciones, esta conexión es recomendable probarla antes de comenzarla a utilizar (Ver figura 12).

Alianne Sánchez Rómulo Página39 Figura 13: Prueba de Conexión Spoon

Lo primero que se realiza son las transformaciones donde el primer paso es la extracción de los atributos necesarios de los sistemas operacionales para llenar las tablas dimensiones (Ver figura 14)

Figura 14: transformación Estación.

Con el primer componente se extraen del fichero en Microsoft Office Excel los datos a cargar, este paso se edita (Ver figura15, 16, y17) de forma tal que se defina qué hojas de cálculo serán extraídas para el caso en particular que se va a realizar.

Alianne Sánchez Rómulo Página40 Figura: 15 Componente entrada Excel: obtener hojas de cálculo.

Alianne Sánchez Rómulo Página41 Figura: 17 Componente entrada Excel: visualizar filas.

A través de un componente obtener y transformar campos se especifica qué valores tomarán las variables de salida definida por el componente (TD_Estación) y además se eliminan los campos que no se van a incluir en el Data Mart (ver Fig.18).

Alianne Sánchez Rómulo Página42 Figura 18: Valores del componente obtener campos.

Alianne Sánchez Rómulo Página43 Una vez seleccionados los mismos y renombrados como han de quedar en la tabla, se añade el componente Salida Tabla, este se edita para lograr la conexión con el gestor de bases de datos (Ver figura 19) y se selecciona la tabla en la cual se han de guardar los datos (Ver figura 20).

Alianne Sánchez Rómulo Página44 Figura 20: Componente salida tabla edición selección.

Una vez dentro de este se selecciona la opción SQL para entrar al editor de código SQL (Ver figura 21). De esta forma se puede visualizar de forma previa la parte de las sentencias SQL que corresponden a la ejecución de esta transformación.

Alianne Sánchez Rómulo Página45 Figura 21: Editor SQL.

En el caso de la dimensión Tiempo ocurre que los datos no son obtenidos de una sola hoja de cálculo y los mismos han de coincidir en formato para evitar incoherencias (Ver figura 22).

Alianne Sánchez Rómulo Página46 Figura 22: Transformación fecha.

Uno de los componentes a utilizar en esta transformación es el componente unión por clave, el cual tiene por objetivo realizar comparaciones entre campos iguales (Ver figura 23)

Alianne Sánchez Rómulo Página47 Figura 23: Componente unión por clave.

El proceso realizado es similar para la carga de las 6 Transformaciones restantes (Ver anexos).

3.2 Carga

Para la realización de la carga como último elemento del proceso ETL, se diseñará mediante la misma herramienta Pentaho Data Integration: un trabajo (Job) (Ver Figura 24)

Alianne Sánchez Rómulo Página48 Figura 24: Trabajo Hidromart.

El primer componente que se puede observar es el Start, este se edita para determinar la frecuencia con que se realiza el mismo. Observar en la figura 25. Luego se añaden las transformaciones y se ejecutan de forma secuencial si el resultado de la misma es verdadero (Ver figura 26 y 27). En caso de ser falso el salto sería al componente de error donde se configura el mensaje a mostrar (Ver Figura 28)

Alianne Sánchez Rómulo Página49 Figura 25: Componente Star.

Figura 26: Saltos a siguiente transformación.

Alianne Sánchez Rómulo Página50 Figura 28: Componente Error.

3.3 Validación.

La validación de todo sistema constituye el mecanismo mediante el cual se garantiza el cumplimiento de las funcionalidades definidas por los clientes al inicio de su desarrollo y su correcto funcionamiento. En este caso como el alcance de la investigación se ha limitado al diseño del Mercado de Datos, es a este diseño al que se le realiza una prueba con el objetivo de comprobar su correcto desempeño así como el cumplimiento de las necesidades del cliente. Para ello se hizo necesario la creación de dos cubos OLAP.

3.3.1. Validación funcional

Para efectuar esta validación fue necesario el uso de una herramienta para la representación de los cubos, el Schema Workbench, definiendo dos cubos con las dimensiones y medidas correspondientes. Estos cubos se denominaron Lluvias_Precipitadas y Situación_Embalse. Cada uno de estos cubos tiene como base fundamental las tablas de hechos “H_lluvias_precipitadas” y “H_situacion_embalses” respectivamente.

El primer paso es realizar la conexión entre las herramientas antes mencionadas (Ver Figura 29).

Alianne Sánchez Rómulo Página51 Figura 29. Conexión entre Schema y PostgreSQL.

Una vez conectado se procede a diseñar el modelo, el cual consta de dos cubos Lluvias_Precipitadas y Situación_Embalse, con 4 dimensiones compartidas por ambos cubos y dos individuales (Ver Figura 30)

Alianne Sánchez Rómulo Página52 Figura 30. Diseño del modelo multidimensional en el Schema Workbench.

Uno de los componentes generados por esta herramienta es un archivo XML (Ver figura 31) el cual permite comprobar la funcionalidad del mercado.

Alianne Sánchez Rómulo Página53 Figura 31. Schema Workbench: XML.

Conclusiones de capítulo

En este capítulo se realizó el proceso ETL, de vital importancia para el éxito del DM, en el cual se transformó y cargó todos los datos seleccionados desde los sistemas operacionales al sistema gestor de bases de datos PostgreSQL. Este proceso concluyó satisfactoriamente con la exitosa ejecución del trabajo nombrado Hidromart como tarea final del desarrollo del diseño del Data Mart para el análisis de datos hidrológicos en la provincia Holguín.

Alianne Sánchez Rómulo Página54

Conclusiones Generales

Una vez culminado el trabajo de diploma se puede concluir que se le dio cumplimiento al objetivo general trazado para el proceso de la investigación, puesto que:

Se desarrolló el diseño de un Data Mart para el análisis de los datos hidrológicos en la Empresa Aprovechamiento de los Recursos Hidráulicos Holguín (EAHHLG), el cual tiene el objetivo aportar una ayuda al proceso de toma de decisiones a partir de datos que se almacenan en el mismo de forma integrada y segura y posibilitan la creación de modelos para la anticipación de situaciones de los embalses de la provincia y la situación de lluvias precipitadas, mejorando los tiempos de análisis y trabajo con dichos datos; validado a través de pruebas realizadas a las funcionalidades, las que arrojaron resultados favorables, dando cumplimiento a las necesidades y exigencias previstas para su desarrollo hasta la etapa propuesta para esta investigación.

Alianne Sánchez Rómulo Página55

Recomendaciones

Para un posterior desarrollo y perfeccionamiento del DM desarrollado se recomienda:

Desarrollar el sistema para la generación de reportes.

Realizar vistas de análisis mediante la visualización de información a través de pizarras de gráficos.

Gestionar la seguridad del sistema para el acceso a la información a nivel de entidades.

Realizar la integración del sistema con un marco de trabajo (como el del CEDRUX).

Alianne Sánchez Rómulo Página56

Bibliografía

"Introducing the Open Source CUAHSI Hydrologic Information System Desktop Application (HIS Desktop)". Ames, D.P. 2009. Australia : 18th World IMACS / MODSIM Congress, 2009. pp:4353 - 4359.

2012. A practical guide to getting stared with Dta Warehousing. [En línea] Marzo de 2012.

http://www.techguide.com/.

Alonso y Infante, Eddy Manuel. 2005.Diseño e implemetación de Akademo Mart. La Habana : s.n.,

2005.

Bernau Ricardo, Dario. 2010.HEFESTO Metodología para la construcción de un Data Warehouse.

Córdova : s.n., 2010.

Bravo Martínez, Edgar Caheri. Manejo de datos fuente para la integración en sistemas de

informacion geográficos. Colección de Tesis Digitales Universidad de las Américas Puebla. . [En línea] [Citado el: 03 de Febrero de 2013.]

http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/bravo_m_ec/..

Conferencia 2 Modelo de datos. Universidad de las Ciencias Informáticas, UCI. 2011. La Habana : s.n., 2011.

ETL-Tools.Info. Business Intelligence - Almacenes de Datos - ETL. [En línea] [Citado el: 20 de Enero de 2013.] http://etl-tools.info/es/bi/almacendedatos_esquema-constelacion.htm. .

Galindo Aparicio, Luis Alberto. SINAI: Toolkit de indexacion de datos multidimensionales. Colección

de Tesis Digitales Universidad de las Américas Puebla. [En línea] [Citado el: 03 de Febrero de 2013.] http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/galindo_a_la/..

Garrido, Maray. 2012."Integración de herramientas informáticas para la alerta temprana ante el

peligro de inundaciones". La Habana : Instituto Superior Politécnico “José Antonio Echeverría”, 2012.

Guanche Cañizares, Mauricio. 2011.Desarrollo de un DataMart para la obtención de las razones

financieras de los subsistemas de Cobros y Pagos, Caja y Banco del proyecto ERP-Cuba. La habana : UCI, 2011.

Inmon , Bill. 1996.Building the data Warehouse. New York : Wiley Computer, 1996.

Kimball, Ralph y Ross, Margy.The Data Warehouse Toolkid. Segunda edicion. Canada : s.n.

Michel Diaz, Llerena . 2007.Data Mart para la gestión del conocimiento. 2007.

Modelo Relacional. Modelo Relacional. [En línea] [Citado el: 12 de Enero de 2013.]

http://www.virtual.unal.edu.co/cursos/sedes/manizales/4060029/lecciones/cap4-1.html..

Molina, Martín. 2006.Proyecto PREDECAN apoyo a la prevención de desastres en la Comunidad

Andina. Análisis de Sistemas de Información de Prevención y Atención de Desastres en la Comunidad Andina. Lima, Perú : Comunidad Andina, 2006.

Alianne Sánchez Rómulo Página57

Mosteiro, Luis. 2009.Sistema Integrado de Información del Agua. 2009.

ONJUÁN, G. 2002.Gestión de Información en las organizaciones. Principios, conceptos y aplicaciones.

Habana : Felix Varela, 2002.

Pérez Pedraza, Alejandro. Implementación y explotación de un datawarehouse empresarial para la

toma de decisiones: aplicación a la empresa Textiles Carmelita. Colección de Tesis Digitales Universidad de las Américas Puebla. [En línea] [Citado el: 03 de Febrero de 2013.]

http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/perez_p_a/.

Quintero Orea, Moises. Interfaz en español para recuperación de información de datos geográficos.

Colección de Tesis Digitales Universidad de las Américas Puebla. [En línea] [Citado el: 03 de Febrero de 2013.] http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/quintero_o_m/.

Rodríguez Fernández, Osvaldo. 2010. SAEP: Data Warehouse para apoyar el análisis de evaluación de

profesores. Colección de Tesis Digitales Universidad de las Américas Puebla. [En línea] 2010. [Citado el: 03 de Febrero de 2013.]

.http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/ydirin_p_mm/portada.html..

Second International Symposium on Information Technologies in Environmental Engineering. Shaker-

Verlag. 2005. Alemania : s.n., 2005. Modelling of a data warehouse system for environmental

information – A case study.

2011. Sitio oficial de postgre. Sitio oficial de postgre. [En línea] 2011. http://www.postgresql.org/..

Valdes Yero, Livan. 2011.Desarrollo de un Data Mart para la obtención de los indicadores financieros

de los subsistemas de Contabilidad y Costos y Procesos del proyecto ERP. La Habana : UCI, 2011.

Wiley. 2002.Modeling (Second Edition). New york : s.n., 2002.

Wolf, Carmen Gloria. 2012. La tecnología data warehousing. La tecnología data warehousing. [En

línea] Noviembre de 2012. [Citado el: 15 de Diciembre de 2012.] http://www.inf.udec.cl/revistaedicion3/cwolf.html.

Ydirín Préstamo, María Magdalena. 2004. Construcción de un Data Warehouse de datos del medio

ambiente para la toma de decisiones: aplicación a los datos hidrológicos. Colección de Tesis Digitales Universidad de las Américas Puebla. [En línea] 2004. [Citado el: 03 de Febrero de 2013.]

Alianne Sánchez Rómulo

Glosario de términos

BD: Una Base de Datos es un conjunto de datos relacionados entre sí, entendiéndose por dato los hechos conocidos, que pueden registrarse y que tienen significado implícito.

Data Warehouse (DWH): El almacenamiento de información homogénea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales.

Data Mart: Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.

Inteligencia de Negocio (BI): El proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos.

SQL: Lenguaje de consulta estructurado o SQL (por sus siglas en inglés structured query language) es un lenguaje declarativo de acceso a bases de datos relacionales que permite especificar diversos tipos de operaciones en éstas. Una de sus características es el manejo del álgebra y el cálculo relacional permitiendo efectuar consultas con el fin de recuperar -de una forma sencilla- información de interés de una base de datos, así como también hacer cambios sobre ella.

Alianne Sánchez Rómulo

Anexos

Anexo 1 Correspondencias entre los OLTP y los indicadores a conformar el mercado de datos:

Estac. Ano IdMes Dia01 Dia02 Dia03 Dia04 Dia05 Dia06 Dia07 Dia08 Dia09

580 1990 1 0 30 3 0 0 0 0 0 0 601 1990 1 1 12 15,5 1 0 0 0 0 0 982 1990 1 0 3 5 0 0 0 0 0 0 1547 1990 1 0 5 7 1 3 1,6 0 0 0 1575 1990 1 0 0 0 0 0,1 0,2 0 0 0,1 1585 1990 1 0 0 16 0 0 0 0 0 0 1695 1990 1 2,3 31,4 0 7,9 0 4,6 0 1,4 0 1696 1990 1 0 13 8 6 0,3 3 0 0 0 1776 1990 1 1778 1990 1 580 1990 2 0 0 0 0 0 0 5 0 0 601 1990 2 0 0 0 0 0 0 5 10 0 982 1990 2 0 0 0 0 0 12 0 0 0 1547 1990 2 0 0 0 1 1,5 8 14,2 7 11,2 1575 1990 2 0 1,7 0 0 0 2 0 0,6 1 1585 1990 2 0 0 0 0 0 0 0 0 0 1695 1990 2 0 0 3,4 2,8 3,6 8,2 4,7 14,3 10,2 1696 1990 2 0 1,5 0 1,5 5,5 0 17,6 12 5,1 1776 1990 2 1778 1990 2 580 1990 3 10 0 18 0 0 0 0 0 5 601 1990 3 48 6 1 0 0 0 0 0 5

Figura 1 Caso refente al promedio de lluvias diarias.

Estación

Alianne Sánchez Rómulo

No. Estac. Descripción Munic. Norte Este

Altura (m)

1 580 T.C SAGUA S.Tánamo 215,30 666,40 20,0

2 982 T.C CALABAZA S.Tánamo 200,80 653,00 140,0

3 1575 EL INFIERNO S.Tánamo 198,20 663,80 80,0

4 1585 NARNAJO AGRIO S.Tánamo 202,60 660,90 160,0

5 1776

SOLIS DE

CASTRO S.Tánamo 208,9 675,8 110,0

6 1778 LAS MALTINAS S.Tánamo 210,8 659,5 150,0

7 601

ACTO FRANK

PAIS F. País

225,30 663,50

10,0

8 1547 UEB MOA Moa 223,20 696,30 5,0

9 1695 PRESA MOA Moa 212,70 692,80 150,0

10 1696

DERIVADORA

MOA Moa 219,60 698,20 20,0

Figura 2 Caso datos estación

DATOS DE ESTACIÓN

Alianne Sánchez Rómulo

Figura 3 Caso lluvias por embalses

Fecha

MUNICIPIOS

Alianne Sánchez Rómulo

Anexo 2 Transformaciones:

Figura 4 Transformación realizada para el llenado de la tabla dimension

Alianne Sánchez Rómulo

Figura 6 Entrada Excel municipios obtener hoja de cálculo

Alianne Sánchez Rómulo

Figura 8 editor SQL transformación municipios

Alianne Sánchez Rómulo

Alianne Sánchez Rómulo

Anexo 9 Entrada Excel 3 Transformación Fecha

Alianne Sánchez Rómulo

Anexo 11 Obtener Campos 2 Transformación Fecha

Anexo 12 Obtener Campos 3 Transformación Fecha

Documento similar