UNIVERSIDAD TECNOLÓGICA EQUINOCCIAL
FACULTAD DE CIENCIAS DE LA INGENIERÍA
CARRERA DE INGENIERÍA INFORMÁTICA Y CIENCIAS
DE LA COMPUTACIÓN
DESARROLLO DE UNA SOLUCIÓN DATAWAREHOUSE PARA
EL SISTEMA DE CARTERA EN LA PyME “LA HIPOTECARIA”
TRABAJO PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERA EN INFORMÁTICA Y CIENCIAS DE LA COMPUTACIÓN
ANA CECILIA GUANOTÁSIG LEMA
DIRECTOR: ING. CIRO SAGUAY
DERECHOS DE AUTOR
©Universidad Tecnológica Equinoccial 2013
DECLARACIÓN
Yo Ana Cecilia Guanotásig Lema, declaro que el trabajo aquí descrito es de mi autoría; que no ha sido previamente presentado para ningún grado o calificación profesional; y, que he consultado las referencias bibliográficas que se incluyen en este documento.
La Universidad Tecnológica Equinoccial puede hacer uso de los derechos correspondientes a este trabajo, según lo establecido por la Ley de Propiedad Intelectual, por su Reglamento y por la normativa institucional vigente
___________________________________________
CERTIFICACIÓN
Certifico que el presente trabajo que lleva por título “Desarrollo de una Solución Datawarehouse para el Sistema de Cartera en la pyme “LA HIPOTECARIA”, que, para aspirar al título de Ingeniera en Informática y Ciencias de la Computación fue desarrollado por Ana Cecilia Guanotásig Lema, bajo mi dirección y supervisión, en la Facultad de Ciencias de la Ingeniería; y cumple con las condiciones requeridas por el reglamento de Trabajos de Titulación artículos 18 y 25.
_____________________________________ Ing. Ciro Napoleón Saguay Chafla
DEDICATORIA
A Dios porque Cada vez Él me dijo:
‹‹Mi gracia es todo lo que necesitas; mi poder actúa mejor en la debilidad››. ¡Así que se fuerte y valiente! No tengas miedo ni sientas pánico frente a ellos, porque el Señor tu Dios, él mismo irá delante de ti. ‹‹No te fallará ni te abandonará››.
A la memoria de Galo Germán, a Aracely nuestra hija que con su inocencia y alegría ha llenado de luz mi camino y me ha dado la fuerza para continuar. A mis padres María y Gerardo; Eduardo y Elvia; Galo Marcelo, por su ayuda incondicional.
A Amparito, Hugo, Angelita, Wha, Ely, Miguel, Diego, Danilo, Sol, Pablo, Norma, Vilma, Ángel, Emilio, Nelly, Lucy, Laurita personas que Dios puso en mi camino y que han sido mi apoyo en todo momento especialmente en los difíciles.
AGRADECIMIENTO
Manifiesto mis más sinceros agradecimientos a todos los que conforman la Universidad Tecnológica Equinoccial en especial a la Facultad de Ingeniería Informática; a todos mis profesores que durante el transcurso de mi vida estudiantil supieron brindarme todos sus conocimientos sin egoísmo alguno. Agradezco a las autoridades, empleados y trabajadores de esta mi querida y siempre respetada Facultad con los cuales hemos compartido buenos y malos momentos durante estos cinco años
ÍNDICE DE CONTENIDO
PÁGINA
RESUMEN... x
ABSTRACT……….……… ……...……xi
INTRODUCCIÓN ... 1
1. MARCO TEÓRICO... 3
2. 2.1 BUSINESS INTELLIGENCE ... 3
2.1.1 COMPONENTES DEL BUSINESS INTELLIGENCE ... 3
2.1.2 VENTAJAS DEL BUSINESS INTELLIGENCE ... 3
2.2 MINERÍA DE DATOS... 4
2.2.1 INTRODUCCIÓN ... 4
2.3 DATA MINING ... 7
2.3.1 ETAPAS DE DATA MINING ... 7
2.3.2 UTILIDAD DE LA APLICACIÓN DE MINERÍA DE DATOS ... 9
2.4 SISTEMAS DE INFORMACIÓN ... 10
2.5 DIFERENCIA ENTRE OLTP Y DATAWAREHOUSE ... 11
2.6 DATAWAREHOUSE ... 14
2.6.1 PROCESOS BÁSICOS DEL DATAWAREHOUSE (ETL) ... 14
2.6.2 ELEMENTOS IMPORTANTES DE UN DATAWAREHOUSE ... 15
2.6.2.1 Metadatos ... 15
2.6.2.2 Datamart ... 15
2.6.3 TIPOS DE DATAMART ... 16
2.6.3.1 Datamart OLAP ... 16
2.6.3.2 Datamart OLTP ... 17
2.6.4 CUBOS DE INFORMACIÓN ... 17
2.6.5 OBJETIVOS DE UN DATAWAREHOUSE ... 18
2.6.6 CARACTERÍSTICAS DE UN DATAWAREHOUSE ... 19
2.6.6.1 Orientado al tema ... 19
2.6.6.2 Integrado ... 20
2.6.6.3 Datos históricos ... 20
2.6.6.4 No volátil ... 21
2.6.7 CUANDO CONSTRUIR UN DATAWAREHOUSE ... 21
2.6.8 BENEFICIOS DE UNA SOLUCIÓN DATAWAREHOUSE ... 22
2.6.9 ESTRUCTURA DE UN DATAWAREHOUSE ... 22
2.6.10 ARQUITECTURA DE UN DATAWAREHOUSE ... 24
2.6.10.2 Arquitectura Datawarehouse con Área de Organización ... 26
2.6.10.3 Arquitectura Datawarehouse con Área de Organización y Datamart………. ... 27
2.6.11 MODELOS DE DATAWAREHOUSE ... 28
2.6.11.1 Esquema de Estrella ... 28
2.6.11.2 Esquema en copo de nieve:... 29
2.6.11.3 Modelo Constelación ... 30
2.7 METODOLOGÍA CRISP-DM... 31
2.7.1 FASES DE LA METODOLOGÍA CRISP-DM ... 31
2.7.1.1 Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no técnica) ... 32
2.7.1.2 Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio) ... 33
2.7.1.3 Preparación de los datos (Obtener la vista minable o dataset) ... 34
2.7.1.4 Modelado (Aplicar las técnicas de minería de datos a los dataset) ………36
2.7.1.5 Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las necesidades del negocio) ... 37
2.7.1.6 Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de decisiones de la organización) ... 38
METODOLOGÍA ... 40
3. 3.1 COMPRENSIÓN DEL NEGOCIO ... 40
3.2 COMPRENSIÓN DE LOS DATOS... 41
3.3 PREPARACIÓN DE LOS DATOS ... 41
3.4 MODELADO ... 41
3.5 EVALUACIÓN Y DESPLIEGUE ... 41
RESULTADOS Y DISCUSIÓN ... 42
4. 4.1 IMPLANTACIÓN DEL DATAWAREHOUSE ... 42
4.1.1 COMPRENSIÓN DEL NEGOCIO ... 42
4.1.2 COMPRENSIÓN DE LOS DATOS ... 43
4.1.3 PREPARACIÓN DE LOS DATOS ... 44
4.1.3.1 Selección de los Datos ... 44
4.1.3.2 Calidad de los Datos ... 50
4.1.3.3 Evaluación de la calidad de los Datos ... 54
4.1.3.4 Proceso ETL ... 59
4.1.4 MODELADO ... 67
4.1.5 EVALUACIÓN Y DESPLIEGUE ... 87 CONCLUSIONES Y RECOMENDACIONES ... 96 5.
ÍNDICE DE FIGURAS
PÁGINA
Figura 1. Relación entre dato, información y conocimiento ... 5
Figura 2. Proceso KDD ... 6
Figura 3. Etapas del Datamining ... 7
Figura 4. Sistemas de información ... 10
Figura 5. Sistemas transaccionales vs Datawarehouse ... 13
Figura 6. Datawarehouse... 14
Figura 7. Datamart ... 15
Figura 8. Cubos de información ... 17
Figura 9. Característica - Orientado al tema ... 19
Figura 10. Característica – Integrado ... 20
Figura 11. Característica Históricos-No volátil ... 21
Figura 12. Estructura de un Datawarehouse ... 23
Figura 13. Componentes del Datawarehouse ... 24
Figura 14. Arquitectura de un Datawarehouse ... 25
Figura 15. Arquitectura Datawarehouse con Área de Organización ... 26
Figura 16. Arquitectura Datawarehouse con Área de Organización y Datamart 27 Figura 17. Esquema de Estrella ... 28
Figura 18. Esquema en copo de nieve... 29
Figura 19. Modelo Constelación ... 30
Figura 20. Modelo de proceso CRISP... 31
Figura 21. Comprensión del negocio Metodología CRISP-DM ... 32
Figura 22. Comprensión de los datos Metodología CRISP-DM ... 33
Figura 23. Preparación de los Datos Metodología CRISP-DM ... 35
Figura 24. Modelado Metodología CRISP-DM ... 36
Figura 25. Evaluación Metodología CRISP-DM ... 37
Figura 26. Despliegue o Desarrollo Metodología CRISP-DM ... 39
Figura 27. Diagrama Entidad – Relación de la base de datos ... 43
Figura 28. Exportación de la Base de Datos desde Access ... 45
Figura 29. Pantalla Exportación - Asistente para convertir a SQL Server ... 45
Figura 30. Pantalla Exportación-Elegir el servidor SQL ... 46
Figura 31. Pantalla Exportación-Selección de tablas ... 46
Figura 32. Pantalla Exportación-Elegir atributos ... 47
Figura 33. Pantalla Exportación-Ejecutar ... 47
Figura 34. Pantalla Exportación-Documentación ... 48
Figura 36. Pantalla Verificación de la Base de Datos en SQL Server ... 49
Figura 37. Pantalla Calidad de Datos-Nuevo Proyecto ... 50
Figura 38. Pantalla Calidad de Datos-Conexión a la base ... 50
Figura 39. Pantalla Calidad de Datos-Tarea Perfiles de datos ... 51
Figura 40. Pantalla Calidad de Datos-Selección Perfiles ... 51
Figura 41. Pantalla Calidad de Datos-Crear archivo ... 52
Figura 42. Pantalla Calidad de Datos-Archivo xml ... 52
Figura 43. Pantalla Calidad de Datos-Ejecución Tarea ... 53
Figura 44. Pantalla Calidad de Datos-Ejecución correcta ... 53
Figura 45. Calidad de Datos-Pantalla Inicio ... 54
Figura 46. Pantalla Calidad de Datos-Visor de perfil de datos ... 54
Figura 47. Pantalla Calidad de Datos-Perfil claves candidatas ... 55
Figura 48. Pantalla Calidad de Datos- Perfiles de dependencia funcional (DataProfileViewer, 2008) ... 55
Figura 49. Pantalla Calidad de Datos- Perfiles de distribución de longitud de columnas (DataProfileViewer, 2008) ... 56
Figura 50: Pantalla Calidad de Datos- Perfiles de distribución de valores de columna (DataProfileViewer, 2008) ... 56
Figura 51. Pantalla Calidad de Datos- Perfiles de estadísticas de columna (DataProfileViewer, 2008) ... 57
Figura 52. Pantalla Calidad de Datos- Perfiles de patrón de columnas (DataProfileViewer, 2008) ... 57
Figura 53. Pantalla Calidad de Datos- Perfiles de proporción de columnas NULL (DataProfileViewer, 2008) ... 58
Figura 54. Pantalla Nuevo Proyecto ... 59
Figura 55. Pantalla Nuevo Proyecto ... 59
Figura 56. Pantalla Proceso ETL-Crear paquete SSIS ... 60
Figura 57. Pantalla Proceso ETL-Origen de datos ... 60
Figura 58. Pantalla Proceso ETL-Conexión Base Origen ... 61
Figura 59. Pantalla Proceso ETL-Asignación de columnas ... 61
Figura 60: Pantalla Proceso ETL-Vista Previa Datos Origen ... 62
Figura 61. Pantalla Proceso ETL-Transformación de datos ... 62
Figura 62. Pantalla Proceso ETL-Configuración columnas ... 63
Figura 63. Pantalla Proceso ETL-Destino de datos... 63
Figura 64. Pantalla Proceso ETL-Creación de la Base Destino ... 64
Figura 65. Pantalla Proceso ETL-Asignación columnas destino ... 64
Figura 66. Pantalla Proceso ETL-Verificación de los campos ... 65
Figura 67. Pantalla Proceso ETL-Ejecutar paquete ... 65
Figura 69. Pantalla Proceso ETL-Verificación de tablas en SQL... 66
Figura 70. Pantalla Datawarehouse-Nuevo Proyecto... 67
Figura 71. Pantalla Datawarehouse-Nombre del Proyecto... 67
Figura 72. Pantalla Datawarehouse-LAHIPOTECARIA ... 68
Figura 73. Pantalla Datawarehouse-Origen de datos ... 68
Figura 74. Pantalla Datawarehouse-Asistente ... 69
Figura 75. Pantalla Datawarehouse-Conexión ... 69
Figura 76. Pantalla Datawarehouse-Probar conexión ... 70
Figura 77. Pantalla Datawarehouse-Seleccionar conexión ... 70
Figura 78. Pantalla Datawarehouse-Información de suplantación... 71
Figura 79.Pantalla Datawarehouse-Nombre del origen de datos ... 71
Figura 80. Pantalla Datawarehouse-Creación correcta ... 72
Figura 81. Pantalla Datawarehouse-Crear vista de datos ... 72
Figura 82. Pantalla Datawarehouse-Asistente ... 73
Figura 83. Pantalla Datawarehouse-Conexión ... 73
Figura 84. Pantalla Datawarehouse-Selección de tablas ... 74
Figura 85. Pantalla Datawarehouse-Nombre de la vista ... 74
Figura 86. Pantalla Datawarehouse-Tablas ... 75
Figura 87. Pantalla Datawarehouse-Eliminar tablas... 75
Figura 88. Pantalla Datawarehouse-Consulta con nombre ... 76
Figura 89. Pantalla Datawarehouse-Consulta ... 76
Figura 90. Pantalla Datawarehouse-Cubo ... 77
Figura 91. Pantalla Datawarehouse-Asistente ... 77
Figura 92. Pantalla Datawarehouse-Crear cubo vacío ... 78
Figura 93. Pantalla Datawarehouse-Selección de la vista ... 78
Figura 94. Pantalla Datawarehouse-Nombre del cubo ... 79
Figura 95. Pantalla Datawarehouse-Agregar medida... 79
Figura 96. Pantalla Datawarehouse-Medida ... 80
Figura 97. Pantalla Datawarehouse-Crear dimensión ... 80
Figura 98. Pantalla Datawarehouse-Asistente ... 81
Figura 99. Pantalla Datawarehouse-Método de creación ... 81
Figura 100. Pantalla Datawarehouse-Información de origen de datos ... 82
Figura 101. Pantalla Datawarehouse-Atributo de la dimensión ... 82
Figura 102. Pantalla Datawarehouse-Nombre dimensión ... 83
Figura 103. Pantalla Datawarehouse-Dimensión ... 83
Figura 104. Pantalla Datawarehouse-Agregar dimensiones ... 84
Figura 105. Pantalla Datawarehouse-Seleccionar dimensiones ... 84
Figura 106. Pantalla Datawarehouse-Procesar el cubo ... 85
Figura 108.Pantalla Datawarehouse-Ejecutar ... 86
Figura 109. Pantalla Datawarehouse-Progreso del proceso ... 86
Figura 110. Pantalla Datawarehouse-Examinador del cubo... 87
Figura 111. Pantalla Datawarehouse-Examinador del cubo... 87
Figura 112. Pantalla Datawarehouse-Excel Datos ... 88
Figura 113. Pantalla Datawarehouse-Conexión con la base de datos ... 89
Figura 114. Pantalla Datawarehouse-Selección de la base de datos ... 89
Figura 115. Pantalla Datawarehouse-Archivo de conexión ... 90
Figura 116. Pantalla Datawarehouse-Importar datos ... 90
Figura 117. Pantalla Datawarehouse-Diseño de informe ... 91
Figura 118. Pantalla Datawarehouse- Opciones de informe ... 91
Figura 119. Pantalla Datawarehouse-Opciones de informe ... 92
Figura 120. Pantalla Datawarehouse- Datawarehouse-Opciones de informe ... 92
ÍNDICE DE TABLAS
PÁGINA
Tabla 1. OLTP vs DATAWAREHOUSE ... 12
Tabla 2. Base de Datos Operacional vs Datawarehouse ... 13
Tabla 3. Características de un Datamart ... 16
ÍNDICE DE ANEXOS
PÁGINA
RESUMEN
El acertado manejo de la información dentro de una empresa es un pilar fundamental para lograr buenas decisiones de negocios por ello es importante buscar sistemas de información que logren este objetivo. La presente tesis propuso la construcción de una solución Datawarehouse para el área de cartera de la Pyme “La Hipotecaria”. Para ello se realizó la fundamentación teórica de todos los componentes de un Sistema Datawarehouse, se realizó una evaluación del estado de la información de la empresa tomando en
consideración los siguientes aspectos: necesidades de información,
ABSTRACT
INTRODUCCIÓN
1.
Uno de los recursos más valiosos de una empresa es la información, para aprovecharla correctamente existe la Inteligencia de Negocios o Business Intelligence que permite convertirla en una herramienta para la toma de decisiones, proporcionándole una ventaja competitiva, a las compañías dentro del mercado.
La Hipotecaria se crea en el año 2000 como una empresa que brinda asesoría en la evaluación de factibilidad económica, una de sus principales actividades esta la promoción y comercialización de inmuebles al costo, la información de esta actividad se almacena en el “Sistema de Cartera” que permite generar reportes anuales o mensuales de recaudación por proyectos individuales, donde consta el listado de clientes, las cuotas canceladas, reportes de mora y cuotas por cobrar por cliente, esta información permite tener un control de ventas, pero no sirve como fuente para toma de decisiones para futuras inversiones, lo que se requiere es tener un reporte en donde consten: todos los clientes incluidos los socios, las cuotas canceladas, pagos parciales, cuotas por pagar, valores generados por mora, valores globales de estos rubros; esta información permite establecer rápidamente el estado del proyecto, con lo cual se pueden tomar decisiones, soluciones, correcciones y prevenciones sobre el proyecto en marcha y realizar análisis de futuros proyectos.
Para solucionar este problema se propuso la construcción de un
Hipotecaria” entrega al fideicomiso GASPAR encargado del control financiero de este proyecto.
MARCO TEÓRICO
2.
2.1
BUSINESS INTELLIGENCE
Se define como el proceso de transformar información acumulada de una empresa de tal forma que sirva para la toma de decisiones. Realiza la transformación mediante herramientas y técnicas ETL, se extraen los datos de distintas fuentes, se depuran y se preparan para cargarlas en una base de datos.
2.1.1 COMPONENTES DEL BUSINESS INTELLIGENCE
1. Multidimensionalidad: Reúne toda la información dispersa en la empresa y proporciona accesibilidad para analizarla.
2. Minería de Datos: Permite identificar tendencias y comportamientos.
3. Agentes: Son programas que ayudan a realizar tareas algo complejas como elaborar documentos, realizar diagramas de flujo entre otros.
4. Datawarehouse: Coloca la información desde todas las áreas de la empresa y las pone a disposición de las personas que toman las decisiones.
2.1.2 VENTAJAS DEL BUSINESS INTELLIGENCE
1. Agrupa la información de distintas áreas de la empresa para que puedan ser analizadas globalmente.
3. Analiza diferentes escenarios al mismo tiempo con lo cual se logra establecer el estado del negocio y plantear posibles decisiones estratégicas.
4. Evalúa el desempeño del negocio en períodos de tiempo largos o cortos, con ello se obtienen indicadores para toma de decisiones.
5. Reduce las situaciones de riesgo, permite en cierta manera prever lo que vendrá.
6. Identifica tendencias por parte de los usuarios para establecer reglas de ejecución de una tarea específica y realizar planes de acción que mejoren el desempeño del negocio.
En forma general se tiene que la inteligencia de negocios permite realizar monitoreo, análisis, reportes, predicciones; herramientas que si son correctamente aprovechadas logran transformar una empresa estática en una flexible, que se adapta al entorno para ser muy competitiva, con lo cual se obtienen beneficios a todo nivel.
2.2
MINERÍA DE DATOS
2.2.1 INTRODUCCIÓN
información un bien de mucho valor, razón por la cual la mayoría de las empresas dirigen sus esfuerzos a protegerla pues su pérdida ya sea parcial o total provoca muchos perjuicios.
En la actualidad las empresas tienden a buscar sistemas de almacenamiento tanto temporal como permanente para la información que generan. Por lo general se almacenan datos del tipo dato-escritura que son los que nunca más se los usa, solo se los almacena en un disco duro; en el mejor de los casos se almacena datos del tipo dato-escritura-lectura es decir se los almacena y utiliza para hacer algún tipo de consulta dirigida; pero surge la necesidad de tener un dato del tipo dato-escritura-lectura-análisis que proporciona un verdadero conocimiento y se convierte en un apoyo para la toma de decisiones.
La Figura 1. muestra la jerarquía entre los datos, la información y el conocimiento
Figura 1. Relación entre dato, información y conocimiento
De la Figura 1. se deduce que los datos son la materia prima, cuando el usuario le da un enfoque especial se convierte en información, pero cuando se agrega un valor más a la información se obtiene el conocimiento.
Para poder encontrar conocimiento a partir de los datos se implementa el proceso conocido como KDD (Knowledge Discovery in Database) cuya traducción es el Descubrimiento de Conocimiento en Bases de Datos.
El proceso KDD consta de tres etapas: 1. Pre-procesamiento de los datos. 2. Minería de Datos.
3. Pos-procesamiento de los resultados.
En el pre-procesamiento se realizan correcciones de los datos incorrectos e incompletos. Así se elimina el ruido que contengan los datos.
En el pos-procesamiento con los resultados de la minería de datos se elaboran patrones que se evalúan, interpretan y visualizan para obtener conocimiento. Se puede ver en la Figura 2. que el Data Mining o Minería de Datos es un proceso dentro del KDD, trabaja a nivel de conocimiento buscando patrones de comportamiento, agrupaciones, secuencias y tendencias.
Figura 2. Proceso KDD
El término KDD está directamente relacionado con la minería de datos, pero no son sinónimos pues existen claras diferencia entre los dos.
El proceso de minería de datos consiste en la aplicación de un algoritmo para extraer patrones de datos, en cambio el KDD es un proceso completo donde una de sus fases es la minería de datos.
2.3
DATA MINING
Es una metodología diseñada para generar conocimiento a partir de datos, encontrar relaciones ocultas entre variables o prever comportamientos; mediante un proceso que combina métodos y herramientas de bases de datos, estadística e inteligencia artificial aplicados sobre grandes cantidades de información. (TECNOLOGI@ HECHA PALABRA, 2010)
Data Mining o Minería de Datos se puede definir como un proceso utilizado para el descubrimiento de información útil y entendible en grandes cantidades de datos.
2.3.1 ETAPAS DE DATA MINING
Figura 3. Etapas del Datamining
El proceso de minería de datos se compone de las siguientes etapas:
1. Selección y pre-procesado de datos: Realiza un filtrado de los datos mediante eliminación de valores incorrectos, no válidos, desconocidos, incompletos; de esto dependerá el algoritmo a utilizarse, también se obtienen muestras para obtener una mayor velocidad de respuesta.
2. Selección de variables: Básicamente se emplean dos métodos:
a. Elegir los mejores atributos del problema.
b. Buscar variables independientes mediante test de sensibilidad, algoritmos de distancia o heurísticos.
3. Extracción de conocimientos: Se obtiene un modelo de conocimiento que representan patrones de comportamientos, observados en los valores de las variables a través de técnicas propias de minería de datos. Las técnicas más usadas son:
a. Redes neuronales artificiales: Son modelos predecibles no-lineales que aprenden a través de entrenamiento y semejan la estructura de una red neuronal biológica.
c. Algoritmos genéticos: Son técnicas de optimización que usan procesos como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.
d. Método del vecino más cercano: Es una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano.
e. Regla de inducción: Es “la extracción de reglas if-then de datos basados en significado estadístico.” (Presser, 2013)
4. Interpretación y evaluación: Se procede a validar el modelo de conocimiento obtenido comprobando si los resultados son válidos y satisfactorios.
2.3.2 UTILIDAD DE LA APLICACIÓN DE MINERÍA DE DATOS
El proceso de Minería de datos se puede utilizar para:
1. Detectar fraudes en empresas de telecomunicaciones, tarjetas de crédito, compañías de seguros entre otras.
2. Optimizar campañas de marketing, describir y segmentar clientes, predecir la fidelidad de los clientes con cierto producto o empresa.
3. En la industria del comercio para diseñar y evaluar campañas de
4. En la medicina, se utiliza la minería de datos para pronosticar cuán efectivos son los procedimientos quirúrgicos, los exámenes médicos o los medicamentos.
2.4
SISTEMAS DE INFORMACIÓN
Figura 4. Sistemas de información
(Dominguez, 2013)
Los sistemas de información se dividen en:
2. Sistemas Tácticos: Se utilizan para la coordinación de actividades y manejo de documentación, entre los principales se encuentran: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería ( E-mail y Fax Server), Coordinación y control de tareas (Work Flow) y Tratamiento de documentos (Imagen, Trámite y Bases de Datos).
3. Sistemas Técnico-Operativos: Se utilizan para operaciones o transacciones permanentes con tareas definidas, entre los principales se encuentran: contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos. Este tipo de datos está evolucionando con la llegada de sensores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y Datawarehouse.
4. Sistemas Interinstitucionales: Surgen por la necesidad del desarrollo de las organizaciones hacia un mercado global es decir es necesario implementar medios de comunicación entre la organización y el mercado en una red global. (Dominguez, 2013)
2.5
DIFERENCIA ENTRE OLTP Y
DATAWAREHOUSE
Las aplicaciones OLTP (aplicación de transacciones en línea) están organizadas para ejecutar las operaciones para las cuales fueron creadas por ejemplo para registrar la venta de un inmueble, para realizar pagos de sueldo. Un Datawarehouse está organizado por conceptos por ejemplo por clientes, por productos. Otra diferencia está en el número de usuarios; en una aplicación OLTP acceden cientos de usuarios simultáneamente, a un Datawarehouse
Tabla 1. OLTP vs DATAWAREHOUSE
OLTP
DATAWAREHOUSE
Orientada a transacciones Orientada a conceptos
Detallada Sumarizada
Actualizada en línea Representa valores a un tiempo
Usuarios de nivel operativo Usuarios a nivel gerencial
Corre en base a repeticiones Corre heurísticamente
Muy sensitivo al desempeño Poco sensitivo al desempeño
Accede a unidades a la vez Accede conjuntos de unidades a la vez
Orientada a operación Orientado a análisis
Estructura estática Estructura flexible
Sin redundancia Con mucha redundancia
Alta probabilidad de acceso Modesta probabilidad de acceso
Administrada como un todo Administrada por partes
Información bruta (Datos) Información procesada (información)
Actualizada en línea Actualizada en batch
Muchas tablas con pocas columnas Pocas tablas con muchas columnas
La Figura 5. Muestra la comparación entre los sistemas transaccionales tradicionales y un Datawarehouse:
Figura 5. Sistemas transaccionales vs Datawarehouse
(Herrera, 2007)
La Tabla 2. proporciona las diferencias entre una base de datos operacional y un Datawarehouse.
Tabla 2. Base de Datos Operacional vs Datawarehouse
BASE DE DATOS OPERACIONAL
DATAWAREHOUSE
Datos Operacionales Datos del negocio para información
Orientado a la a Aplicación Orientado al Sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
2.6
DATAWAREHOUSE
Figura 6.Datawarehouse
(Herrera, 2007)
Es un repositorio de datos de fácil acceso, orientado a toma de decisiones empresariales, contiene una colección integrada de datos, no volátil y variable en el tiempo, es decir es un expediente completo de una organización. Se alimenta de distintas fuentes mediante grupos de información de temas específicos del negocio, permite realizar nuevas consultas, análisis, reportes y facilita la toma de decisiones.
2.6.1 PROCESOS BÁSICOS DEL DATAWAREHOUSE (ETL)
1. Extracción: Se encarga de obtener los datos desde las fuentes internas y externas.
2. Transformación: Se realiza el filtrado, limpieza, depuración, homogeneización y agrupación de la información.
3. Carga: Se organizan, se actualizan, los datos y metadatos en la base de datos final.
Data Source A
Data Source B
Data Source C
2.6.2 ELEMENTOS IMPORTANTES DE UN DATAWAREHOUSE
2.6.2.1 Metadatos
Denominados como “datos acerca de los datos”, describen la estructura de los datos que van a ser almacenados y como se relacionan. Su función es recoger todas las definiciones de la empresa u organización, tener toda la información correspondiente a tablas, jerarquías y dimensiones de datos, entidades y relaciones.
2.6.2.2 Datamart
Figura 7. Datamart
(Dario, DATAPRIX, 2012)
Tabla 3. Características de un Datamart
CARACTERÍSTICAS
Usuarios limitados Área específica Propósito específico
Función de apoyo
(SS1USAC, 2011)
Tabla 4. Ventajas de un Datamart
VENTAJAS
Poco volumen de datos Mayor rapidez de consulta Validación directa de la información Facilidad para la historización de los datos
(SS1USAC, 2011)
2.6.3 TIPOS DE DATAMART
2.6.3.1 Datamart OLAP
2.6.3.2 Datamart OLTP
Pueden basarse en un simple extracto del Datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento para así aprovechar las características particulares de cada área de la empresa. (SS1USAC, 2011)
2.6.4 CUBOS DE INFORMACIÓN
Figura 8. Cubos de información
(ISRA, 2013)
Ventajas
1. Al ser una estructura jerárquica es de fácil comprensión para la mente humana.
2. Si el cubo está bien diseñado se tendrán consultas con tiempos de respuestas muy cortos.
2.6.5 OBJETIVOS DE UN DATAWAREHOUSE
El objetivo general de un Datawarehouse es almacenar y proveer a la organización de información relevante con cero tiempo de espera.
Objetivos específicos:
1. Tener información accesible: Para ello la información debe tener tres características ser entendible, navegable y con un rápido desempeño; entendible significa que los datos sean correctos y obvios; navegable significa llegar a donde se necesite con un solo clic y rápido desempeño es tener cero tiempo de espera.
2. Tener información consistente: Significa tener información de alta calidad es decir que sea actualizada, completa y exacta.
3. Proteger los valores de la información: Controla el acceso a los datos y da a los dueños de la información gran visibilidad del uso y abuso de los datos.
2.6.6 CARACTERÍSTICAS DE UN DATAWAREHOUSE
2.6.6.1 Orientado al tema
La información se organiza en base a los temas de interés de la empresa. De esta forma se consigue generar atención hacia las áreas claves del negocio.
Figura 9. Característica - Orientado al tema
2.6.6.2 Integrado
La información debe tener codificaciones en las estructuras claves, en sus características, convenciones de nombres entre otros; un dato debe tener una descripción y codificación única generalmente la etapa de integración es compleja, larga y pesada.
Figura 10. Característica – Integrado
(Herrera, 2007)
2.6.6.3 Datos históricos
2.6.6.4 No volátil
Esta característica es el resultado de tener datos históricos, donde una misma consulta realizada con intervalos de tiempo da el mismo resultado.
Figura 11. Característica Históricos-No volátil
(Herrera, 2007)
2.6.7 CUÁNDO CONSTRUIR UN DATAWAREHOUSE
Se debe realizar una solución Datawarehouse cuando se tiene: 1. Sistemas no integrados.
2. Múltiples e incompatibles estructuras de datos.
4. Manejo de información histórica.
5. Es necesario proveer una vista única del negocio.
2.6.8 BENEFICIOS DE UNA SOLUCIÓN DATAWAREHOUSE
Los principales beneficios son:
1. Confianza en el uso: El incremento en la rapidez de las consultas afianzará el uso de los sistemas operativos de la empresa.
2. Reducción en tiempos de consultas: Reduce tiempos de espera por parte de los usuarios.
3. Apoyo a la toma de decisiones: Los empresarios tendrán a la mano los resúmenes de información para armar reportes comparativos, utilizando los indicadores más comunes de la empresa, para apoyarse en la toma de decisiones.
2.6.9 ESTRUCTURA DE UN DATAWAREHOUSE
Los componentes de un Datawarehouse son:
1. Detalle de datos actuales: Son los de mayor interés debido a que refleja las ocurrencias más recientes, es voluminoso pues almacena los datos al más bajo nivel de granularidad, por lo general están almacenados en el disco por lo cual es de fácil acceso.
3. Datos ligeramente resumidos: Son aquellos provenientes de un nivel más bajo de los detalle de datos actuales generalmente se almacenan en disco.
4. Datos completamente resumidos: Se caracterizan por ser compactos y de fácil acceso.
5. Metadata: Es el componente final. Su contenido no se toma directamente desde un ambiente operacional. La metadata proporciona información sobre los datos almacenados en el Datawarehouse.
Figura 12. Estructura de un Datawarehouse
Figura 13. Componentes del Datawarehouse
(Sanz, 2010)
2.6.10 ARQUITECTURA DE UN DATAWAREHOUSE
La manera como se realiza la estructura de almacenamiento de datos en un
Modelos de Arquitectura:
Arquitectura Datawarehouse básica.
Arquitectura Datawarehouse con área de organización.
Arquitectura Datawarehouse con área de organización y Datamart.
2.6.10.1 Arquitectura Datawarehouse Básica
Figura 14. Arquitectura de un Datawarehouse
(Sanz, 2010)
En la Figura 14. en el Datawarehouse están los datos sin procesar (Raw Data) y los datos resumen (summary data), tienen menor volumen que los datos detallados por lo tanto son más fáciles de gestionar, permiten realizar operaciones anticipadamente también generar análisis evitando que no se repitan los ya existentes.
2.6.10.2 Arquitectura Datawarehouse con Área de Organización
Figura 15. Arquitectura Datawarehouse con Área de Organización
(Sanz, 2010)
Es necesario limpiar y procesar los datos antes que sean introducidos al
2.6.10.3 Arquitectura Datawarehouse con Área de Organización y
Datamart
Figura 16. Arquitectura Datawarehouse con Área de Organización y Datamart
(Sanz, 2010)
2.6.11 MODELOS DE DATAWAREHOUSE
Mediante los modelos se puede describir:
El tipo de los datos que hay en la base y la forma en que se relacionan.
Las condiciones que los datos deben cumplir para conseguir el resultado deseado.
2.6.11.1 Esquema de Estrella
Figura 17. Esquema de Estrella
(Pete Chapman, 2007)
Es uno de los esquemas más sencillos de almacenamiento de datos, denominado así porque su diagrama parece una estrella consta de una tabla de hechos y los puntos de la estrella son las tablas de dimensiones.
Tablas de dimensión: deben estar totalmente normalizadas, contienen los atributos de nivel y de dimensión.
La tabla de hechos se conecta a la tabla de dimensiones mediante joins (claves foráneas), las tablas de dimensión únicamente hacen join con la tabla de hechos.
Mediante el modelo se tienen: mejor tiempo de repuesta, diseño modificable, paralelismo entre su diseño y la forma en que los usuarios trabajan con los datos, ayuda a la interacción con herramientas de consulta y análisis.
2.6.11.2 Esquema en copo de nieve:
Figura 18. Esquema en copo de nieve
(Pete Chapman, 2007)
relacionada con una o más tablas de dimensiones, quienes a su vez pueden estar relacionadas o no con una o más tablas de dimensiones. Su implementación puede ser más compleja, pero útil cuando existen muchas tuplas, las tablas al estar normalizadas hacen más fácil realizar el diseño para lograr una mejor distribución del espacio.
En modelo puede presentar algunas desventajas debido a las jerarquías, convertirse en inmanejable, al existir muchas relaciones entre las tablas y con ello afectar su desempeño.
2.6.11.3 Modelo Constelación
Figura 19. Modelo Constelación
(Pete Chapman, 2007)
problemas cuando el número de tablas vinculadas aumenta, su arquitectura tiende a ser muy compleja y difícil de mantener; también porque no es soportado por todas las herramientas de consulta y análisis.
2.7
METODOLOGÍA CRISP-DM
CRISP-DM (Cross-Industry Standard Process for Data Mining) fue creada por Empresas de Dinamarca, Alemania, Inglaterra y Holanda con el objetivo de conseguir una metodología orientada a la empresa en la cual su prioridad es la comprensión del negocio.
2.7.1 FASES DE LA METODOLOGÍA CRISP-DM
Figura 20. Modelo de proceso CRISP
2.7.1.1 Comprensión del negocio (Objetivos y requerimientos desde una
perspectiva no técnica)
Figura 21. Comprensión del negocio Metodología CRISP-DM
(Peralta, 2009)
1. Establecimiento de los objetivos del negocio: Es necesario tener claro los objetivos específicos que tiene la empresa y lo que se espera obtener al llegar a cumplir dichos objetivos.
3. Establecimiento de los objetivos de la minería de datos: Se definen objetivos técnicos de acuerdo a las definiciones de la Minería de Datos.
4. Generación del plan del proyecto: Se establece un plan para conseguir los objetivos de Minería de Datos que van de la mano de los objetivos de la empresa; se define las herramientas, el equipo, las técnicas a emplearse para conseguir su ejecución.
2.7.1.2 Comprensión de los datos (Familiarizarse con los datos teniendo
presente los objetivos del negocio)
Figura 22. Comprensión de los datos Metodología CRISP-DM
1. Recopilación inicial de datos: Se realiza una revisión de los datos que fueron previamente seleccionados, se registrarán los inconvenientes e inconsistencias que presenten en dicha recopilación, dentro de un informe.
2. Descripción de los datos: Se detalla en un informe la calidad, el formato, el número de datos, si son veraces o no, si poseen integridad y si es necesario se deben adjuntar observaciones que se consideren importantes.
3. Exploración de los datos: Se identifican los datos con los cuales se va a trabajar, determinando si son importantes para aplicar las técnicas de Minería de Datos y para generar reportes de acuerdo a los objetivos que se plantearon.
4. Verificación de calidad de datos: Se validan los datos seleccionados realizando pruebas que permitan valorar si los datos son los adecuados o si deben ser cambiados porque pueden producir errores en los resultados, también se puede presentar el caso que los datos sean insuficientes y sea necesario agregar más datos.
2.7.1.3 Preparación de los datos (Obtener la vista minable o dataset)
1. Selección de los datos: Se toman los datos necesarios para desarrollar el proyecto, dependen directamente de los objetivos a cumplirse, puede ocurrir que en el proceso de desarrollo se requiera seleccionar nuevos datos.
Figura 23. Preparación de los Datos Metodología CRISP-DM
(Peralta, 2009)
3. Construcción de datos: Si fuera necesario se ejecutan operaciones para realizar modificaciones a los datos, se pueden agregar registros o crear tablas; la realización de todos los cambios deben estar debidamente justificados.
5. Formateo de datos: Se debe justificar y detallar sobre los datos que han sido modificados, eliminados o agregados, o si se realizaron alteraciones dentro de las tablas.
2.7.1.4 Modelado (Aplicar las técnicas de minería de datos a los dataset)
Figura 24. Modelado Metodología CRISP-DM
(Peralta, 2009)
2. Generación de pruebas de modelo: Se realizan pruebas con solo una muestra de datos para validar la técnica de modelado seleccionada.
3. Construcción del modelo: Se desarrolla el modelo seleccionado.
4. Evaluación del modelo: Generalmente la persona que está a cargo del proyecto evalúa si las técnicas aplicadas han generado los resultados esperados para cumplir con los objetivos del proyecto.
2.7.1.5 Evaluación (De los modelos de la fase anteriores para determinar
si son útiles a las necesidades del negocio)
Figura 25. Evaluación Metodología CRISP-DM
1. Evaluación de resultados: Se validan si los resultados obtenidos son los que se necesitaban para cumplir con los objetivos del proyecto, también se evalúan los recursos y el tiempo utilizado.
2. Revisar el proceso: Se analizan los resultados de la evaluación, generalmente se realizan cambios al aparecer nuevas necesidades, la factibilidad de estos cambios debe ser cuidadosamente analizada.
3. Establecimiento de los siguientes pasos o acciones: La persona o personas encargadas del proyecto deberán tomar la decisión sobre las acciones futuras y los resultados que esperan obtener.
2.7.1.6 Despliegue (Explotar utilidad de los modelos, integrándolos en las
tareas de toma de decisiones de la organización)
1. Planificación de despliegue: Se elabora un cronograma de trabajo para poner el proyecto en funcionamiento.
2. Planificación de la monitorización y del mantenimiento: Se capacita a las personas que van a trabajar con la información obtenida del proyecto.
3. Generación de informe final: Se elabora un resumen con todo el proceso de implementación.
Figura 26. Despliegue o Desarrollo Metodología CRISP-DM
METODOLOGÍA
3.
Para desarrollar una solución Datawarehouse fue necesario aplicar una metodología adecuada para obtener óptimos resultados. La metodología facilitó la planificación, el desarrollo, la ejecución y el control del proyecto.
La metodología seleccionada fue CRISP-DM con sus seis etapas. Comprensión del negocio.
Comprensión de los datos.
Preparación de los datos.
Modelado.
Evaluación.
Despliegue.
3.1
COMPRENSIÓN DEL NEGOCIO
3.2
COMPRENSIÓN DE LOS DATOS
Se realizó la revisión de la base de datos del Sistema de Cartera para conocer la estructura, las relaciones entre tablas, la calidad de los datos. En base a este conocimiento se procedió a la selección de los datos que se utilizaron para el desarrollo del Datawarehouse,
3.3
PREPARACIÓN DE LOS DATOS
Con los datos seleccionados, se efectuó una segunda revisión para evaluar si los datos escogidos fueron suficientes o si es necesario cambiarlos, eliminarlos o agregar más, para cumplir con los requerimientos solicitados. Se realizó con SQL Server y sus herramientas Business Intelligence la evaluación de la calidad de los datos, con los resultados se ejecutaron procesos ETL.
3.4
MODELADO
Con los resultados de la etapa de preparación de los datos se construyó el cubo de información con SQL Server y sus herramientas Business Intelligence con sus respectivas medidas y dimensiones.
3.5
EVALUACIÓN Y DESPLIEGUE
RESULTADOS Y DISCUSIÓN
4.4.1
IMPLANTACIÓN DEL DATAWAREHOUSE
Al aplicar la metodología CRISP-DM se obtuvo los siguientes resultados:
4.1.1 COMPRENSIÓN DEL NEGOCIO
El resultado de la entrevista con el Dr. León Rzonzew Gerente General de la Hipotecaria fue la autorización para realizar las entrevistas a las personas encargadas del sistema de Cartera.
De las entrevistas con Laura Sánchez y Lucía Arévalo se estableció el funcionamiento del sistema para los proyectos inmobiliarios, se analizaron los procesos de ingresos de datos de clientes, ventas, formas de pago, cobros y reportes que genera el sistema. Se identificó que los reportes de los proyectos inmobiliarios que genera el sistema presentan los siguientes problemas: no existe un reporte general, son anuales, solo proporcionan dos tipos de información por cuotas cancelada y valores generados por mora. Cuando es necesario presentar informes globales de los proyectos se debe generar individual por proyecto y luego consolidar la información de manera manual en una hoja de cálculo de Excel, lo mismo ocurre si se quiere tener información completa sobre un proyecto se deben generar varios reportes debido a que son anuales si el proyecto tuvo una duración por ejemplo de septiembre de 2011 a marzo 2013 se debe generar los reportes del 2011, 2012 y 2013 pasarlos a una hoja de cálculo en Excel y manualmente sumar los valores parciales de cada año para obtener un informe global, estos inconvenientes generan una gran pérdida de tiempo.
los valores de: abonos, reservas, mora, pendientes, cancelados, esta información es necesaria para presentar informes al Fideicomiso encargado del proyecto así como para la gerencia comercial de La Hipotecaria para el desarrollo de nuevos proyectos.
Se estableció realizar el proyecto en SQL Server debido a que proporciona un
entorno Business Intelligence Development Studio para desarrollar
construcciones de inteligencia empresarial como cubos, orígenes de datos, informes y paquetes de Integration Services, además porque permite la importación de bases datos desde Access .
4.1.2 COMPRENSIÓN DE LOS DATOS
La Base de Datos del Sistema de Cartera tiene el siguiente diagrama entidad - relación:
Figura 27. Diagrama Entidad – Relación de la base de datos
La calidad de la base de datos es baja debido a que fue desarrollada conforme se presentaban las necesidades y por al menos tres personas distintas, por ello tiene tablas y campos creados sin ninguna utilidad.
En el primer análisis de la base de datos se estableció que las tablas que contienen la información necesaria para cumplir con los requerimientos son: cliente, crédito, forma de pago, venta pago y ciudad.
.
4.1.3 PREPARACIÓN DE LOS DATOS
4.1.3.1 Selección de los Datos
Se efectuó una segunda evaluación donde se estableció que las tablas seleccionadas no eran suficientes para obtener la información desea entonces fue necesario agregar las tablas proyecto, datos inmuebles, estado de pago y tipo de pago.
El primer paso fue llevar las tablas seleccionadas a SQL Server 2008. Para esta tarea se tuvieron dos opciones desde SQL a Access o desde Access a SQL.
Al tomar la primera opción se realizó la importación desde SQL Server 2008 R2 mediante el asistente de SQL, dando como resultado el paso de las tablas pero no de las relaciones entre ellas.
Se probó con la segunda opción, se realizó la importación de las tablas desde
Access a SQL server 2008 R2 mediante el asistente de Access 2003 que es una versión compatible con Access 2000.
Figura 28. Exportación de la Base de Datos desde Access
(Access, 2003)
Se creó una nueva base de datos.
Figura 29. Pantalla Exportación - Asistente para convertir a SQL Server
Se seleccionó el servidor, se dio un nombre CARTERA_LA_HIPOTECARIA para la base de datos en SQL Server.
Figura 30. Pantalla Exportación-Elegir el servidor SQL
(Access, 2003)
Se seleccionaron las tablas de la base de datos CarteraProyectos.
Figura 31. Pantalla Exportación-Selección de tablas
Se seleccionaron los atributos de las tablas.
Figura 32. Pantalla Exportación-Elegir atributos
(Access, 2003)
Se ejecutó a la exportación.
Figura 33. Pantalla Exportación-Ejecutar
Cuando se terminó la exportación, se generó un archivo en Word que proporcionó detalles de la exportación tabla por tabla.
Figura 34. Pantalla Exportación-Documentación
(Access, 2003)
En el documento se encontró una notificación que no se logró la exportación de la tabla VPAG (Valor de Pago).
Figura 35. Pantalla Exportación-Documento
Para llevar esta tabla a SQL Server se utilizó el asistente para importar de
SQL Server 2008 pero también dio un informe de error y no permitió hacerlo pero se identificó que las columnas VP_FCTA, VP_FPAG, VP_FPRO, VP_FMOR son las tablas que impidieron la importación, debido a una incompatibilidad en el formato datatime. Access tiene un formato del tipo día, mes y año, el SQL se maneja un formato mes, día y año, esto generó un error de desbordamiento de datos.
El error específicamente se produjo cuando había campos vacíos, se procedió a eliminar este tipo de datos directamente en Access, y se realizó nuevamente a la importación con el asistente de SQL.
Se obtuvo la base de datos con todas las tablas en SQL Server 2008.
Figura 36. Pantalla Verificación de la Base de Datos en SQL Server
4.1.3.2 Calidad de los Datos
Mediante el Data Profiling una herramienta propia del Busines Intelligence se verificó la calidad de los datos, se creó un proyecto de Integration Services.
Figura 37. Pantalla Calidad de Datos-Nuevo Proyecto
(SQLBI, 2008)
La tarea Data Profiling necesita una conexión utilizando el provider ADO.NET
con la base de datos de SQL Server 2008.
Figura 38. Pantalla Calidad de Datos-Conexión a la base
En el Flujo de Control desde el cuadro de Herramientas se colocó la Tarea de generación de perfiles de datos.
Figura 39. Pantalla Calidad de Datos-Tarea Perfiles de datos
(SQLBI, 2008)
Se seleccionaron la tabla y los perfiles a utilizarse.
Figura 40. Pantalla Calidad de Datos-Selección Perfiles
Se creó un archivo XML para almacenar los resultados.
Figura 41. Pantalla Calidad de Datos-Crear archivo
(SQLBI, 2008)
Se le dio un nombre al archivo xml.
Figura 42. Pantalla Calidad de Datos-Archivo xml
Se procesó el paquete Integración Services.
Figura 43. Pantalla Calidad de Datos-Ejecución Tarea
(SQLBI, 2008)
De la misma forma se procedió para cada una de las tablas.
Figura 44. Pantalla Calidad de Datos-Ejecución correcta
4.1.3.3 Evaluación de la calidad de los Datos
Para visualizar los archivos xml generados por Data Profile se usó Data Profile Viewer y se procedió a evaluar los resultados.
Figura 45. Calidad de Datos-Pantalla Inicio
(SQLBI, 2008)
Se abrió el archivo xml y se visualizó el análisis de los perfiles de cada una de las tablas.
Figura 46. Pantalla Calidad de Datos-Visor de perfil de datos
1. Perfiles de claves candidatas
Figura 47. Pantalla Calidad de Datos-Perfil claves candidatas
(DataProfileViewer, 2008)
Proporcionó parámetros para evaluar si la columna o conjunto de columnas es una clave, o una clave aproximada, para la tabla seleccionada.
2. Perfiles de dependencia funcional
Figura 48. Pantalla Calidad de Datos- Perfiles de dependencia funcional (DataProfileViewer, 2008)
3. Perfiles de distribución de longitud de columnas
Figura 49. Pantalla Calidad de Datos- Perfiles de distribución de longitud de columnas (DataProfileViewer, 2008)
Proporcionó valores de las longitudes de las cadenas de cada columna y el porcentaje de filas de la tabla que representa cada longitud.
4. Perfiles de distribución de valores de columna
Figura 50: Pantalla Calidad de Datos- Perfiles de distribución de valores de columna (DataProfileViewer, 2008)
5. Perfiles de estadísticas de columna
Figura 51. Pantalla Calidad de Datos- Perfiles de estadísticas de columna (DataProfileViewer, 2008)
Proporcionó estadísticas de valores mínimo, máximo, medio y la desviación estándar para las columnas numéricas.
6. Perfiles de patrón de columnas
Figura 52. Pantalla Calidad de Datos- Perfiles de patrón de columnas (DataProfileViewer, 2008)
7. Perfiles de proporción de columnas NULL
Figura 53. Pantalla Calidad de Datos- Perfiles de proporción de columnas NULL (DataProfileViewer, 2008)
Proporcionó el porcentaje de valores nulos en la columna seleccionada. Este perfil permite identificar problemas con los datos, como proporción inesperadamente alta de valores nulos en una columna.
4.1.3.4 Proceso ETL
En SQL Server Business Intelligence se creó un Nuevo proyecto
Figura 54. Pantalla Nuevo Proyecto
(SQLBI, 2008)
Se seleccionó la opción Proyecto de Integration Services con el nombre
DATAWAREHOUSE_LAHIPOTECARIA_ETL.
Figura 55. Pantalla Nuevo Proyecto
Se creó un Nuevo paquete SISS llamado DATOSCLIENTE.
Figura 56. Pantalla Proceso ETL-Crear paquete SSIS
(SQLBI, 2008)
En la pestaña Flujo de datos, del Cuadro de herramientas, Orígenes de flujo de Datos arrastramos el elemento Origen de OLE DB.
Figura 57. Pantalla Proceso ETL-Origen de datos
Se le dio un nombre ORIGEN DE DATOS CLIENTE, se configuró la conexión CARTERA_LAHIPOTECARIA y seleccionó la tabla.
Figura 58. Pantalla Proceso ETL-Conexión Base Origen
(SQLBI, 2008)
Se seleccionaron las columnas.
Figura 59. Pantalla Proceso ETL-Asignación de columnas
Mediante vista previa se verificó que sean los datos requeridos.
Figura 60: Pantalla Proceso ETL-Vista Previa Datos Origen
(SQLBI, 2008)
Se colocó un segundo elemento de la pestaña Transformaciones de flujo de datos, Conversión de datos. Se cambió el nombre a TRANSFORMACIÓN DE DATOS CLIENTE, y se conectó las dos herramientas.
Figura 61. Pantalla Proceso ETL-Transformación de datos
Se configuraron las columnas a utilizarse.
Figura 62. Pantalla Proceso ETL-Configuración columnas
(SQLBI, 2008)
Se colocó un tercer elemento desde la pestaña de Destino de Flujo de datos, Destino de OLE DB, se cambió el nombre por DESTINO DE DATOS CLIENTE.
Figura 63. Pantalla Proceso ETL-Destino de datos
Se creó una base de datos en SQL Server 2008 donde se almacenaron las dimensiones que resultaron de la transformación de los datos.
Se configuró la conexión con la base de datos LA_HIPOTECARIA_CARTERA, se creó la tabla dimensión con un nombre DIM_CLIENTE.
Figura 64. Pantalla Proceso ETL-Creación de la Base Destino
(SQLBI, 2008)
Se verificaron las asignaciones.
Figura 65. Pantalla Proceso ETL-Asignación columnas destino
Desde una vista previa se observó si las columnas fueron creadas correctamente.
Figura 66. Pantalla Proceso ETL-Verificación de los campos
(SQLBI, 2008)
Se ejecutó el paquete.
Figura 67. Pantalla Proceso ETL-Ejecutar paquete
El color verde indica que el proceso se ejecutó correctamente.
Figura 68. Pantalla Proceso ETL-Proceso finalizado correctamente
(SQLBI, 2008)
Se procedió de la misma forma con todas las tablas y en SQL Server 2008, entonces se obtuvo la base LA_HIPOTECARIA_CARTERA con todas sus tablas.
Figura 69. Pantalla Proceso ETL-Verificación de tablas en SQL
4.1.4 MODELADO
4.1.4.1 Creación del Datawarehouse
En SQL Server Business Intelligence se creó un Nuevo proyecto
Figura 70. Pantalla Datawarehouse-Nuevo Proyecto
(SQLBI, 2008)
Se seleccionó la opción Proyecto de Analysis Services con el nombre
DATAWAREHOUSE_LAHIPOTECARIA.
Figura 71. Pantalla Datawarehouse-Nombre del Proyecto
Figura 72. Pantalla Datawarehouse-LAHIPOTECARIA
(SQLBI, 2008)
a) Origen de Datos
Se creó un nuevo origen de datos
Figura 73. Pantalla Datawarehouse-Origen de datos
Figura 74. Pantalla Datawarehouse-Asistente
(SQLBI, 2008)
Se creó la conexión.
Figura 75. Pantalla Datawarehouse-Conexión
Se colocó el proveedor, el servidor, la base de datos y se probó la conexión.
Figura 76. Pantalla Datawarehouse-Probar conexión
(SQLBI, 2008)
Se seleccionó la conexión.
Figura 77. Pantalla Datawarehouse-Seleccionar conexión
Se seleccionó la opción Utilizar la cuenta de servicio.
Figura 78. Pantalla Datawarehouse-Información de suplantación
(SQLBI, 2008)
Se estableció un nombre para el origen de datos.
Figura 79.Pantalla Datawarehouse-Nombre del origen de datos
Figura 80. Pantalla Datawarehouse-Creación correcta
(SQLBI, 2008)
b) Vista del origen de datos.
Se creó una Nueva vista del origen de datos.
Figura 81. Pantalla Datawarehouse-Crear vista de datos
Figura 82. Pantalla Datawarehouse-Asistente
(SQLBI, 2008)
Se seleccionó el origen de datos.
Figura 83. Pantalla Datawarehouse-Conexión
Se seleccionaron las tablas.
Figura 84. Pantalla Datawarehouse-Selección de tablas
(SQLBI, 2008)
Se estableció un nombre para la vista de origen de datos.
Figura 85. Pantalla Datawarehouse-Nombre de la vista
Se visualizó el esquema Copo de Nieve
Figura 86. Pantalla Datawarehouse-Tablas
(SQLBI, 2008)
Se eliminaron todos los objetos de la vista.
Figura 87. Pantalla Datawarehouse-Eliminar tablas
Se creó una nueva consulta.
Figura 88. Pantalla Datawarehouse-Consulta con nombre
(SQLBI, 2008)
Se seleccionaron las tablas y se realizaron varias pruebas de consultas hasta que se obtuvieron los resultados esperados.
Figura 89. Pantalla Datawarehouse-Consulta
c) Cubo.
Se creó un Nuevo cubo.
Figura 90. Pantalla Datawarehouse-Cubo
(SQLBI, 2008)
Mediante el asistente.
Figura 91. Pantalla Datawarehouse-Asistente
Se seleccionó la opción Crear un cubo vacío.
Figura 92. Pantalla Datawarehouse-Crear cubo vacío
(SQLBI, 2008)
Se seleccionó la vista del origen de datos que se creó.
Figura 93. Pantalla Datawarehouse-Selección de la vista
Se dio un nombre para el cubo.
Figura 94. Pantalla Datawarehouse-Nombre del cubo
(SQLBI, 2008)
Se colocó una nueva medida.
Figura 95. Pantalla Datawarehouse-Agregar medida
Figura 96. Pantalla Datawarehouse-Medida
(SQLBI, 2008)
Se crearon dimensiones.
Figura 97. Pantalla Datawarehouse-Crear dimensión
Mediante el asistente.
Figura 98. Pantalla Datawarehouse-Asistente
(SQLBI, 2008)
Se seleccionó la opción Usar una tabla existente.
Figura 99. Pantalla Datawarehouse-Método de creación
Se seleccionó la vista de origen de datos, la tabla principal y la columna de clave.
Figura 100. Pantalla Datawarehouse-Información de origen de datos
(SQLBI, 2008)
Se seleccionó el atributo para la dimensión.
Figura 101. Pantalla Datawarehouse-Atributo de la dimensión
Se dio un nombre a la dimensión.
Figura 102. Pantalla Datawarehouse-Nombre dimensión
(SQLBI, 2008)
Figura 103. Pantalla Datawarehouse-Dimensión
Se crearon todas las dimensiones necesarias y se agregaron al cubo.
Figura 104. Pantalla Datawarehouse-Agregar dimensiones
(SQLBI, 2008)
Figura 105. Pantalla Datawarehouse-Seleccionar dimensiones
Se procesó el cubo.
Figura 106. Pantalla Datawarehouse-Procesar el cubo
(SQLBI, 2008)
Se seleccionó la opción sí.
Figura 107. Pantalla Datawarehouse-Implementación
Se seleccionó la opción Ejecutar.
Figura 108.Pantalla Datawarehouse-Ejecutar
(SQLBI, 2008)
Se mostró el resultado del cubo procesado correctamente.
Figura 109. Pantalla Datawarehouse-Progreso del proceso
4.1.5 EVALUACIÓN Y DESPLIEGUE
En la pestaña examinador se colocaron las medidas y dimensiones para obtener el reporte requerido.
Figura 110. Pantalla Datawarehouse-Examinador del cubo
(SQLBI, 2008)
Figura 111. Pantalla Datawarehouse-Examinador del cubo