“IMPLEMENTACIÓN DE UN DATA WAREHOUSE APLICABLE A MINERÍA DE PROCESOS PARA EL REGISTRO DE DATOS DE LA COMISIÓN DE TITULACIÓN”

(1)

UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ

FACULTAD DE CIENCIAS TÉCNICAS

CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN

PROYECTO DE TITULACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE

INGENIERA EN TECNOLOGÍAS DE LA INFORMACIÓN

TEMA

“IMPLEMENTACIÓN DE UN DATA WAREHOUSE APLICABLE A MINERÍA DE PROCESOS PARA EL REGISTRO DE DATOS DE LA COMISIÓN DE TITULACIÓN”

AUTORA

HERNÁNDEZ ESPINOZA MARILYN XIOMARA

TUTOR

ING. LENIN JONATAN PIN GARCÍA, PhD

JIPIJAPA – MANABÍ – ECUADOR

2022

(2)

(3)

(4)

(5)

(6)

DEDICATORIA

Dedico esta tesis a mi mayor tesoro, a mi hijo en el cielo, a quien le prometí levantarme y terminar esta meta, a mi esposo por estar apoyándome en todo este proceso para tener un mejor futuro para nuestra familia, a mis padres y hermanos por su comprensión, sus valores y principios formaron la persona que soy, además estuvieron pendientes en este proceso dándome motivaciones.

Hernandez Espinoza Marilyn Xiomara

(7)

AGRADECIMIENTO

Quiero empezar agradeciéndole a Dios por darme la increíble familia que tengo y una nueva oportunidad de vida, a mis padres por la confianza de logro, a mi esposo por el apoyo total para no abandonar esta meta, a mis compañeros de aula por su amistad y conocimientos compartidos, mi mayor agradecimiento a los docentes que con su paciencia impartieron su conocimiento para poder cumplir esta meta y ser una gran profesional además poder llegar hasta aquí y estar en estos momentos redactando estas líneas, también agradecerles a las personas que dijeron que por el hecho de ser mujer no podía, gracias sus palabras fueron impulso para demostrar que todos podemos sin importar el género.

Hernandez Espinoza Marilyn Xiomara

(8)

RESUMEN

Data Warehouse es un repositorio electrónico donde una empresa u organización suele tener grandes cantidades de información, los datos en el Data Warehouse o almacén de datos deben almacenarse de manera segura, confiable, fácil de recuperar y administrar. Las principales características de este tipo de almacenes es que son integrados, históricos, no volátiles y objetivos. El flujo de trabajo de extracción, transformación y carga (ETL) se introdujo como una metodología para obtener información. El proyecto se puede categorizar como exploratorio y de factibilidad; recolectando información general, adicional al análisis de las causas del problema. La técnica utilizada para recabar información fue la encuesta, la cual se aplicó a los docentes de la carrera, para dar solución al problema dentro de la entidad. En la Carrera de Tecnologías de la Información de la Universidad Estatal del Sur de Manabí, se conoce que el registro de la comisión es mediante hojas de cálculo en la nube de google, siendo está un poco tediosa por tal razón se vio a la necesidad de implementar un data warehouse aplicable a minería de procesos para el registro de datos, los beneficiario de la implementación será en particular la Carrera de Tecnologías de la información.

Palabras Claves: Almacén de datos, registro de datos, minería de procesos, ETL.

(9)

ABSTRACT

Data Warehouse is an electronic repository where a company or organization usually has large amounts of information, the data in the Data Warehouse must be stored in a secure, reliable, easy to retrieve and manage way. The main characteristics of this type of warehouse are integrated, historical, non-volatile and objective. The extract, transform, and load (ETL) workflow was introduced as a methodology for obtaining insights. The project can be categorized as exploratory and feasibility; collecting general information, additional to the analysis of the causes of the problem. The technique used to collect information was the survey, which was applied to the teachers of the career, to solve the problem within the entity. In the Information Technology Career of the South Manabí State University, it is known that the registration of the commission is through spreadsheets in the google cloud, it is being a bit tedious for this reason the need was seen to implement a data warehouse applicable to process mining for data recording, the beneficiaries of the implementation will be in particular the Information Technology Career.

Keywords: Data warehouse, data logging, process mining, ETL.

(10)

INDICE

TÍTULO DEL PROYECTO ... 1

CAPÍTULO I. ASPECTOS GENERALES ... 2

1.1. Introducción ... 2

1.2. Planteamiento del problema científico ... 3

1.3. Formulación del problema ... 3

1.4. Definición del objeto ... 4

1.5. Objetivos ... 4

1.5.1. Objetivo General ... 4

1.5.2. Objetivos Específicos ... 4

1.6. Pregunta/as científicas o hipótesis... 5

1.7. Definición de características o Variables ... 5

1.8. Justificación ... 5

CAPÍTULO II: MARCO TEÓRICO ... 6

2.1. Antecedentes Investigativos ... 6

2.2. Fundamentación Teórica ... 12

2.2.1. Qué es un Data Warehouse ... 12

2.2.1.1. Historia del Data Warehouse ... 12

2.2.1.2. Cómo funciona un Data Warehouse ... 13

2.2.1.3. Diferentes tipos de Data Warehouse ... 13

2.2.1.4. Tipos de Data Warehouse ... 14

2.2.1.5. Arquitectura de Data Warehouse ... 15

2.2.1.6. Componentes de un Data Warehouse ... 15

2.2.1.7. Características del Data Warehouse ... 16

2.2.1.7.1. Orientado a Sujetos ... 16

2.2.1.7.2. Integrado ... 17

2.2.1.7.3. Variante de tiempo ... 17

2.2.1.7.4. No volátil... 18

2.2.1.8. Estados de un Data Warehouse ... 18

2.2.1.9. Diferentes componentes de un Data Warehouse ... 19

2.2.1.10. Quién utiliza un Data Warehouse ... 19

2.2.1.11. Ventajas e inconvenientes de los Data Warehouse ... 21

(11)

2.2.1.13. Pasado y presente del Data Warehouse ... 22

2.2.2. Qué es la minería de procesos ... 23

2.2.2.1. Historia de minería de procesos ... 24

2.2.2.2. Beneficios de la minería de procesos ... 25

2.2.2.3. Ventajas de la minería de procesos ... 25

2.2.2.4. Importancia de la minería de procesos ... 26

2.2.2.5. Cómo funciona la minería de procesos ... 27

2.2.3. Apache NiFi ... 27

2.2.3.1. Los componentes principales de Apache NiFi ... 28

2.2.3.1.1. Componentes básicos ... 28

2.2.3.1.2. Componentes avanzados ... 29

2.2.3.2. El propósito de Apache NiFi ... 30

2.2.4. Registro de datos ... 31

2.2.4.2. Registro de datos en la informática ... 32

2.2.5. La Comisión de Titulación ... 32

2.2.5.1. Actividades del Comité de Selección: ... 33

2.3. Marco Conceptual ... 35

2.4. Bases legales, normativas y estándares. ... 37

CAPÍTULO III. MARCO METODOLÓGICO ... 40

3.1. Tipo de investigación ... 40

3.2. Métodos ... 40

3.3. Población y Muestra ... 41

3.3.1. Población ... 41

3.3.2. Muestra... 41

3.4. Análisis e interpretación de los resultados ... 42

CAPÍTULO IV: APORTE/PROPUESTA ... 48

4.1. Estudio de necesidades y Análisis de Requerimientos ... 48

4.2. Diseño de la solución Tecnológica ... 49

4.2.1. Perspectiva de Dimensión ... 50

4.2.1.1. Perspectiva titulaciones ... 50

4.2.1.2. Perspectiva docentes ... 51

4.2.1.3. Perspectivas alumnos ... 51

4.2.1.4. Perspectiva tutorías ... 52

4.2.2. Líneas de código de creación de tablas ... 53

4.3. Prototipado ... 60

(12)

4.4. Simulación, pruebas y evaluación ... 61

4.5. Implementación ... 62

CAPÍTULO V: ASPECTOS ADMINISTRATIVOS ... 74

5.1. Presupuesto/Recursos: Humanos, Materiales, Financieros ... 74

5.2. Cronograma de Actividades. Diagrama de Gantt ... 75

5.3. Conclusiones ... 76

5.4. Recomendaciones ... 77

BIBLIOGRAFÍA ... 78

ANEXOS ... 81

(13)

INDICE DE TABLAS

Tabla 3.3.2. Tabla Población y Muestra ... 42 Tabla 1: ¿Conoce Ud. el flujo de proceso de la comisión de titulación? ... 43 Tabla 2: ¿Conoce Ud. si la comisión de titulación lleva un registro de datos sobre los temas de titulación? ... 44 Tabla 3: ¿Conoce Ud. si la comisión de titulación lleva un registro de datos sobre los temas de titulación? ... 45 Tabla 4: ¿Conoce Ud. si la comisión de titulación lleva un registro de datos sobre los temas de titulación? ... 46 Tabla 5: ¿Cuál herramienta cree Ud. que usa la comisión de titulación para el registro actual de datos? ... 47 Tabla 5.1. Presupuesto/ Recursos... 74 Tabla 5.2. Cronograma ... 75

(14)

INDICE DE GRAFICOS

Grafico 1. Pregunta 1 Tabulación ... 43

Grafico 4.2.1.1. Trasformación de perspectiva titulaciones a dimensión ... 50

Grafico 4.2.1.2. Trasformación de perspectiva docentes a dimensión... 51

Grafico 4.2.1.3. Trasformación de perspectiva alumnos a dimensión ... 51

Grafico 4.2.1.4. Trasformación de perspectiva tutorías a dimensión... 52

Grafico 4.2.3.1 Inicio a base de datos ... 57

Grafico 4.2.3.2. Base de datos... 57

Grafico 4.2.3.3. Tabla Alumnos ... 58

Grafico 4.2.3.4. Tabla Docentes... 58

Grafico 4.2.3.5. Tabla Titulaciones ... 59

Grafico 4.2.3.6. Tabla Tutotias ... 59

Grafico 4.3 Modelo Relacional ... 60

Grafico 4.4. Simulación de Data Warehouse ... 61

Grafico 4.5.1. Estructura del Data Warehouse 1 ... 62

Grafico 4.5.6. Estructura del Data Warehouse ... 65

Grafico 4.5.9. Generar listado de los docentes en general ... 67

Grafico 4.5.10. Ventana de Archivo de Flujo ... 67

Grafico 4.5.11. Opciones de visualización de información ... 68

Grafico 4.5.12. Lista de Docentes en Excel ... 68

Grafico 4.5.13. Listado de Docentes en navegador ... 69

Grafico 4.5.14. Generar listado de Docentes de forma individual ... 69

(15)

Grafico 4.5.16. Información de Docente ... 70

Grafico 4.5.17. Estructura de información de temas ... 71

Grafico 4.5.18. Listado de tabla de Temas en General ... 71

Grafico 4.5.19. Listado de temas en general mediante Excel ... 72

Grafico 4.5.20. Proceso de temas de forma detallada ... 72

Grafico 4.5.21. Presentación de Temas de manera individual ... 73

Grafico 4.5.22. Información de Tema en vista navegador ... 73

Grafico 1. Anexo Tutoría ... 86

Gráfico de Manual de Usuario 1 ... 89

Grafico Manual de Usuario 9 ... 94

(16)

Grafico Manual de Usuario ... 103

Grafico Manual Técnico 1 ... 105

(17)

TÍTULO DEL PROYECTO

“IMPLEMENTACIÓN DE UN DATA WAREHOUSE APLICABLE A MINERÍA DE PROCESOS PARA EL REGISTRO DE DATOS DE LA COMISIÓN DE TITULACIÓN”

(18)

CAPÍTULO I. ASPECTOS GENERALES 1.1. Introducción

En esta era actual, la tecnología está dando grandes pasos que le han permitido convertirse en elementos cotidianos en nuestro día a día y hacernos la vida fácil a la hora de realizar cualquier trabajo.

La comisión de titulación es la encargada del proceso de titulación de los estudiantes de la carrera de Tecnologías de la Información de la Universidad Estatal del Sur de Manabí, actualmente el registro de datos se realiza mediante hojas de cálculo en la nube de google, siendo esta una base no estructurada y con datos no relacionales, la cual al momento de la búsqueda de información se vuelve un poco tediosa.

Tomando en cuenta que es importante considerar que la perdida de información es uno de los mayores problemas con los cuales se puede enfrentar, por lo tanto, siendo esta una carrera tecnológica debe tener un almacén de datos, por cual se vio necesario la implementación de un data warehouse aplicable a minería de procesos para el registro de datos de la comisión de titulación.

Este documento abarca secciones básicas como la resolución de problemas, incluyendo un acercamiento teórico a las observaciones anteriores, en esta sección se detalla la principal necesidad para el desarrollo de la investigación. Los objetivos en función del desarrollo de cada fase de la investigación se dan como objetivos principales del alcance propuesto, mientras que la narrativa describe la justificación para posibilitar la investigación, la importancia del tema, el impacto y beneficio que trajo para el desarrollo del proyecto.

(19)

1.2. Planteamiento del problema científico

Dentro de la Universidad Estatal del Sur de Manabí, en especial la Carrera de Tecnologías de la Información se evidencia la falta de un data warehouse acorde a las realidades y necesidades de la generación actual.

La problemática que se presenta en la Carrera de Tecnologías de la Información por falta de un data warehouse en la comisión de titulación es el congestionamiento de información, la perdida y la eliminación de información a causa de los virus, entre otras causas que reducen la seguridad de los registros de titulación a causa que en la actualidad la comisión para llevar el registro de los datos usa hojas de cálculo en la nube de google, por tal motivo no resulta suficientemente eficiente para el registro de información.

Se ha evidenciado que es factible mejorar los registros de titulación mediante una propuesta estructurada de datos, la cual es de suma importancia implementar un data warehouse para el registro de datos en la comisión de titulación para sistematizar todos los datos personales y académicos de los estudiantes de dicha carrera.

1.3. Formulación del problema

¿Cómo aportara la implementación de un data warehouse aplicable a minería de procesos para el registro de datos de la comisión de titulación?

(20)

1.4. Definición del objeto

Mediante la observación hacia la comisión de titulación notamos la falta de un repositorio de datos, por este problema surge la necesidad de mejorar el almacenamiento e ingreso de la información que manejan.

Un data warehouse es un repositorio electrónico en el que una organización almacena grandes cantidades de datos, la información en el almacén de datos se guarda de manera segura, confiable, fácil de recuperar y administrar.

Con la implementación de un data warehouse aplicable a minería de procesos para el registro de datos en la comisión de titulación da paso a un manejo seguro de datos que requieren ser almacenados.

1.5. Objetivos

1.5.1. Objetivo General

Implementar un data warehouse aplicable a minería de procesos para el registro de datos de la comisión de titulación.

1.5.2. Objetivos Específicos

• Analizar el flujo de procesos y registro actual de datos sobre el registro de datos de la comisión de titulación.

(21)

• Diseñar la estructura data warehouse aplicable a minería de procesos para el registro de datos de la comisión de titulación.

1.6. Pregunta/as científicas o hipótesis

Con la implementación de un data warehouse aplicable a minería de procesos ayudara a mejorar el registro de datos de la comisión de titulación.

1.7. Definición de características o Variables VARIABLE DEPENDIENTE:

Registro de datos de la comisión de titulación VARIABLE INDEPENDIENTE:

Implementación de un data warehouse aplicable a minería de procesos

1.8. Justificación

Debido a que la comisión de titulación no cuenta con un almacén de datos para sus registros de información, hay que tomar en cuenta que es importante considerar que la perdida de información es uno de los mayores problemas con los cuales se puede enfrentar, por esta razón es de suma importancia implementar un data warehouse para el registro de datos de la comisión de titulación para guardar todos los datos personales y académicos de los estudiantes, por consiguiente contribuye almacenar de manera ordenada el registro de la información de los proyectos de titulación.

(22)

CAPÍTULO II: MARCO TEÓRICO 2.1. Antecedentes Investigativos

Andres Fabian Duque Galvez (Andres Fabian Duque Galvez, 2010) en su proyecto de tesis previo a la titulación de Ingeniero en sistemas Computacionales titulada,

“IMPLEMENTACIÓN DE UN DATAWAREHOUSE PARA EL INSTITUTO GEOFÍSICO MILITAR”, tiene como objetivo proporcionar una herramienta informática que permite soportar la toma de decisiones mediante la generación de información analítica y de manera oportuna dentro del instituto geográfico militar.

Diana Katerine Gutierrez Mendieta (Gutierrez Mendieta, 2018) en su proyecto de tesis previo a la titulación de Ingeniero de Sistemas titulada, “DISEÑO E IMPLEMENTACIÓN DE UN DATA WAREHOUSE PARA LA CREACIÓN DE INFORMES GERENCIALES” en este documento refleja el proceso de desarrollo de la estrategia de inteligencia de negocios basada en data warehouse (almacén de datos) para la región de ventas de CORONA S.A. Dado que el proceso de toma de decisiones en cualquier organización es una parte muy importante para el desarrollo de las actividades y el logro de las metas trazadas, también es muy importante para CORONA, el crecimiento de la empresa y el gran volumen de información toman la decisión, dificultando el proceso debido a la falta de coincidencia de las herramientas utilizadas actualmente.

Jonathan Jair Salazar Merchán (Jonathan Jair Salazar Merchan, 2020) en su proyecto de tesis previo a la titulación de Ingeniero en sistemas Computacionales titulada,

“APLICACIÓN INFORMATICA PARA PROCESOS DE TITULACION DE LA UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ” tiene como finalidad acelerar la

(23)

temas de títulos, errores de asignación del jurado o tutores, ya que se encontró en esta encuesta que los temas de títulos a menudo ya los han realizado otros estudiantes debido al manejo manual de este proceso. La aplicación informática se diseñará utilizando la interfaz amigable del lenguaje de programación C#, utilizando las herramientas de Navicat para diseñar y modelar la base de datos a utilizar. Se recomienda la implementación de una aplicación informática para evitar inconvenientes encontrados durante la investigación.

Jaramillo Delgado Freddy Rene (Martínez Campaña et al., 2016) en su proyecto de tesis previo a la titulación de Ingeniero en Sistemas titulada, “IMPLEMENTACIÓN DE UN DATAWAREHOUSE PARA LA TOMA DE DECISIONES EN EL ÁREA LOGÍSTICA DE LA COMPAÑÍA PRONACA.”, este proyecto nace por la importancia de contar con una aplicación de data warehouse para gestionar toda la información que maneja el departamento de logística, con el fin de superar estas debilidades, aumentar la competitividad, incrementar la eficiencia y mejorar el proceso de toma de decisiones. Para el desarrollo de este estudio se aplicó un enfoque inductivo partiendo de los procesos logísticos hasta la obtención de materias primas, distribución de productos terminados y la función de cada proceso, el cual es un enfoque deductivo que parte del conocimiento de las diferentes ramas que pretenden implementar este tipo de solución.

Luis Jack Orellana Rios (Ing. Luis Jack Orellana Rios, 2020) en su proyecto de tesis previo a la titulación de Ingeniero de Computación y Sistemas titulada,

“IMPLEMENTACIÓN DE UN DATA WAREHOUSE PARA MEJORAR EL PROCESO DE TOMA DE DECISIONES DEL CENTRO ASISTENCIAL PRIMARIA DE SALUD – ESSALUD”, con la finalidad de obtener información en tiempo real cuando lo solicite el usuario, con características gráficas y estadísticas que

(24)

ahorran tiempo y facilitan el análisis al permitir la toma de decisiones oportuna, por lo que esto es factible desde el lado operativo de la organización y también reducirá significativamente el tiempo requerido para generar informes.

Cedeño Alava Julissa Daniela (Cedeño Alava Julissa Daniela, 2021) en su proyecto de tesis previo a la titulación de Ingeniero en sistemas Computacionales titulada,

“SERVIDOR DE DATOS PARA EL RESPALDO DE DOCUMENTOS DE LA CARRERA DE TECNOLOGÍAS DE LA INFORMACIÓN DE LA UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ”, tiene como destino el análisis de implementaciones de servidores de datos, para respaldo de documentos en la Carrera de Tecnologías de la Información de la Universidad Estatal del Sur de Manabí, los beneficiarios del desarrollo de este estudio podrán implementar un servidor, al que puedan acostumbrarse a realizar copias de seguridad automáticas o manuales inmediatamente después de crear un nuevo archivo, brindando así una gestión de carrera al personal, docentes, auxiliares y estudiante. Guardar una copia de seguridad en el disco facilita la creación de un archivo que actúe como copia de seguridad en otro disco. La mejor manera de hacer esto es usar una carpeta de red o un servicio en la nube.

Hermes Gregorio León Jiménez (Hermes Gregorio Leon Jimenez, 2011) en su proyecto de tesis previo a la titulación de Ingeniero en Sistemas Computacionales titulada,

“DESARROLLO DE UN PROTOTIPO DE DATA WAREHOUSE PARA LA GESTION Y ADMINISTRACION DIRECTIVA EN LA CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES”, el objetivo del presente es demostrar que la implementación de este en la Carrera de Ingeniería en Sistemas Computacionales es de gran importancia debido a su funcionalidad, ayudando a reducir el tiempo que se lleva en realizar consultas y reportes, eliminando el proceso tardío que causa

(25)

Rody Erick Choez Galarza (Choez Galarza Rody Erick, 2021) en su proyecto de tesis previo a la titulación de Ingeniero en sistemas computacionales titulada, “ESTUDIO DE FACTIBILIDAD PARA LA IMPLEMENTACIÓN DE UN SERVIDOR DE DATOS PARA LA CARRERA DE TECNOLOGÍA DE LA INFORMACIÓN DE LA UNIVERSIDAD ESTATAL DEL SUR DE MANABÍ”, la finalidad de sustentar la factibilidad de implementar un servidor único, que ayudará a automatizar las diversas actividades que se realizan en la carrera, y mejorar el rendimiento cuando el proceso se implemente en la mina después de la compra del servidor de datos y desplegada. La factibilidad de este proyecto se mantiene a pesar de los cambios, movimientos de precios y costos al momento de la implementación.

Ing. Henry Cantos, Ing. Diego Cordero, Ing. Ciro Larco, Ing. Ali Mendez (Ing.

Henry Wilmer Cantos Ortiz et al., 2007), en su proyecto de tesis previo a la titulación de Magister en Sistemas de Información General titulada, “DISEÑO E IMPLEMENTACION DE UN DATA WAREHOUSE PARA LAS EMPRESAS DE DISTRIBUCION Y COMERCIALIZACION DE AGUA POTABLE”, con el objetivo de definir modelos de negocios de cuatro empresas del mismo sector para ser analizados según los parámetros de business analytics, usando métodos detallados para habilitar datos, crear almacenes de datos institucionales para cuatro empresas que distribuyen y comercializan bebidas.

Alvaro Villanueva Ojeda (Villanueva et al., 2008), en su proyecto de tesis previo a la titulación de Ingeniero Informático titulada “ANÁLISIS, DISEÑO E IMPLEMENTACIÓN DE UN DATAWAREHOUSE DE SOPORTE DE DECISIONES PARA UN HOSPITAL DEL SISTEMA DE SALUD PÚBLICO”, este proyecto propuso crear un almacén de datos para apoyar el proceso de toma de decisiones de la junta del hospital, que tomará decisiones con base en datos históricos y tablas

(26)

generadas en Internet. El propósito de este tipo de sistema sería despejar las cabinas, optimizar la utilización del personal, mejorar la atención al paciente, mejorar la calidad de los servicios prestados, proporcionar un departamento de atención al paciente especializado, administrar los recursos y comprender el estado actual del paciente.

Felipe Andres Orellana Sanchez (Felipe Andres Orellana Sanchez, 2013), en su proyecto de tesis previo a la titulación de Ingeniero Civil en Informática titulada

“PROPUESTA DE IMPLEMENTACIÓN DE UN DATA WAREHOUSE PARA EL ÁREA DE SOPORTE DE INFORMACIÓN, RABIE S.A.”, el objetivo del proyecto fue presentar una propuesta para implementar un sistema de data warehouse que apoye las operaciones del área de soporte de información de Rabie S.A., área donde actualmente la información no está siendo utilizada adecuadamente por la sobrecarga de datos, lo que dificulta la recuperación de información relevante y actualizada que los gerentes necesitan para apoyar la toma de decisiones. Este sistema contendrá datos que ya existen en un área específica, creando una agregación de información relacionada que creará procesos para extraer, transformar y cargar los datos para proporcionar la información necesaria.

Spositto, Osvaldo Mario; Castro, Hugo Martín; Matteo, Lorena Romina; Barone, Miriam Andrea Teresa; Etcheverry, Martín Esteban; Gargano, Cecilia Victoria; Bossero, Julio Cesar (Ryckeboer et al., 2014) en su proyecto de investigación en la universidad nacional de la Matanza titulada, “IMPLEMENTACIÓN DE UN DATA WAREHOUSE PARA LA TOMA DE DECISIONES EN EL ÁREA ACADÉMICA”, este proyecto continúa la línea de investigación propuesta por la dirección del DIIT para obtener métricas de gestión para la toma de decisiones estratégicas tanto para estudiantes como para docentes. Reconociendo la importancia del manejo de la información en la gestión de decisiones, es necesario crear un repositorio que permita el

(27)

análisis de la información para que pueda acelerar, facilitar y personalizar las preguntas para brindar soluciones a la medida de los requerimientos de los usuarios.

Carlos Andres Jarrin Vivar (Belalcázar Villamar et al., 2014) en su `proyecto de tesis previo a la titulación de Ingeniero Informático titulada, “DISEÑO E IMPLEMENTACIÓN DE UN DATA WAREHOUSE DEL SISTEMA FINANCIERO ECUATORIANO PARA LA INTEGRACIÓN Y CONSULTA DE LA INFORMACIÓN” con el objetivo de almacenar y consolidar la información en un solo almacén de datos, de modo que los datos sean procesados y una fuente de referencia de información para la comunidad, ayudando a tomar decisiones más informadas sobre el sistema financiero.

(28)

2.2. Fundamentación Teórica 2.2.1. Qué es un Data Warehouse

Una data warehouse es un repositorio unificado de todos los datos que recopilados por los distintos sistemas de la empresa. Los repositorios pueden ser físicos o lógicos y se centran en recopilar datos de una variedad de fuentes, principalmente con fines de análisis y acceso. Los almacenes de datos suelen estar alojados en servidores corporativos o cada vez más, en la nube. Los datos de varias aplicaciones de procesamiento de transacciones en línea (OLTP) y otras fuentes se extraen de forma selectiva para su uso en aplicaciones de análisis y consultas de usuarios.(Power Data, 2022)

Un almacén de datos es una arquitectura de almacenamiento de datos que permite a los líderes empresariales organizar, comprender y utilizar sus datos para tomar decisiones estratégicas. La arquitectura del almacén de datos ya es bien conocida en muchas empresas modernas. (Power Data, 2022)

2.2.1.1. Historia del Data Warehouse

Con el tiempo, las computadoras se han vuelto más complejas. La cantidad de datos disponibles para las empresas también ha aumentado drásticamente. Por esta razón, los data warehouse se han vuelto indispensables.

En 1970, Nielsen y IRI introdujeron por primera vez el concepto dimensional de Data Mart para tiendas minoristas. En 1983, Teradata lanzo un sistema de administración de bases de datos diseñado específicamente para respaldar la toma de decisiones.

(29)

No fue sino hasta fines de la década de 1980 que apareció el primer repositorio de datos institucionales, desarrollado por Paul Murphy y Barry Devlin de IBM. (Mike A, 2022)

2.2.1.2. Cómo funciona un Data Warehouse

Una data warehouse actúa como un depósito central. La información proviene de una o más fuentes de datos, como un sistema de transacciones u otra base de datos relacional.

Los datos pueden ser semiestructurados, estructurados o no estructurados. Una vez incorporado al repositorio, se procesa y transforma. Luego, los usuarios pueden acceder a él utilizando herramientas de Business Intelligence, de clientes SQL o tablas.

Al agregar la información en un solo lugar, las empresas obtienen una visión general de su base de clientes u otros factores importantes. El warehousing asegura que toda la información ha sido revisada.

Además, el Data Warehouse hace posible la minería de datos. Este proceso implica encontrar tendencias y patrones en los datos y usarlos para generar argumentos sobre las ventas y las ganancias de la empresa.

2.2.1.3. Diferentes tipos de Data Warehouse

Podemos distinguir 3 tipos principales de Data Warehouse. Primero, los “Data Warehouse empresariales” (EDW), son depósitos de datos centrales que ayudan a guiar las decisiones comerciales.

(30)

Los datos se organizan y presentan de manera estandarizada. Los EDW también le permiten categorizar los datos por su tema.

La segunda categoría principal de Data Warehouse son los Data Stores Operacionales (ODS). Los datos se actualizan en tiempo real, lo que es útil para las operaciones diarias, como el registro y la generación de informes de empleados.

Finalmente, un Data Mart es una subcategoría de Data Warehouse. Se dirige a empresas en los sectores ventas o finanzas. (Mike A, 2022)

2.2.1.4. Tipos de Data Warehouse

Data Warehouse fuera de línea es un almacén de datos que se actualiza diariamente, semanalmente, mensualmente, etc., y almacena datos en una estructura integrada a la que otros usuarios pueden acceder e informar.

Data Warehouse en Tiempo Real es un almacén de datos que se actualiza cada vez que llegan datos nuevos. Por ejemplo, un Data Warehouse en tiempo real puede contener datos de un sistema de Punto de Venta y se actualiza con cada venta.

Integrated Data Warehouse es un almacén de datos que se puede utilizar en otros sistemas. Algunos Data Warehouse integrados son utilizados por otros Data Warehouse, por lo que puede acceder a otros almacenes de datos para procesar informes y encontrar los datos más recientes.

(31)

2.2.1.5. Arquitectura de Data Warehouse

El Data Warehouse o almacén de datos es un sistema de información que contiene datos históricos y convertibles de una o más fuentes.

El simplifica el proceso de informes y análisis de la organización y sirve como la única verdad para cada empresa a la hora de tomar decisiones y analizar el análisis predictivo.(Tecnologias Informacion, 2018)

2.2.1.6. Componentes de un Data Warehouse

El almacén de datos se basa en un servidor RDBMS (sistema de gestión de bases de datos relacionales) es un almacén central de información rodeado de varios componentes clave para que todo el entorno sea funcional, manejable y accesible. Esta tienda consta de cinco componentes:

Base de datos de almacenamiento de datos: la base de datos central es la base de su entorno de almacenamiento de datos. Esta base de datos esta implementada con tecnología RDBMS.

Herramientas de adquisición, recuperación, limpieza y transformación (ETL):

Estas herramientas se utilizan para realizar todas las transformaciones, agregados y cambios necesarios para transformar los datos en un formato coherente en un almacén de datos.

Metadatos: Los metadatos son datos sobre los datos que definen el almacén de datos. Se utiliza para crear, mantener y administrar almacenes de datos.

(32)

Herramientas de consulta: La herramienta de consulta permite a los usuarios interactuar con el sistema de almacenamiento de datos.

Almacenamiento de datos de bus: El almacenamiento de datos de Bus determina el flujo de datos en la tienda. El flujo de datos en un almacén de datos se puede clasificar en flujo de entrada, flujo ascendente, flujo descendente, flujo de salida y metaflujo.

2.2.1.7. Características del Data Warehouse

El almacén de datos tiene varias características que se describen en detalle a continuación:

• Orientado a Sujetos

• Integrado

• Variante de tiempo

• No volátil

2.2.1.7.1. Orientado a Sujetos

Un almacén de datos está orientado a temas en el sentido de que proporciona información sobre un tema en lugar de las actividades en curso de la empresa. Estos temas pueden ser ventas, marketing, distribución, etc.

Un almacén de datos nunca se centra en procesos en ejecución. En cambio, se enfoca en el modelado y análisis de datos para la toma de decisiones. También proporciona

(33)

una descripción general simple y concisa de un tema en particular al excluir datos inútiles para ayudar en el proceso de toma de decisiones.(Tecnologias Informacion, 2018)

2.2.1.7.2. Integrado

En un almacén de datos, la integración significa crear una unidad de medida común para todos los datos similares en diferentes bases de datos. Los datos también deben almacenarse en un almacén de datos de una manera común y ampliamente aceptada.

Un almacén de datos se desarrolla integrando datos de varias fuentes como mainframes, bases de datos relacionales, archivos planos, etc. Además, debe mantener convenciones coherentes de nomenclatura, formato y codificación.

Esta integración contribuye a un análisis de datos eficiente. Se debe garantizar la consistencia en las convenciones de nomenclatura, las métricas de atributos y las estructuras de codificación, entre otros.(Tecnologias Informacion, 2018)

2.2.1.7.3. Variante de tiempo

El período de almacenamiento de datos es bastante largo en comparación con el sistema operativo. Los datos se recopilan en un almacén de datos que se registra durante un período de tiempo específico y proporciona información desde una perspectiva histórica.

Tiene un elemento temporal, ya sea explícito o implícito. Uno de los lugares donde los datos en el almacén de datos muestran variaciones a lo largo del tiempo es en la

(34)

estructura de la clave de registro. Cada clave principal que se encuentra en un DW debe contener un elemento de tiempo implícita o explícitamente. Como día, semana, mes, etc.

Otro aspecto del cambio de hora es que una vez que los datos están en la tienda, no se pueden actualizar ni cambiar.

2.2.1.7.4. No volátil

Además, el almacén de datos es inmutable, lo que significa que los datos antiguos no se eliminan al importar datos nuevos. Los datos son de solo lectura y se actualizan periódicamente. También ayuda a analizar datos históricos y comprender qué sucedió y cuándo. No requiere procesos de transacción, mecanismos de recuperación y control de concurrencia. Las operaciones como eliminar, actualizar e insertar que se realizan en el entorno de la aplicación en vivo se ignoran en el entorno del depósito de datos.

(Tecnologias Informacion, 2018)

2.2.1.8. Estados de un Data Warehouse

Un almacén de datos puede tener diferentes estados. En el modo fuera de línea, los datos se copian de un sistema operativo a otro. La carga, el procesamiento y la notificación de datos no afectan al rendimiento del sistema operativo.

Cuando está "en línea", los datos se actualizan regularmente desde la base de datos de actividades. En el caso de un almacén de datos en tiempo real, los datos se actualizan

(35)

cada vez que se realiza una transacción en la base de datos activa. Por ejemplo, podemos citar un sistema de reservas de trenes o aviones.

2.2.1.9. Diferentes componentes de un Data Warehouse

Un Data Warehouse se basa en varios componentes principales. El "Administrador de carga" permite todas las operaciones de extracción y carga de datos en el repositorio.

También maneja la conversión de datos.

Por su parte, el responsable del almacén se ocupa de los procesos relacionados con la gestión de datos en el almacén. Esto le permite garantizar la coherencia de los datos, crear índices y visualizaciones y transformar, combinar y archivar datos de una variedad de fuentes.

El administrador de búsqueda es responsable de las operaciones administrativas para dirigir las búsquedas de los usuarios a las tablas adecuadas. Finalmente, las herramientas de acceso permiten a los usuarios finales interactuar con el almacén de datos.

Estas son herramientas de generación de informes, búsqueda, desarrollo de aplicaciones e incluso exploración de datos. (Mike A, 2022)

2.2.1.10. Quién utiliza un Data Warehouse

Los Data Warehouse son utilizados por todas las empresas que necesitan procesar grandes cantidades de datos o recopilar datos de múltiples fuentes. También lo utilizan empresas que desean acceder fácilmente a sus datos.

(36)

El almacén de datos puede ser relevante para cualquier empresa que busque soporte para la toma de decisiones. Esto también se aplica a los usuarios que desean administrar informes, tablas y gráficos a partir de sus datos.

El almacén de datos juega un papel en todas las áreas de actividad. Sin embargo, el uso varía mucho de una industria a otra. (Mike A, 2022)

En el sector de la aviación, las aerolíneas los utilizan para analizar la rentabilidad de las rutas y proponer promociones personalizadas. Los bancos utilizan el almacenamiento de datos para gestionar recursos, realizar estudios de mercado o analizar el rendimiento de diversos productos. En Healthcare, los almacenes de datos le permiten predecir los resultados del tratamiento, crear informes de pacientes e incluso compartir datos con compañías de seguros.

El sector público utiliza esta tecnología para recopilar datos sobre políticas fiscales o de salud y analizar informes. En el ámbito de las compañías de seguros, se utiliza para analizar las tendencias del mercado y el comportamiento de los clientes. La cadena comercial utiliza almacenes de datos para ventas, marketing, inventario y logística para comprender a los consumidores, optimizar precios y lanzar campañas publicitarias personalizadas.

Lo mismo se aplica al sector de las telecomunicaciones. En el sector de las telecomunicaciones, las decisiones de venta y distribución y las campañas publicitarias se basan en datos. Por último, en el sector del turismo y la hostelería, las campañas publicitarias y promocionales pueden basarse en las preferencias y costumbres de los viajeros. (Mike A, 2022)

(37)

2.2.1.11. Ventajas e inconvenientes de los Data Warehouse

Los almacenes de datos tienen ventajas y desventajas. Son útiles para permitir que las empresas accedan rápida y fácilmente a datos de una variedad de fuentes de manera centralizada. Gracias a estas herramientas, puede acceder a información coherente y actualizada sobre todas las actividades de la empresa.

También le permite crear informes y buscar datos. En conjunto, los almacenes de datos reducen el tiempo necesario para analizar datos y generar informes, y facilitan estas tareas. (Mike A, 2022)

Con grandes cantidades de datos históricos, los usuarios pueden analizar tendencias en diferentes períodos de tiempo para hacer predicciones futuras. Sin embargo, los almacenes de datos también tienen sus limitaciones, no son la mejor solución para datos no estructurados.

Además, crear y publicar un almacén de datos requiere mucho tiempo y, a menudo, mucha mano de obra. Irónicamente, el repositorio puede volverse obsoleto rápidamente.

Aparte de eso, es muy difícil realizar cambios en los tipos de datos, esquemas de fuentes de datos, índices y búsquedas. Usar una plataforma como esta puede ser demasiado complicado para el usuario promedio.

Entonces, las empresas invierten muchos recursos para capacitar a sus empleados e implementar el almacenamiento. Por lo tanto, es importante sopesar las ventajas y desventajas antes de decidir utilizar este tipo de solución. (Mike A, 2022)

(38)

2.2.1.12. Estructuras de un Data Warehouse

La arquitectura del almacén de datos se puede dividir en tres estructuras simplificadas: primaria, primaria con preparación y primaria con preparación y datos. Con la estructura básica, el sistema operativo y el archivo fijo proporcionan datos sin procesar almacenados con metadatos. Los usuarios pueden acceder a él para realizar análisis, informes y exploración.

Al agregar un área de preparación que se puede colocar entre las fuentes de datos y la tienda, proporciona un lugar donde se pueden limpiar los datos antes de ingresar a la tienda. La estructura de la tienda se puede personalizar para diferentes grupos en la organización. Esto se puede hacer agregando almacenes de datos, que son sistemas diseñados para una industria específica.

Por ejemplo, puede tener almacenes de datos separados para ventas, inventario y compras, y los usuarios finales pueden acceder a los datos desde cualquiera o todos los almacenes de datos del servicio.(Power Data, 2022)

2.2.1.13. Pasado y presente del Data Warehouse

Históricamente, los almacenes de datos se crearon utilizando datos estructurados recurrentes que se filtraron antes de que se ingresaran en el almacén de datos. Sin embargo, en los últimos años, el almacenamiento de datos ha evolucionado a medida que la información contextual ahora puede adjuntarse a datos no estructurados y también almacenarse.

(39)

Estos datos relacionales estructurados originales no se pueden mezclar y combinar para análisis con datos de texto no estructurados. Pero con el advenimiento de la contextualización, este tipo de análisis ahora se puede realizar de forma natural y sencilla.

(Power Data, 2022)

En los almacenes de datos, los datos no recurrentes, como los comentarios en encuestas, correos electrónicos y conversaciones, se tratan de manera diferente a los casos de redundancia de datos, como el flujo de clics, las métricas, el procesamiento de dispositivos o similares.

Los datos no repetidos son datos de texto que se han creado mediante la escritura o el habla, se han leído y reformateado y, lo que es más importante, ahora se pueden poner en contexto. Para extraer cualquier significado de los datos no redundantes para su uso en un almacén de datos, debe tener el contexto de los datos proporcionados.

En muchos casos, el contexto de los datos no redundantes es más importante que los datos en sí. En cualquier caso, los datos no recurrentes no pueden utilizarse para la toma de decisiones hasta que se haya determinado el contexto. (Power Data, 2022)

2.2.2. Qué es la minería de procesos

La minería de procesos es un método similar a la minería de datos para analizar y monitorear procesos de negocios. Este software ayuda a las empresas a recopilar datos de transacciones comerciales y proporciona información importante sobre el rendimiento de los procesos comerciales. (Michael Eisner, 2020)

La mejora de procesos es un elemento importante de la gestión de procesos de negocio, pero para hacerlo bien, las partes interesadas primero deben comprender dónde

(40)

radica el problema y si vale la pena aplicar la mejora. La solución de minería de procesos lo ayuda a crear un modelo de proceso completo de extremo a extremo mediante el análisis de todos los datos del sistema relacionados con la ejecución de los procesos comerciales.

Esto es básicamente un proceso de tres pasos. Primero, el sistema registra las actividades de las personas y las soluciones de automatización a medida que trabajan en su organización. La minería de procesos luego convierte estos datos en un registro de eventos. Esta solución proporciona a las personas involucradas conocimientos significativos para descubrir nuevos modelos de procesos. (Michael Eisner, 2020)

2.2.2.1. Historia de minería de procesos

La minería de procesos apareció en la década de 1990 cuando el científico holandés Wil vander Aalst buscaba una alternativa al modelado manual de procesos. Se dio cuenta de que los datos disponibles en el sistema informático podrían utilizarse para optimizar el modelo de proceso. Esta técnica fue principalmente un ejercicio académico hasta 2011, cuando el IEEE (Instituto de Ingenieros Eléctricos y Electrónicos) publicó el Process Mining Manifest.

La minería de procesos está ganando atención con la llegada de potentes soluciones de gestión de procesos comerciales, como inteligencia artificial (IA), aprendizaje automático (ML) e iBPMS. A medida que más organizaciones exigen la transformación digital, las soluciones similares desempeñan un papel clave para satisfacer sus crecientes necesidades de datos. (Michael Eisner, 2020)

(41)

2.2.2.2. Beneficios de la minería de procesos

La tecnología de minería de procesos ofrece muchos beneficios potenciales para las empresas, incluido el ahorro de costos. Al identificar ineficiencias, cuellos de botella y tareas que pueden beneficiarse de la automatización, las organizaciones pueden reducir significativamente los costos operativos.

Aumenta la transparencia. La minería de procesos ayuda a las partes interesadas a encontrar datos relevantes y proporcionar información procesable. Esto aumenta la transparencia tanto en el proceso específico como en los niveles organizacionales.

Mejora de la gestión del desempeño profesional. Automatiza la recopilación de indicadores clave de rendimiento. Las partes interesadas pueden monitorear continuamente el proceso en tiempo real.

Mejora de la experiencia del cliente. Las empresas pueden llegar a la raíz del problema más rápido, responder rápidamente y brindar un mejor servicio al cliente.

Cumplimiento mejorado. La auditoría es costosa y requiere mucho tiempo. Esta tecnología permite un análisis más rápido de los datos y permite a las partes interesadas identificar problemas de cumplimiento en tiempo real. (Michael Eisner, 2020)

2.2.2.3. Ventajas de la minería de procesos

Los procesos son el negocio diario de una empresa. Por eso, la minería es parte integral de la herramienta, ya que departamentos y equipos completos están dedicados a un proceso de excelencia.

(42)

El mapeo, el descubrimiento y el análisis de procesos automatizados le permiten analizar y mejorar sus procesos para garantizar que sus procesos se ejecuten de manera óptima y brinden resultados diseñados. La minería también proporciona información objetiva basada en hechos derivados de datos del mundo real para ayudarlo a explorar, analizar y mejorar los procesos comerciales existentes. Analice datos históricos con la capacidad de profundizar en varios registros de eventos para obtener una comprensión más profunda de lo que está sucediendo. (Tu Dashboard, 2021)

2.2.2.4. Importancia de la minería de procesos

La minería de procesos utiliza algoritmos avanzados para visualizar los procesos comerciales actuales y permitir que las organizaciones los optimicen y mejoren. Obtenga rápidamente información valiosa que puede aumentar la productividad y, en última instancia, revelar oportunidades para los procesos comerciales centrales que tienen el mayor impacto en sus clientes e ingresos.

Para las oportunidades de impacto empresarial, puede utilizar la minería para ver tres tipos clave de indicadores clave de rendimiento.

KPIs de tiempo: ¿Cuánto tiempo lleva completar un proceso en particular?

KPIs de costes: ¿Cuánto cuesta completar un proceso especifico?

KPIs de calidad: ¿los resultados de este proceso cumplen con los criterios especificados?(Tu Dashboard, 2021)

(43)

2.2.2.5. Cómo funciona la minería de procesos

La minería de procesos descubre automáticamente los procesos comerciales reales y extrae información de los registros de datos de aplicaciones existentes. Estos datos se pueden utilizar para generar automáticamente un modelo de proceso y calcular métricas de proceso.

Mediante el análisis de la secuencia de eventos basada en la marca de tiempo, la minería de procesos puede reconstruir completamente el proceso real mientras identifica y revela ineficiencias, cuellos de botella y otras vulnerabilidades. La herramienta de minería de procesos visualiza los tipos de flujos de procesos que ocurren dentro de su organización y cómo operan los diferentes equipos y unidades.

Esto permite que los profesionales de procesos responsables de optimizar y mejorar el rendimiento operativo identifiquen procesos o pasos de procesos ineficaces y encuentren las mejores prácticas en la aplicación.(Tu Dashboard, 2021).

2.2.3. Apache NiFi

Apache NiFi es un sistema distribuido de extracción, transformación y carga de datos (ETL). Es de código abierto y es desarrollado y mantenido por Apache Software Foundation. En la web del proyecto encontramos la siguiente definición

NiFi (o Ni-Fi) está diseñado para poder automatizar el flujo de datos entre diferentes sistemas de forma eficiente e intuitiva: ingesta, enrutamiento y gestión. Para ello cuenta con más de 300 conectores externos ya implementados y también es posible

(44)

añadir conectores personalizados. Uno de los puntos fuertes de NiFi es su capacidad para programar flujos de datos extrayendo los componentes necesarios y conectándolos al área del webmaster. (Big Data, 2022)

Por tanto, no es necesario tener conocimientos específicos de programación, sino entender y configurar adecuadamente cada componente que se quiera utilizar. Aunque puede considerarse un motor ETL, NiFi no está realmente optimizado para realizar transformaciones de datos pesadas o complejas. Es posible realizar conversiones ligeras de datos, pero no es un motor de conversión por lotes completo. Sin embargo, su uso integrado en sistemas de big data es común, brindando muchos beneficios como herramienta para automatizar la recopilación de datos y realizar operaciones de conversión y limpieza. (Big Data, 2022)

2.2.3.1. Los componentes principales de Apache NiFi 2.2.3.1.1. Componentes básicos

Flujo: flujo de trabajo o arquitectura es la definición del flujo de datos implementado en NiFi e indica cómo se procesan los datos.

Flowfile: un paquete de datos que pasa a través de un flujo entre procesadores.

Consiste en un puntero a los datos útiles o al contenido mismo (una matriz de bytes) y sus metadatos asociados llamados atributos. Los pares de atributos clave-valor se pueden editar y NiFi los usa para enriquecer la información de origen. Los metadatos más importantes son el identificador (uuid), el nombre del archivo (filename) y la ruta.

Para acelerar el rendimiento del sistema, el archivo continuo no contiene los datos

(45)

realizadas en NiFi no cambian los datos en sí y no necesitan cargarse en la memoria.

Específicamente, los datos se colocan en el llamado Repositorio de contenido. (Big Data, 2022)

Procesador: El procesador es el componente principal de NiFi. Son los encargados de realizar el proceso de extracción, transformación o carga de datos. NiFi le permite realizar varias operaciones en el procesador, así como entregar y programar su ejecución. Estos componentes también proporcionan una interfaz para acceder a archivos de transmisión y sus propiedades. Se pueden implementar nuevos controladores personalizados utilizando la API de Java Script o utilizando más de 280 controladores existentes.

El asistente le permite resumir la complejidad de la programación simultánea y puede ejecutarse en varios nodos simultáneamente o en el nodo principal de un clúster.

Alternativamente, se puede programar para que se ejecute a través de cron, hora predeterminada o mediante eventos de entrada. Los procesadores también tienen relaciones de salida (conexión) según su comportamiento, como éxito, falla o reintento.

Estos incluyen verificadores de configuración y gráficos con estadísticas de uso y métricas de seguimiento. (Big Data, 2022)

2.2.3.1.2. Componentes avanzados

Conexiones: Los tubos conectan microprocesadores que les permiten interactuar.

Es responsable de transferir archivos de transmisión entre componentes y administrar las colas y su capacidad. Las conexiones actúan como búferes para la transmisión de archivos y tienen un esquema de compresión inversa que depende de la cantidad de eventos o del

(46)

tamaño del disco. También puede establecer la fecha límite o la prioridad para el archivo continuo. Con los canales, NiFi le permite agrupar varias conexiones en una sola.

Conjunto de procesos: El conjunto de procesadores y conexiones a tratar como una unidad lógica independiente en el proceso. Para interactuar con el resto de componentes, cuentan con puertos de entrada y salida para gestionar el envío de archivos en streaming. (Big Data, 2022)

NiFi también incluye el llamado Grupo de Procesamiento Remoto (RPG). Le permite tratar otro caso o un conjunto NiFi externo como un conjunto de procesos para interactuar. En lugar de mover archivos de flujo entre diferentes conjuntos de procesos, se mueven entre diferentes conjuntos. Los puertos de E/S actúan como puerta de enlace para el flujo de archivos.

Servicio de consola: Console o servicio de consola se utiliza para compartir recursos entre diferentes procesadores. Por ejemplo, podría ser una conexión a una base de datos, S3 o un contenedor de Azure.

Apache NiFi también nos permite crear modelos con un flujo almacenado en búfer.

Las plantillas son útiles para agregar rápidamente un nuevo conjunto de componentes estándar o mover la clasificación entre diferentes espacios de trabajo. (Big Data, 2022)

2.2.3.2. El propósito de Apache NiFi

Apache NiFi es una plataforma de logística de datos integrada para automatizar el movimiento de datos entre diferentes sistemas. Proporciona control en tiempo real y facilita la transferencia de datos entre cualquier origen y destino. Son independientes de

(47)

formatos, esquemas, protocolos y tamaños, como dispositivos, dispositivos de geolocalización, rutas de clic, archivos, fuentes de redes sociales, archivos de registro, videos, etc. (Cloudera, 2022)

Apache NiFi se basa en una tecnología anteriormente conocida como "File Niagara". La NSA desarrolló y amplió esta tecnología durante ocho años y luego la autorizó a Apache Software Foundation a través del Programa de Transferencia de Tecnología de la NSA. Por lo tanto, es una tecnología construida desde cero para un uso práctico: es flexible, escalable y adecuada para una amplia gama de dispositivos, desde periféricos de red pequeños y livianos como Raspberry Pi, hasta la nube y datos empresariales. racimos de grupos. Apache NiFi también ajusta automáticamente las conexiones de red, cuyas fluctuaciones pueden afectar las conexiones y, por lo tanto, la entrega de datos. (Cloudera, 2022)

2.2.4. Registro de datos

El registro es una acción que consiste en guardar algo o un registro en algún documento. Por otro lado, los datos son información que permite acceder al conocimiento.

Como tal, el concepto de registro de datos implica registrar cierta información sobre el sustrato. Los datos se pueden registrar tanto en papel como en formato digital.(Definición, n.d.)

(48)

2.2.4.2. Registro de datos en la informática

En el campo de la informática, un bloque de información que forma parte de una tabla se denomina entrada de datos. Esto significa que la entrada de datos es una fila en la base de datos. Esta fila o entrada es una colección de datos que mantiene alguna relación entre ellos. Todas las filas de la tabla tienen una estructura idéntica, una característica que le permite trabajar y realizar cálculos con información. En pocas palabras, una tabla es una base de datos.(Definición, n.d.)

2.2.5. La Comisión de Titulación

Es un organismo universitario encargado de hacer cumplir las normas académicas que rigen el proceso de titulación. Se forma al comienzo del año escolar de la siguiente manera:

a) presidente del Comité, el cargo lo ocupa el subdirector de Asuntos Académicos de la Institución o persona que ejerza funciones similares.

b) De tres a seis profesores con reconocida calificación académica imparten clases en el plan de estudios.

c) El secretario del Comité, que será uno de los profesores mencionados anteriormente, será elegido en la primera sesión convocada por el presidente. (Enrique C. Rebsamen, 2014)

(49)

2.2.5.1. Actividades del Comité de Selección:

a) Recibir, analizar y responder a las dudas de los alumnos relacionadas con los métodos y las materias.

b) Selección y aprobación de profesores de perfil afín que serán designados como tutores de los estudiantes durante la elaboración de tesis de grado, de acuerdo con su experiencia en el curso y área temática, y al mismo tiempo incentivarlos a cumplir bien las tareas asignadas. El expediente académico mínimo para poder asesorar en un proyecto de tesis es:

c) Asignar un director de tesis a cada estudiante de acuerdo con el método y tema elegido.

d) Registrar el proyecto de diploma del alumno, especificando principalmente la modalidad, el título y la materia.

e) Asegurar que los consultores no tengan más de cinco asesores.

f) Programar reuniones con el director de tesis, las cuales se llevarán a cabo a lo largo del año académico para monitorear el progreso de la tesis e identificar y atender las necesidades emergentes de acuerdo con los Lineamientos Académicos para la Normalización de tesis de grado.

g) Designar a los miembros del Jurado para cada examen profesional, solicitarles que entreguen la tesis a tiempo para su análisis de acuerdo a las herramientas de evaluación desarrolladas por el Consejo de Examen Profesional (título, escala, etc.) método que se seleccione. alumno.

h) Verificar el desempeño de las funciones y tareas asignadas por los miembros del Jurado.

(50)

i) Identificar y planificar exámenes profesionales de acuerdo con las Normas de Seguimiento Escolar (Plan 2012). Programe un tiempo adicional en los próximos seis meses para los estudiantes que reprueben o reprueben el examen vocacional.

j) Desarrollar estrategias que definan el trabajo a realizar y aprobadas por el Supervisor por acuerdo para el método elegido.(Enrique C. Rebsamen, 2014)

(51)

2.3. Marco Conceptual

Data Mart: Un data mart es una base de datos, generalmente con un tema específico. En general, encontraremos Data Marts como partes de un data warehouse.

Data Mining: La minería de datos o data mining es una herramienta que combina diferentes tecnologías y técnicas capaces de extraer conocimientos tan valiosos de grandes bases de datos.

Streaming: Significa enviar y recibir paquetes de datos en un flujo continuo a través de la red.

SQL: SQL es una abreviatura de Structured Query Language, un lenguaje de programación para actualizar, recuperar y calcular información en bases de datos relacionales.

RDBMS: Un sistema de gestión de bases de datos relacionales es un conjunto de software y características que permiten que TI y otros equipos creen, actualicen, administren e interactúen con una base de datos relacional.

Webmaster: El webmaster es la persona responsable de crear, desarrollar y mantener un sitio web.

ETL: Extraer, transformar y cargar.

(52)

Servidor: Un servidor es una computadora especialmente diseñada para procesar información y programas y distribuirlos a las computadoras conectadas a él.

Repositorio: Un repositorio, depósito o archivo es una ubicación centralizada para almacenar y mantener información digital, generalmente una base de datos o un archivo de computadora.

Base de datos: Una base de datos es un "almacén" que nos permite almacenar grandes cantidades de información de manera organizada para que podamos encontrarla fácilmente y usarla más tarde.

iBPMS: Sistema de Gestión de Proceso de Negocios

(53)

2.4. Bases legales, normativas y estándares.

Usualmente, el acceso a los datos con participación directa del Estado de Ecuador tiene límites y condiciones que se deben respetar, en cuyo caso, tratándose de un proyecto destinado a gestionar la información de una institución pública como la Universidad Estatal del Sur de Manabí, no es una excepción.

Para que la institución conceda el permiso respectivo se procede a seguir las siguientes normativas:

• Consentimiento previo del desarrollo de proyecto que implique manipulación de datos de la Carrera.

• Solicitud al encargado de la información a utilizarse

• El análisis del caso por parte del encargado realizando los procedimientos que se cree necesario, de tal forma que valide su aprobación.

• Finalmente se hace la entrega formal de la información por parte del Encargado de la información.

Luego del justo acceso a la información este debe ser facilitado por tratarse de un establecimiento público y sujeto a la Ley Orgánica de Transparencia y Acceso a la Información Pública (LOTAIP).

LOTAIP fue publicada en Registro Oficial Suplemento 337 el 18 de mayo de 2004.

Desde esa fecha, el Ecuador cuenta con un instrumento legal que garantiza el derecho fundamental a encontrar, recibir y conocer información de interés público, así como garantizar la transparencia informativa y la rendición de cuentas para la gobernabilidad y la justicia pública en el Ecuador.

La ley consta de 23 artículos referentes a los más importantes desde el punto de vista de este proyecto:

(54)

¿A quién garantiza esta ley el acceso a la información pública?

Artículo 1.- Principios de la publicidad pública.

El acceso a la información pública es un derecho de la persona garantizado por el Estado. Toda información que surja o es propiedad bajo la autoridad de organizaciones, organismos, personas jurídicas de derecho público o privado que, con fines informativos, el Estado comparta, en cualquier forma, en los términos previstos en la Ley de Organizaciones de la Contraloría General del Estado; Las organizaciones de trabajadores y empleados de las empresas estatales, las instituciones de educación superior que perciben ingresos del Estado, denominadas Organizaciones No Gubernamentales (ONG), deben apegarse al principio de propaganda; En consecuencia, toda la información en su poder será publicada, salvo en los casos excepcionales previstos en esta ley.

¿Cuál es el propósito de esta ley?

Art. 2.- El sujeto de la ley.

Esta ley garantiza y regula el ejercicio por parte de toda persona del derecho fundamental a obtener información de acuerdo con las garantías previstas en la constitución política de la República, el Pacto Internacional de Derechos Civiles y Políticos, la Convención Interamericana sobre Derechos Humanos y demás instrumentos internacionales aplicables de los que nuestro país sea parte contratante.

Logra los siguientes objetivos:

a) el respeto a las disposiciones de la Constitución Política de la República en materia de publicidad, transparencia y rendición de cuentas a las que deben

(55)

sector público, el gobierno, la administración y los servidores públicos, incluidos los organismos mencionados en el anterior artículo. A tal fin, adoptará medidas para asegurar y mejorar la organización, clasificación y gestión de la información por cuenta de la Administración Pública;

b) Cumplir con los convenios internacionales legalmente suscritos por nuestro país sobre la materia;

c) Permite el control sobre la administración pública y los recursos públicos, permitiendo un efectivo control social;

d) Garantizar la protección de los datos personales en poder del sector público y/o privado;

e) La democratización de la sociedad ecuatoriana y la plena vigencia del estado de derecho, mediante el acceso a la información pública válida y legítima;

f) Facilitar la participación y el control efectivo de los ciudadanos en los procesos de toma de decisiones para el bien común.

¿A qué información tiene acceso como ciudadano?

Art 5.- Información pública

Se entiende por información pública cualquier material, en cualquier forma, en poder de las entidades públicas y personas jurídicas a que se refiere esta Ley, recibida, creada, adquirida, bajo su responsabilidad o creada con cargo a recursos estatales.

(56)

CAPÍTULO III. MARCO METODOLÓGICO 3.1. Tipo de investigación

Investigación de campo: Se utilizará para recopilar datos que servirán como base para el desarrollo del proyecto.

Investigación bibliográfica: Este método se utilizó para las fuentes de información lo que permitió establecer la investigación, se basa de manera notable en el proyecto que se llevó a cabo.

Cuantitativo: Se refiere a los enfoques y métodos que se han utilizado para identificar y evaluar una situación, al uso de tablas y gráficos estadísticos.

Este proceso implica mirar la situación desde diferentes ángulos para encontrar más datos sobre la situación en las respuestas dadas en las encuestas y discutir los riesgos o tomar decisiones sobre la situación a través de una sugerencia.

3.2. Métodos

Método deductivo: Este método fomenta la recopilación de información a partir de hechos generales para tratar con hechos más específicos.

Método inductivo: Este método permite analizar la escasez de un data warehouse y así conocer sus causas y efectos.