Modelo de referencia para la gestión de procesos licitatorios en Colombia usando analítica de datos

Texto completo

(1)MODELO DE REFERENCIA PARA LA GESTIÓN DE PROCESOS LICITATORIOS EN COLOMBIA USANDO ANALÍTICA DE DATOS. Luis Carlos Álvarez Villamizar Darío Sebastián Limas Cano 2019 Universidad Distrital Francisco José De Caldas Facultad Tecnológica Ingeniería En Telemática.

(2) i. MODELO DE REFERENCIA PARA LA GESTIÓN DE PROCESOS LICITATORIOS EN COLOMBIA USANDO ANALÍTICA DE DATOS. Monografía, para optar por el título de Ingeniero en Telemática. Tutor: Ingeniero Jairo Hernández Gutiérrez. Darío Sebastián Limas Cano Luis Carlos Álvarez Villamizar 2019 Universidad Distrital Francisco José De Caldas Facultad Tecnológica Ingeniería En Telemática.

(3) ii Tabla de Contenido Resumen ..................................................................................................................................... 1 Abstrac ....................................................................................................................................... 2 Introducción ............................................................................................................................... 3 1. FASE DE DEFINICIÓN PLANEACIÓN Y ORGANIZACIÓN ...................................... 4 1.1. Modelo de referencia para la gestión de procesos licitatorios en Colombia usando analítica de datos ......................................................................................................................... 4 1.2. Planteamiento del problema ...................................................................................... 4 1.2.1. Formulación del problema. ................................................................................... 5 1.3. Objetivos ................................................................................................................... 5 1.3.1. Objetivo general. ................................................................................................... 5 1.3.2. Objetivos específicos............................................................................................. 5 1.4. Alcances y delimitaciones......................................................................................... 6 1.4.1. Alcance. ................................................................................................................. 6 1.4.2. Delimitaciones. ...................................................................................................... 6 1.5. Justificaciones ........................................................................................................... 7 1.6. Marco de referencia .................................................................................................. 8 1.6.1. Estado del arte. ...................................................................................................... 8 1.7. Marco teórico .......................................................................................................... 10 1.7.1. Big data. .............................................................................................................. 10 1.7.2. Funcionamiento. .................................................................................................. 11 1.7.3. Big data en Colombia. ......................................................................................... 12 1.7.4. Política nacional de explotación de datos. .......................................................... 13 1.7.5. Fases del análisis. ................................................................................................ 14 1.7.6. Tipos de Analítica de datos. ................................................................................ 15 1.7.7. Web Scraping. ..................................................................................................... 17 1.7.8. Licitación. ............................................................................................................ 17 1.7.9. Proceso licitatorio en Colombia. ......................................................................... 17 1.7.10. Hadoop............................................................................................................. 19 1.7.11. HBase............................................................................................................... 20 1.7.12. Selenium . ........................................................................................................ 21 1.7.13. ElasticSearch. .................................................................................................. 22 1.8. Ciclo Deming .......................................................................................................... 23 1.9. Factibilidad ............................................................................................................. 24 1.9.1. Factibilidad operativa. ......................................................................................... 24 1.9.2. Factibilidad técnica. ............................................................................................ 25 1.9.3. Factibilidad económica. ...................................................................................... 25 1.9.4. Factibilidad Legal. ............................................................................................... 26 2. ANÁLISIS DE LA SITUACIÓN ACTUAL .................................................................... 29 2.1. Proceso actual de gestión de licitaciones en Colombia .......................................... 29 2.1.1. SECOP I. ............................................................................................................. 30 2.1.2. SECOP II. ............................................................................................................ 31 2.2. Procedimiento para la captura de datos .................................................................. 32 2.2.1. Registro y obtención de Token............................................................................ 32 2.2.2. Simulación peticiones HTTP. ............................................................................. 34.

(4) iii 3. IDENTIFICACIÓN Y CONFIGURACIÓN DE HERRAMIENTAS TECNOLÓGICAS BIG DATA.................................................................................................................................... 37 3.1. Identificación de herramientas para trabajar con Big Data ..................................... 38 3.2. Configuración inicial Hadoop ................................................................................. 40 3.2.1. Montaje primer nodo de Hadoop. ....................................................................... 41 3.2.1.1. Configuración HDFS - DATOS ................................................................... 41 3.2.2. Configuración MapReduce V2 – YARN – PROCESOS. ................................... 42 3.3. Configuración de ficheros para montar el Clúster .................................................. 45 3.4. Despliegue contenedores Docker ............................................................................ 48 3.5. Configuración de HIVE .......................................................................................... 50 4. MODELO DE BIG DATA ............................................................................................... 55 4.1. Diagrama del modelo propuesto ............................................................................. 56 4.2. Descripción del modelo .......................................................................................... 58 4.3. Detalle de los elementos del modelo ...................................................................... 59 4.3.1. HDFS – Hadoop Distributed File System ........................................................... 60 4.3.1.1. ¿Para qué sirve? ............................................................................................ 60 4.3.1.2. Arquitectura. ................................................................................................. 60 4.3.1.3. ¿Cómo es usado en el modelo? .................................................................... 63 4.3.1.4. ¿Qué más se puede hacer con él? ................................................................. 65 4.3.1.5. ¿Cómo más se puede complementar? ........................................................... 66 4.3.2. YARN – Yet Another Resource Negotiator ....................................................... 67 4.3.2.1. ¿Para qué sirve? ............................................................................................ 67 4.3.2.2. Arquitectura .................................................................................................. 67 4.3.2.3. ¿Cómo es usado en el modelo? .................................................................... 68 4.3.2.4. ¿Cómo se puede complementar? .................................................................. 69 4.3.3. HIVE ................................................................................................................... 71 4.3.3.1. Modos de ejecución de HIVE: ..................................................................... 71 4.3.3.2. Tipos de Datos (Schema) de HIVE .............................................................. 71 4.3.3.3. Como se accede al Hiveserver2 .................................................................... 72 4.3.4. HUE..................................................................................................................... 75 4.3.4.1. Configuración. .............................................................................................. 75 4.3.4.2. Funcionalidad. .............................................................................................. 78 4.4. Seguridad en el modelo ........................................................................................... 80 4.5. Funcionamiento del modelo .................................................................................... 82 5. IMPLEMENTACIÓN Y PRUEBAS DEL MODELO ..................................................... 84 5.1. Captura de datos SECOP programa PHP................................................................ 84 5.1.1. Configuración de script ....................................................................................... 85 5.2. Configuración ODBC ............................................................................................. 89 5.3. Conexión OBDC PHP-HIVE .................................................................................. 93 5.4. Ejecución de consultas al HDFS por medio de HIVE ............................................ 94 5.5. Analítica de datos con HUE .................................................................................... 94 CONCLUSIONES ................................................................................................................. 100 RECOMENDACIONES ........................................................................................................ 102 BIBLIOGRAFÍA .................................................................................................................... 103.

(5) iv Lista de Ilustraciones Ilustración 1 Fases del ciclo Deming. Fuente: Rojo (2018) ..................................................... 23 Ilustración 2 Colombia Compra Eficiente - Modulo Consulta SECOP I. Fuente: Colombia Compra Eficiente (2019)............................................................................................................... 30 Ilustración 3 Colombia Compra Eficiente - Modulo Consulta SECOP II. Fuente: Colombia Compra Eficiente (2019)............................................................................................................... 31 Ilustración 4 Búsqueda de proceso SECOP. Fuente propia ..................................................... 33 Ilustración 5 Botón "ver más" búsqueda procesos SECOP. Fuente propia ............................. 33 Ilustración 6 Token botón búsqueda de procesos SECOP. Fuente propia ............................... 34 Ilustración 7 Solicitud POST con mKey botón procesos SECOP. Fuente propia ................... 34 Ilustración 8 Solicitud POST índices y número de página botón procesos SECOP. Fuente propia ....................................................................................................................................................... 35 Ilustración 9 Respuesta HTTP POSTMAN búsqueda de procesos SECOP. Fuente Propia .... 35 Ilustración 10 Estructura Clúster Hadoop – Licitaciones. Fuente propia ................................ 37 Ilustración 11 Administrador Web: 9870 – vista de configuración del directorio del HDFS. Fuente propia. ............................................................................................................................... 42 Ilustración 12 Arquitectura Hadoop MapReduce. Fuente: Packt (2015) ................................. 43 Ilustración 13 Administrador Web de los procesos de los Nodos. Fuente propia. .................. 44 Ilustración 14 Configuración Clúster - Fichero hdfs-site.xml. Fuente propia. ........................ 46 Ilustración 15 Configuración Clúster - Metadatos directorio Current Namenode. Fuente propia. ....................................................................................................................................................... 46 Ilustración 16 Web Administración Hadoop - Nodos esclavos activos. Fuente propia ........... 47 Ilustración 17 Administración Web Hadoop - Nodos esclavos YARN. Fuente propia ........... 47 Ilustración 18 Dockerfile - Configuración Sistema Operativo Centos 7. Fuente propia ......... 48 Ilustración 19 Dockerfile - Configuración Hadoop – Java. Fuente Propia. ............................. 49 Ilustración 20 Dockerfile - Configuración Hadoop variables entorno y puertos. Fuente: propia ....................................................................................................................................................... 50 Ilustración 21 Hadoop - Ubicación directorios Hadoop y Hive. Fuente: propia. ................... 51 Ilustración 22 Dockerfile - Configuración Hive variables de entorno. Fuente: propia. ........... 51 Ilustración 23 Hive - Ficheros de configuración hiveserver2. Fuente propia. ......................... 51 Ilustración 24 Hive - Creación carpetas por default en HDFS. Fuente propia......................... 52 Ilustración 25 Dockerfile - Configuración final Hive. Fuente propia. ..................................... 53 Ilustración 26 Modelo Big Data. Fuente propia. ...................................................................... 57 Ilustración 27 Arquitectura HDFS: Fuente Apache (2019) ..................................................... 61 Ilustración 28 Archivos directorio Current Namenode. Fuente propia. ................................... 62 Ilustración 29 Flujo de ficheros metadatos HDFS Namenode. Fuente propia ......................... 62 Ilustración 30 Directorio de la tabla procesos Base de Datos SECOP. Fuente propia ............ 64 Ilustración 31 Detalle bloque generado archivo SECOP. Fuente propia ................................. 64 Ilustración 32 Administración HDFS desde HUE. Fuente propia. .......................................... 66 Ilustración 33 Esquema MAPREDUCE - YARN. Fuente: Apache (2019) ............................. 68 Ilustración 34 Detalles de aplicaciones ejecutadas en el modelo. Fuente propia. .................... 69 Ilustración 35 Jobs generados a partir de la ejecución de aplicaciones MapReduce. Fuente propia ............................................................................................................................................ 70 Ilustración 36 Detalle de las tareas generadas por los Jobs. Fuente propia. ............................ 70 Ilustración 37 Modos de conexión HiveServer2. Fuente: Mujumdar (2013) .......................... 73 Ilustración 38 Conexión Beeline CLI al HiveServer2. Fuente propia. .................................... 74.

(6) v Ilustración 39 Conexión JDBC HUE - HIVE. Fuente propia .................................................. 75 Ilustración 40 Configuración HUE - HDFS. Fuente propia. .................................................... 76 Ilustración 41 Configuración HUE - YARN. Fuente propia. ................................................... 77 Ilustración 42 Configuración HUE - HIVE. Fuente propia. .................................................... 77 Ilustración 43 Configuración HUE- Dockerfile. Fuente propia ............................................... 78 Ilustración 44 Comprobación de configuración HUE. Fuente propia. ..................................... 78 Ilustración 45 Bases de datos compatibles con HUE. Fuente propia. ...................................... 79 Ilustración 46 Editor de consultas HIVE SQL. Fuente propia ................................................. 79 Ilustración 47 Modelo Web Scraping. Fuente propia. ............................................................. 84 Ilustración 48 Ejemplo Selectores. Fuente propia. ................................................................... 86 Ilustración 49 Script Captura mkey SECOP. Fuente propia. ................................................... 87 Ilustración 50 Parámetros solicitud POST SECOP. Fuente propia. ......................................... 88 Ilustración 51 Array retornado de solicitud POST al SECOP. Fuente propia. ........................ 89 Ilustración 52 DRIVER HIVE OBDC. Fuente: Microsoft (2019) ........................................... 90 Ilustración 53 Administrador OBDC Sistema Operativo. Fuente propia. ............................... 90 Ilustración 54 Data Source Name - OBDC HIVE. Fuente propia ........................................... 91 Ilustración 55 Creación DSN de usuario HIVE. Fuente propia. .............................................. 91 Ilustración 56 Selección Controlador OBDC HIVE. Fuente propia. ....................................... 91 Ilustración 57 Configuración DNS HIVE. Fuente propia. ....................................................... 92 Ilustración 58 Test de conexión OBDC HIVE. Fuente propia................................................. 93 Ilustración 59 Función de conexión OBDC PHP - HIVE. Fuente propia. ............................... 93 Ilustración 60 Ejecución de Consultas hiveSQL desde Beeline. Fuente propia. ..................... 94 Ilustración 61 Ejecución consulta hiveSQL - administración HUE. Fuente propia. ............... 95 Ilustración 62 Resultado consulta hiveSQL - administración HUE. Fuente propia. ............... 95 Ilustración 63 Grafico de Barras, consulta hiveSQL. Fuente propia. ...................................... 96 Ilustración 64 Gráfico de Barras, consulta hiveSQL. Fuente propia. ...................................... 96 Ilustración 65 Grafico de Geolocalización. HUE. Fuente propia ............................................ 97 Ilustración 66 Consulta cantidad de procesos por entidad 2019 - HUE. Fuente propia .......... 97 Ilustración 67 Entidades con más procesos registrados 2019 - HUE. Fuente propia............... 98 Ilustración 68 Gráfico de Barras, cantidad procesos SECOP 2019. Fuente propia. ................ 98 Ilustración 69 Opciones de descarga de información. HUE. Fuente propia ............................ 99.

(7) vi Lista de tablas Tabla 1 Factibilidad Económica del proyecto. Fuente: propia................................................. 26 Tabla 2 Procesos activos Nodo Maestro - HIVE. Fuente: propia. ........................................... 53 Tabla 3 Tipos de datos HIVE. Fuente: propia. ......................................................................... 72 Tabla 4 Puertos servicios de Hadoop. Fuente: Propia.............................................................. 81.

(8) 1 Resumen En este documento se presenta la configuración, despliegue y pruebas de un modelo para la analítica de datos usando Big Data con el objetivo de gestionar la información de los procesos licitatorios de Colombia, pero también para que sea aplicable a otros sectores o modelos de negocio. Por medio del uso de herramientas de software libre, se plantea una solución Apache Hadoop, con la cual se almacena y manipula la información obtenida, garantizando tanto la redundancia de datos como el cumplimiento de los procesos de cada tarea generada y a su vez un mejor uso de los recursos disponibles del Cluster. Adicionalmente, se presenta el detalle de cada uno de los elementos que conforman este modelo, con el fin de comprender su funcionamiento, importancia e integración con diferentes herramientas. Finalmente, se cuenta con un apartado de implementación y pruebas del modelo, lo que permitirá iniciar con el paradigma de un sistema distribuido, bajo lo que es el concepto de Big Data, en cualquier organización dispuesta a invertir recursos en ello. La metodología que se trabaja es el ciclo Deming, organizado en los capítulos desarrollados en el documento comenzando con el análisis del panorama actual de las licitaciones para proseguir con la identificación y configuración de herramientas útiles para el desarrollo del modelo y con esto finalizar con los resultados al aplicar analítica de datos..

(9) 2 Abstrac This document show the configuration and test of a model for Data Analytics - Big Data - with the goal of manage the information of the bidding processes in Colombia but also for anothers kinds of sector or business logic. Through the use of free software tools, an Apache Hadoop solution is proposed, with which the information obstaneid is stored and manipulated, guaranteeing both the redundancy of data and the compliance of the processes of each task generated and at the same time a better use of the available resources of the Cluster. Additionally, the detail of each of the elements that make up this model is presented, in order to understand its operation, importance and integration with different tools. Finally, there is a section on implementation and testing of the model, which will start with the paradigm of a distributed system, under what is the concept of Big Data, in any organization willing to invest resources in it. The methodology used is the Deming Cycle, organized in the chapters developed in the document beginning with the analysis of the current landscape of the bids to proceed with the identification and configuration of useful tools for the development of the model and with this end with a sample of data analytics..

(10) 3 Introducción Hoy en día con el paso a la información en digital se tiene una gran cantidad de datos que, en su estado natural y sin ser procesados, no aportan algo significativo a la hora de tomar las decisiones. Para sacar provecho de esta situación surge la Analítica de datos o Big Data, la cual se enfoca en el tratamiento de grandes volúmenes de información a partir del uso de técnicas y herramientas, basadas en la estadística. En Colombia, la entidad encarga de gestionar los procesos licitatorios públicos, a partir del año 2011, es conocida como Colombia Compra Eficiente. Esta pone a disposición de las empresas, y/o personas interesadas en participar en las diferentes convocatorias para la celebración de contratos, un sistema de información que busca optimizar la oferta y demanda en el mercado de compra pública. A causa del gran flujo de información que se presenta en cada uno de los procesos licitatorios se presentan inconvenientes de rendimiento y de accesibilidad a los recursos lo cual impide a algunas empresas presentar su convocatoria. En el presente documento se realizará un análisis en detalle del proceso de gestión de las licitaciones en las plataformas del SECOP I (Sistema Electrónico para la Contratación Pública) y SECOP II de Colombia Compra Eficiente, identificando las posibles fuentes de datos para posteriormente, con la elaboración de un modelo de referencia enfocado al tratamiento y gestión de datos con Big Data, se tenga una base con la cual se pueda mejorar el sistema y sacarle provecho a toda la información relacionada con este..

(11) 4 1.. 1.1.. FASE DE DEFINICIÓN PLANEACIÓN Y ORGANIZACIÓN. Modelo de referencia para la gestión de procesos licitatorios en Colombia usando. analítica de datos. 1.2.. Planteamiento del problema. En los procesos de contratación pública y privada de Colombia se establecen una serie de requerimientos, los cuales deben ser cumplidos por las partes interesadas en la participación de estos, generando datos como los relacionados con los asuntos legales, tiempos establecidos para el desarrollo del proyecto, presupuestos, perfiles profesionales, datos personales de cada uno de los compradores y proveedores, descripciones de ofertas, datos no estructurados como adjuntos, entre otros. Todo esto genera grandes volúmenes de información en cada una de las licitaciones publicadas a diario que finalmente resultan en algo complejo de controlar. Durante los últimos años, en donde se ha dado paso a la digitalización, en la mayoría de los sectores productivos, las empresas Colombianas que han estado interesadas en participar de los procesos de contratación no logran tener acceso fácil a las diversas convocatorias, ya sea por la falta de entendimiento de las herramientas tecnológicas disponibles para la búsqueda y presentación. de. sus. perfil solicitado para. propuestas, o que aplicar no lo. a. pesar. consiguen por. publicación y el manejo de estos contratos.. de la. que pueden llegar falta. a cumplir el. de transparencia en. la.

(12) 5 Por todo esto, se identifica la necesidad de un cambio de paradigma en la forma en que se está gestionando los procesos licitatorios, a fin de facilitar, mejorar y garantizar la competitividad empresarial en aras de asegurar la calidad en la provisión de los bienes, obras y servicios.. 1.2.1. Formulación del problema. En Colombia se ha prestado importancia al manejo de la información en digital, por esto se han promovido proyectos relacionados con la Analítica de Datos (Big Data) y, además, cabe mencionar que es uno de los primeros países de América Latina en adoptar una política nacional para la explotación de los datos. Por lo tanto, ¿En la actualidad Colombiana es posible diseñar un modelo para gestión de los procesos licitatorios mediante técnicas adecuadas e identificación de las herramientas para aplicar analítica de datos?. 1.3.. Objetivos. 1.3.1. Objetivo general. Desarrollar un modelo de referencia para la gestión de los procesos licitatorios en Colombia, utilizando analítica de datos (Big Data). 1.3.2. Objetivos específicos. *Analizar la forma en que se gestiona actualmente los procesos licitatorios para determinar un plan de acción según el ciclo Deming..

(13) 6 *Identificar las herramientas tecnológicas y las fuentes datos más adecuadas para el desarrollo del modelo. *Diseñar el modelo para la gestión de los procesos licitatorios con base en las técnicas disponibles para usar analítica de datos. *Documentar los resultados obtenidos luego de realizar las pruebas del modelo e interpretarlos para identificar oportunidades de mejora.. 1.4.. Alcances y delimitaciones. 1.4.1. Alcance. El proyecto se realiza para plantear un modelo de referencia de Big Data que permita gestionar las licitaciones de Colombia apoyándose en la analítica de datos. Se muestra la configuración y uso de las diferentes herramientas disponibles para trabajar con grandes y/o variados volúmenes de datos, añadiendo el análisis de los resultados obtenidos. 1.4.2.. Delimitaciones.. Delimitación temática: Se procede a capturar los datos públicos de los procesos de licitaciones del SECOP mediante la técnica de Web Scraping, razón por la cual lo se puede contar con gran cantidad de datos de los procesos licitatorios..

(14) 7 Para el despliegue en un ambiente de desarrollo se dispone de tres equipos portátiles, en los cuales se instala y configuran los clientes y programas necesarios para la ejecución de una simulación a pequeña escala de lo que es Big Data. El proyecto tiene énfasis en brindar una aproximación de lo que significa trabajar con un modelo de Big Data, considerando cada uno de los factores claves como lo son los datos, procesos y análisis de datos. Delimitación Temporal. El proyecto se realiza en el transcurso de un (1) semestre, el cual transcurre desde marzo hasta agosto del año 2019 Delimitación Geográfica. Por medio de la plataforma del SECOP se capturan datos de los procesos de diferentes partes de Colombia, el área geográfica para el desarrollo del proyecto es la ciudad de Bogotá en la Universidad Distrital Francisco José de Caldas en la Facultad Tecnológica.. 1.5.. Justificaciones. En el mercado laboral cualquier oportunidad de obtener un contrato rentable entre contratista y contratante es de vital importancia. Con la creación de Colombia Compra Eficiente por parte del Gobierno de Colombia se abrió la posibilidad de contar con un ambiente tecnológico para la gestión de los procesos licitaciones y su publicación. Con el avance de la tecnológica, de una manera acelerada, surge la necesidad de establecer nuevas técnicas y modelos para el tratamiento y la presentación de los datos, considerando tanto el volumen, variedad, velocidad, veracidad y valor de estas estructuras de datos. Es aquí donde.

(15) 8 Big data se presenta como la solución y enfoque en cada uno de los aspectos mencionados anteriormente. Conocer las bases para el desarrollo de grandes modelos de analítica de datos es primordial y ayudará a comprender de mejor manera como abarcar diferentes situaciones. Es por ello que a través de este estudio se pretende plantear un modelo de referencia para la gestión de datos y presentar las herramientas actuales con las que se cuenta para estos casos.. 1.6.. Marco de referencia. 1.6.1. Estado del arte. En los últimos años se ha dado una revolución digital que ha generado una serie de problemas y oportunidades en muchos sectores. El tratamiento de la información, como uno de los activos más importantes para las empresas, es una necesidad y un reto que se debe asumir y para esto existen métodos como la analítica de datos con Big Data donde se logra identificar patrones de grandes cúmulos de datos en cuestión de segundos. Por ello, como lo afirman los estudiantes de la Universidad Distrital Reyes y Salinas (2016, p.66-76), en la tesis “Análisis de la viabilidad de la implementación de redes Big Data en Colombia”1, cuando se implementa un proyecto de Big Data influye mucho el “¿Qué se quiere hacer?” para así poder determinar el costo de este. A su vez, es viable el uso de un compendio de. 1. Reíta Reyes, J. E. y Salinas Hernandez, H. J. (2016). Análisis de la viabilidad de la implementación de redes Big Data en Colombia (Tesis de pregrado). Recuperado de http://repository.udistrital.edu.co/bitstream/11349/4018/1/Bigdata-FINAL-SI-1-1%20%281%29.pdf.

(16) 9 tecnologías, como lo es toda la familia del Framework Apache Hadoop la cual permite trabajar con el concepto de computación distribuida de una forma rápida y dinámica. Cabe resaltar que, por recomendación del resultado del análisis de viabilidad, lo más óptimo es que se trabaje en la nube la implementación de cualquier modelo de Big Data ya que la relación costo beneficio es mejor al no tener la necesidad de contar con una infraestructura física robusta para la implementación del modelo. Así mismo, como propone el programa de transformación productiva (PTP, 2018) surge la necesidad de implementar soluciones de Big Data en cualquier ámbito empresarial2, por lo que existen entidades interesadas en capacitar a los trabajadores de empresas BPO (Business Process Outsourcing), KPO (Knowledge Process Outsourcing) e ITO (Information Technology Outsourcing) en el análisis y visualización de datos, con el fin de promover el desarrollo de soluciones basadas en Big Data o Data Analytics para mejorar los procesos y rentabilidad de sus compañías. Las empresas, reciben diagnóstico del uso y apropiación de tecnologías y herramientas basadas en Data Analytics, Big Data o internet de las cosas por lo que se resalta la importancia de contar con expertos para comenzar a desarrollar una solución de computación distribuida que genere valor.. 2. Programa de transformación productiva. Formación en BigData. Recuperado de https://www.ptp.com.co/ptpservicios/ptp-convocatorias/para-empresas/ptp-busca-60-personas-del-sector-bpo-software-y-ti.

(17) 10 Finalmente, con referentes como la herramienta europea Digiwhist3, la cual a inicios del año 2018 se dio a conocer en los medios de comunicación como la revista La Vanguardia (2018), es posible observar las grandes ventajas que tiene la aplicación de Big Data en ámbitos del Gobierno. Este proyecto europeo de Big data, tiene como objetivo el control de los contratos público, como lo menciona La Vanguardia: “Seis organizaciones europeas, lideradas por la Universidad de Cambridge, han diseñado Digiwhist, un programa que almacena los datos de los contratos públicos de la Unión Europea y analiza los indicadores de riesgo potencial de corrupción.” Digiwhist es una herramienta, compleja, que realiza procesamiento de indicadores y datos apoyándose del conocimiento de las entidades reguladoras. Se presta suma importancia a la toma de la muestra, indicando que se tomaron las contrataciones públicas de 35 jurisdicciones, para obtener un mejor análisis y evaluación de los indicadores de riesgos de corrupción.. 1.7.. Marco teórico. 1.7.1. Big data.Según Gartnet (s.f.) Big data es un gran volumen, alta velocidad y / o gran variedad de activos de información que demandan formas rentables e innovadoras de procesamiento de la información que permiten un mejor conocimiento, toma de decisiones y automatización de procesos.4 Actualmente se puede identificar “cinco V”, que no son más que desafíos de la Big Data:. 3. La Vanguardia. (2018) Un proyecto europeo de big data servirá para controlar los contratos públicos. Recuperado de https://www.lavanguardia.com/vida/20180119/44120927162/un-proyecto-europeo-de-big-data-servira-paracontrolar-los-contratos-publicos.html 4. Gartnet. (s.f.). Big Data. Recuperado de https://www.gartner.com/it-glossary/big-data.

(18) 11  Volumen: una característica física, pero el modelado conceptual puede organizar, identificar y describir datos importantes y metadatos.  Velocidad: los datos deben filtrarse, pero el modelado conceptual puede ayudar a extraer datos importantes.  Variedad: la modelización conceptual puede modelar la variedad, las jerarquías y las redes de datos, integrar los datos y abordar el resultando en problemas de almacenamiento de datos grandes.  Veracidad: el modelado conceptual puede verificar la calidad, la integridad y la coherencia.  Valor: los modelos conceptuales pueden gestionar proyectos de Big Data, incluido el análisis de ellos para extraer valor y evaluar los resultados. 1.7.2.. Funcionamiento.Según Oracle (s.f.) las acciones clave, para el funcionamiento, de. Big data son: Integrar El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos de integración de datos convencionales, tales como ETL (extract, transform, load [extraer, transformar, cargar]), generalmente no están a la altura en dicha tarea. Analizar conjuntos de big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas estrategias y tecnologías. Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que estén formateados y disponibles de tal forma que los analistas empresariales puedan empezar a utilizarlos..

(19) 12 Gestionar El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la nube, on premise o ambas. Puede almacenar sus datos de cualquier forma que desee e incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de almacenamiento en función de dónde residan sus datos en cada momento. La nube está aumentando progresivamente su popularidad porque es compatible con sus requisitos tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita. Analizar La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas. Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus datos a trabajar. 1.7.3. Big data en Colombia5. Según (KienyKe, 2017) entre las profesiones que son más solicitadas se encuentran los analistas de datos. En la situación actual de Colombia se observa un déficit de profesionales de TI,. 5. KienyKe (2017). Analítica de datos ¿qué es y cómo vamos en el tema de Colombia? KienyKe Tecnología. Recuperado de https://www.kienyke.com/tendencias/tecnologia/analitica-de-datos-que-es-y-como-vamos-en-eltema-de-colombia.

(20) 13 estimando que en este sector se ofrece 70.318 puestos de trabajo, pero por año en el país se gradúan menos de 6.000 ingenieros. Sabiendo que todo lo relacionado con Big Data es una oportunidad de crecer en diferentes sectores, la entidad MINTIC creó en el año 2015 el Centro de Excelencia y Apropiación en Big Data y Big Data Analytics (CEA), enfocado a la investigación, además, puso en marcha proyectos como “Introducción al Pensamiento Computacional en colegios de Colombia” para promover el aprendizaje y la formación de habilidades en este tema. 1.7.4. Política nacional de explotación de datos6. En Colombia, desde 1997 se reconoce la eficiencia de las TIC par la administración pública y facilitan la provisión de servicios gubernamentales. Este cambio de paradigma da lugar al concepto de Gobierno Electrónico como aquella estrategia que emplea las TIC para beneficios sociales. Desde el Ministerio de Tecnologías de la Información y las Comunicaciones (MINTIC) se promueve el uso de la analítica de datos, Big Data, para el aprovechamiento de ese gran cumulo de información para mejorar la toma de decisiones. El Gobierno Nacional aprobó el CONPES 3920, elaborado por el Consejo Nacional de Política Económica y Social (CONPES, 2018) el cual define la Política nacional de explotación de datos, con los objetivos de que a 2022 Colombia pase de 51 % de promedio de activos públicos digitalizados y publicados que se tenía en 2017 al 100 %; impulsar el porcentaje de entidades que. 6. Consejo Nacional De Política Económica Y Social. (2018) POLÍTICA NACIONAL DE EXPLOTACIÓN DE DATOS (BIG DATA). Recuperado de https://colaboracion.dnp.gov.co/CDT/Conpes/Econ%C3%B3micos/3920.pdf.

(21) 14 tienen al menos un proyecto de aprovechamiento de datos, que en 2017 era el 9,3 % y que para dentro de cuatro años se espera que sea 90 %; y lograr que por lo menos el 50 % de las entidades públicas desarrollen proyectos de aprovechamiento de datos para mejorar los servicios prestados a la ciudadanía.. 1.7.5.. Fases del análisis.7. Como afirma Glez (2014) existen tres fases del análisis de los datos: Primera Fase, Analítica Horizontal: Es aquella que se centra en representaciones visuales de los datos que permitan obtener una impresión general sobre nuestros activos de forma sencilla e inmediata. Estas representaciones gráficas se han de corresponder con un KPI que esté alineado con nuestros objetivos de negocio y en el cual es común el uso de diferentes pictogramas, sencillas líneas de tendencia y adicionalmente algún valor porcentual o indicador a medida, que conjuntamente permitan visualizar de forma sintética los indicadores y valores que alimentan dicho KPI. Segunda Fase, Analítica Vertical: Comienza por profundizar o sumergirse dentro de los indicadores que hayamos seleccionado. Requiere dejar por un momento la representación gráfica y bucear por las diferentes tablas de datos. 7. Glez J. M. (2014). Introducción a la Analítica https://www.analiticaweb.es/introduccion-a-la-analitica-de-datos-i/. de. Datos. (I).. Recuperado. de.

(22) 15 que alimentan nuestros KPI’s. La imagen de un iceberg es muy gráfica para describir este proceso. Mediante la Analítica Horizontal vemos la punta del iceberg, pero solo sumergiéndonos en la Analítica Vertical podremos comprender la totalidad del mismo. Tercera Fase, Analítica Diagonal: Análisis de los datos en mayor profundidad, usualmente apoyados en métodos estadísticos más avanzados. El uso del término diagonal toma su sentido en este contexto, cuando en el análisis que realizamos recorremos diferentes indicadores, tablas y KPI’s para analizar la relación o dependencia que pueda existir entre ellos; pasamos por tanto de un análisis global pero de superficie (Analítica Horizontal) y de un análisis de profundidad pero centrado en uno o pocos indicadores (Analítica Vertical) a un análisis global y de profundidad (usamos el término global por cuanto que aplica a todos aquellos indicadores que consideramos puedan tener influencia en el comportamiento de la situación que queremos analizar) que involucra a varios o muchos conjuntos de datos de los cuales queremos analizar y comprender sus dependencias, su comportamiento actual, su posible evolución, etc. 1.7.6.. Tipos de Analítica de datos.8. Según Bertolucci (2013) es importante entender que la mayoría de los datos sin procesar, en particular la Big data, no tienen un valor significativo. Es por esto que es necesario aplicar un conjunto de herramientas y técnicas para obtener información valiosa.. 8. Bertolucci. J. (2013). Big Data Analytics: Descriptive Vs. Predictive Vs. Prescriptive. Recuperado de https://www.informationweek.com/big-data/big-data-analytics/big-data-analytics-descriptive-vs-predictive-vsprescriptive/d/d-id/1113279.

(23) 16 Lo primero a realizar, en cualquier modelo de Big data, es la recolección de grandes volúmenes de información los cuales serán analizados para encontrar patrones y más adelante lograr una predicción en base a estos. Primer paso: analítica Big Data descriptiva Es el análisis más básico, ocasionando que sea el más común de usar. Permite una reducción de los datos en pequeños fragmentos más manejables y concisos para analizar. En si se trata de un resumen. Segundo paso: analítica Big Data predictiva Después de la aplicación de técnicas estadísticas, de modelado, de minería de datos y de aprendizaje automático para estudiar datos recientes e históricos, otorga predicciones sobre el futuro, pero cabe aclarar que no son exactas, lo que permite es el planteamiento de un escenario posible. Su naturaleza es probabilística. Tercer paso: analítica Big Data prescriptiva Es, en cierta parte, un análisis predictivo diferenciándose en que se predicen futuros múltiples basados en las acciones del responsable de la toma de decisiones. Necesita de un modelo predictivo con dos componentes adicionales: datos procesables y un sistema de retroalimentación que hace un seguimiento de los resultados..

(24) 17 1.7.7. Web Scraping9. Como afirma Escuela de Datos (2016) el Web Scraping es una técnica utilizada para extraer datos de sitios web. Es un proceso automatizado donde una aplicación procesa el HTML de una página web para extraer datos para su manipulación, como convertir la página web a otro formato y copiarla en una base de datos local u hoja de cálculo para su posterior recuperación o análisis. 1.7.8. Licitación. El concepto de licitación pública va ligada al procedimiento administrativo por el cual un organismo público o privado requiere obras, servicios o adquisión de algún producto, el ejercicio consiste en sujetarse a las bases de realización del contrato, fijadas en el pliego de condiciones. El oferente es el encargado de formular propuestas de entre las cuales seleccionara la más conveniente. 1.7.9. Proceso licitatorio en Colombia10. Colombia compra eficiente (2018) afirma que esta plataforma pone al servicio de los compradores y proveedores realizar el proceso de contratación en línea haciendo uso de las herramientas (SECOP I, SECOP II), donde se garantiza la transparencia y la trazabilidad de los procesos de contratación ¿QUÉ ES EL SECOP II?. 9. Escuela de datos. (2016). Introducción a la extracción de datos de sitios web: scraping. Recuperado de https://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/ 10 Colombia compra eficiente. SECOP. Recuperado de https://www.colombiacompra.gov.co/.

(25) 18 El SECOP II funciona como una plataforma transaccional con cuentas para las Entidades Estatales y los Proveedores. Cada cuenta tiene unos usuarios asociados a ella. Desde sus cuentas las Entidades Estatales crean, evalúan y adjudican Procesos de Contratación. Los Proveedores pueden hacer comentarios a los Documentos del Proceso, presentar ofertas y seguir el proceso de selección en línea. Se crea un expediente digital para los proveedores registrados en el SECOP, donde se tiene aquellos documentos relacionados al proceso de contratación. Proceso de licitación pública actual: . Estudio sobre oportunidad o conveniencia del contrato. . Publicación de avisos. Dentro de los 10 y 20 días anteriores a la apertura.. . Elaboración del Pliego de Condiciones o Objeto o Regulación jurídica o Derechos u obligaciones de las partes o Otros factores de evaluación. Claridad. . Apertura de la Licitación o concurso. . Audiencia de aclaraciones 3 días después del inicio del plazo de presentación de propuestas. . Evaluación y resolución de preguntas.. . Adjudicación Proceso de licitación privada actual:  Estudio sobre oportunidad o conveniencia del contrato.

(26) 19  Invitación de forma expresa a determinadas empresas y no por anuncio público  Elaboración del Pliego de Condiciones o Objeto o Regulación jurídica o Derechos u obligaciones de las partes o Otros factores de evaluación. Claridad  Apertura de la Licitación  Audiencia de aclaraciones 3 días después del inicio del plazo de presentación de propuestas  Evaluación y resolución de preguntas.  Adjudicación. 1.7.10. Hadoop. Como definen Reíta Reyes, J. E. y Salinas Hernández, H. J. (2016), Hadoop “es una infraestructura digital con licencia apache creada bajo código abierto que permite la programación utilizando java, el propósito de esta tecnología es generar un motor de búsqueda potente y eficaz haciendo uso de tecnologías inspiradas en google. La importancia de esta estructura radica en que permite el paralelismo en sus procesos segmentando la información y dividiéndola en n equipos de cómputo permitiendo así el análisis de Petabytes de datos. De este modo siendo Hadoop uno de los hilos de Big data es conveniente enunciar de manera detallada su funcionamiento, dicho lo anterior Hadoop se segmenta en tres partes principales: Hadoop Distributed File System: Es un sistema distribuido de archivos que provee un acceso de alto rendimiento a los datos de la aplicación. Hadoop YARN: Es un Framework para programar tareas y gestionar los recursos del Clúster..

(27) 20 Hadoop MapReduce: Es un sistema basado en YARN para procesamiento en paralelo de grandes conjuntos de datos. Hadoop Common: Son las utilidades comunes que soportan a los demás módulos Hadoop” 1.7.11. HBase11. Según Amazon (s.f.) es un almacén de big data distribuida y escalable de forma masiva del ecosistema de Apache Hadoop. Es una base de datos de código abierto no relacional, está diseñada para brindar acceso en tiempo real aleatorio y estrictamente uniforme a tablas con miles de millones de filas y millones de columnas HBase es un modelo de datos que es similar a Google la gran tabla diseñada para permitir el rápido acceso aleatorio a enormes cantidades de datos estructurados. Aprovecha la tolerancia a errores de sistema de archivos de Hadoop (HDFS). Es una parte del ecosistema Hadoop que proporciona al azar tiempo real acceso de lectura/escritura a los datos de la Hadoop Sistema de archivos. Uno puede almacenar los datos de los HDFS, bien directamente o a través HBase. Consumidor de datos lee y tiene acceso a los datos en forma aleatoria usando HBase HDFS. 11. Amazon (s.f.). Apache HBase en Amazon EMR. Recuperado de https://aws.amazon.com/es/emr/details/hbase/.

(28) 21 1.7.12.. Selenium 12.. Como definen Vidal, Palacios y Zambrano. (2013): Selenium IDE “Es un entorno de pruebas para aplicaciones basadas en web, Provee herramientas para crear pruebas sin usar un lenguaje, el uso de este no solo está en automatización de pruebas, ya que usual mente se puede utilizar para realizar minería de datos, Monitoreo de páginas web con el fin de detectar cambios, Investigación, o búsqueda de información específica en portales web, entre otros” Selenium WebDriver “Es un entorno de automatización de pruebas que opera a partir de los lenguajes de programación mencionados en la definición de Selenium. La principal contribución de WebDriver son los controladores nativos que dan soporte a distintos navegadores (Internet Explorer, Mozilla Firefox, Google Chrome, Opera y Safari). Debido a que Selenium tiene las restricciones propias de Javascript (lenguaje con el que está hecho), WebDriver va más allá y dependiendo del navegador que queramos probar utiliza el mecanismo más apropiado, por ejemplo en Mozilla Firefox se implementa como una extensión, para Internet Explorer hace uso de los objetos propios de automatización. Incluso puede hacer uso de las características de los. 12. Vidal, Palacios y Zambrano. (2013). SELENIUM MANUAL DE INSTALACIÓN Y USO. Recuperado de https://campusvirtual.univalle.edu.co/moodle/pluginfile.php/486657/mod_folder/content/0/ManualSelenium.pdf?for cedownload=1.

(29) 22 navegadores desde el punto de vista del sistema operativo. Gracias a WebDriver ya no es necesario de un navegador web real para lanzar los test sino que utiliza una aplicación basada en HtmlUnit para simular el navegador.” 1.7.13. ElasticSearch13. Según el Instituto de Ingeniería del Conocimiento (IIC, 2016) es una potente herramienta para la búsqueda entre grandes cantidades de datos, especialmente cuando los datos son de tipo complejo, es un servidor de búsqueda basado en Lucene. Es distribuido y con capacidad de multitenencia con una interfaz web RESTful, Esta solución se convierte en una excelente solución para el campo de big data y analítica. Se utiliza para búsqueda web, análisis de registros y análisis de Big Data. ElasticSearch es la herramienta más popular porque es fácil de instalar, se amplía a cientos de nodos sin software adicional, y es fácil de usar debido a su API REST incorporada. A continuación, se encuentra el resumen de los beneficios clave;  API amigable para desarrolladores.  Análisis en tiempo real.  Facilidad de indexación.  Búsqueda de texto completo.  Grupos resilientes.. 13. Instituto de Ingeniería del Conocimiento (IIC, 2016). 7 Herramientas Big Data para tu empresa. Recuperado de http://www.iic.uam.es/innovacion/herramientas-big-data-para-empresa/.

(30) 23 1.8.. Ciclo Deming14. Como afirma Ana Rojo (2013) las fases del Círculo PDCA o Ciclo de Deming, son: Planificar, Hacer, Verificar y Actuar.. Ilustración 1 Fases del ciclo Deming. Fuente: Rojo (2018). Como se observa en la ilustración 1, la teoría se representa de forma habitual por un círculo que representa la evolución continua del ciclo de Deming. El círculo o la rueda siempre debe estar en movimiento y cada uno de los pasos alimenta el siguiente, de forma que cada vez sea más sencillo avanzar y más natural.. 14. Rojo, A. El ciclo de Deming o círculo PDCA. Recuperado de https://www.sbqconsultores.es/el-ciclo-dedeming-o-circulo-pdca/.

(31) 24 Las fases o acciones son las siguientes:  Planificar (Plan): en esta etapa se planifica los cambios y lo que se pretende alcanzar. Es el momento de establecer una estrategia en el papel, de valorar los pasos a seguir y de planificar lo que se debe utilizar para conseguir los fines que se estipulan en este punto.  Hacer (Do): aquí se lleva a cabo lo planeado. Siguiendo lo estipulado en el punto anterior, se procede a seguir los pasos indicados en el mismo orden y proporción en el que se encuentran indicados en la fase de planificación.  Verificar (Check): en este paso se debe verificar que se ha actuado de acuerdo a lo planeado, así como que los efectos del plan son los correctos y se corresponden a lo que inicialmente se diseñó.  Actuar (Act): a partir de los resultados conseguidos en la fase anterior se procede a recopilar lo aprendido y a ponerlo en marcha. También suelen aparecer recomendaciones y observaciones que suelen servir para volver al paso inicial de Planificar y así el círculo nunca dejará de fluir.. 1.9.. Factibilidad. 1.9.1. Factibilidad operativa. Este proyecto es factible operativamente ya que se cuenta con los recursos esenciales para el desarrollo de un ambiente de pruebas que muestre de manera simple el funcionamiento de un modelo de Big Data aplicado a un caso de uso, referente a la gestión de la información de los procesos licitatorios en Colombia. El sistema será documentado en cada una de sus partes críticas para facilitar el entendimiento de los diferentes procesos involucrados y que finalmente muestre las ventajas de su implementación en un ambiente laboral o académico..

(32) 25 1.9.2. Factibilidad técnica. El proyecto es desarrollado por dos estudiantes de la Universidad Distrital de la Facultad Tecnológica, los cuales poseen diferentes habilidades y conocimiento en el desarrollo de programas informáticos que son de utilidad para cada una de las etapas del planteamiento del modelo. En lo referente a las herramientas tecnológicas se dispone de equipos con diferentes sistemas operativos tales como distribuciones Linux (Centos y Ubuntu Desktop), Windows y MAC por lo que se pueden hacer diferentes pruebas de despliegue de los aplicativos en diversos ambientes. Adicionalmente, la mayoría de los programas que se usan están bajo la licencia de apache por lo cual se garantiza el acceso libre sin condiciones al ser herramientas Open Source. 1.9.3. Factibilidad económica. Como se mencionó anteriormente, se cuenta con software libre el cual garantiza en parte la factibilidad económica del proyecto. Cabe considerar que el activo más valioso será el tiempo de cada uno de los ejecutores, de los cuales se estima que disponen de 14 horas a la semana, y los recursos tecnológicos necesarios para el correcto funcionamiento del modelo. A continuación, se presenta la relación del presupuesto..

(33) 26 Tabla 1 Factibilidad Económica del proyecto. Fuente: propia.. Recurso Ingeniero 1 Ingeniero 2 Portátil Portátil Licencia Servidores Centos Programas Apache Internet Total. Presupuesto Estimado Mayo Junio Julio. Marzo. Abril. Agosto. Costo X Mes Costo Total. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 5’600.000. $33’600.000. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 56 Horas. 5’600.000. $33’600.000. -. -. -. -. -. -. -. 2’000.000. -. -. -. -. -. -. -. $2’000.000. -. -. -. -. -. -. -. $0. -. -. -. -. -. -. -. $0. Plan proveedor. ™. Plan proveedor. Plan proveedor. Plan proveedor. Plan proveedor. $90.000. $540.000. $11’290.000 $71’400.000. 1.9.4. Factibilidad Legal. El proyecto es viable legalmente dado las condiciones expuestas por la licencia de Apache 2.0 para Herramientas libres y la ley 11723 de Colombia dedicada a el software libre. Licencia Apache 2.0 – Software Libre15 “Concesión de la licencia de derechos de autor. Sujeto a los términos y condiciones de esta Licencia, cada Contribuidor por este medio se le otorga una licencia de derechos de autor perpetua, mundial, no exclusiva, sin cargo, irrevocable e irrevocable para reproducir, preparar Trabajos. 15. The Apache Foundation. Licencia https://www.apache.org/licenses/LICENSE-2.0. Apache,. Versión. 2.0. (2019). Recuperado. de.

(34) 27 Derivados de, exhibir públicamente, realizar públicamente, Haga sub licencia, y distribuya el Trabajo y los Trabajos Derivados en forma de Fuente u Objeto. Concesión de licencia de patente. Sujeto a los términos y condiciones de esta Licencia, cada Contribuidor por este medio se le otorga una licencia de patente perpetua, no exclusiva, gratuita, exenta de derechos, irrevocable para realizar, usar, ofrecer vender, vender, importar y, de lo contrario, transferir el Trabajo, cuando dicha licencia se aplique solo a aquellas reclamaciones de patentes que puedan ser otorgadas por dicho Contribuidor y que sean necesariamente infringidas por su Contribución solo o por la combinación de su Contribución con la Obra a la que se sometió dicha Contribución ...” Referente a la ley de Software Libre en Colombia 11723, la cual está compuesta por 89 artículos, sancionada en 1933 (y todavía vigente), conocida como "Ley de Propiedad Intelectual" o también como "Ley de Propiedad Científica, Literaria y Artística" se declara lo siguiente: “El software libre —software de código fuente abierto— es aquel cuyo autor licencia otorgando las siguientes libertades a sus usuarios: 1. La libertad de ejecutar el programa para cualquier propósito. 2. La libertad de estudiar la manera en que el programa opera y adaptarlo a sus necesidades particulares. 3. La libertad para redistribuir copias del programa (incluido su código fuente) a quien desee. 4. La libertad de mejorar el programa y distribuir sus mejoras al público bajo las mismas condiciones del programa original..

(35) 28 Es importante resaltar que el software libre no atenta de ninguna manera contra los derechos de autor y de propiedad intelectual: no tiene nada que ver con la piratería, en tanto que los autores autorizan explícitamente a los demás a hacer uso de sus creaciones ofreciéndoles las libertades anteriores.”16. 16. Glosario-over-blog.es. Leyes sobre software Libre en Colombia (2010) Recuperado de http://glosario.over-. blog.es/article-leyes-sobre-software-libre-en-colombia-59255157.html.

(36) 29 2.. ANÁLISIS DE LA SITUACIÓN ACTUAL. Este capítulo recopila el proceso de contratación pública en la actualidad, los portales y herramientas que el gobierno bajo el decreto 4117 de 2011 ha puesto a disposición de la ciudadanía, entre los cuales se encuentra el portal SECOP I y SECOP II, Adicional a ello se realiza el primer análisis de la web, para identificar los tipos de datos, accesos necesarios y medios por los cuales se puede realizar la minería de datos para el presente modelo.. 2.1.. Proceso actual de gestión de licitaciones en Colombia. El Gobierno de Colombia por medio del Decreto Ley 4170 de noviembre 3 de 2011 reconoce la necesidad de tener una entidad que se encargue de la gestión y promoción de las licitaciones públicas por lo cual decide crear Colombia Compra Eficiente. Esta entidad pone a disposición de los colombianos un sistema de información que permita generar transacciones en línea, con herramientas tecnológicas que responden las necesidades de las Entidades Estatales, razón por la cual a través de los años ha estado innovando las plataformas para que cada vez sea más fácil acceder a la información relacionada con las licitaciones. Entre las plataformas que nacen de esta entidad, para la gestión de licitaciones, se encuentra el Sistema Electrónico para la Contratación Pública o más conocido como SECOP..

(37) 30 2.1.1.. SECOP I.. Según Colombia Compra Eficiente (2019) el SECOP I es una “plataforma en la cual las entidades que contratan con cargo a recursos públicos publican los Documentos del Proceso. El SECOP I es una plataforma exclusivamente de publicidad”17. Como se puede observar en la ilustración 218 el modulo del SECOP I permite realizar consultas para conocer los procesos de contratación según su número de radicación o fecha de publicación (abiertas en los últimos siete (7) días). También es posible descargar un histórico del plan de adquisiciones desde el año 2013 hasta la actualidad, lo que permitiría, por ejemplo, realizar un análisis y/o auditora del manejo de los procesos licitatorios por cada entidad.. Ilustración 2 Colombia Compra Eficiente - Modulo Consulta SECOP I. Fuente: Colombia Compra Eficiente (2019). 17. Colombia Compra Eficiente. (2019). compra/secop. 18. Recuperado de https://www.colombiacompra.gov.co/colombia-. Colombia Compra Eficiente (2019). Recuperado de https://www.colombiacompra.gov.co/proveedores/consulteen-el-secop-i.

(38) 31 2.1.2.. SECOP II.. Según Colombia Compra Eficiente (2019) el SECOP I es una “plataforma transaccional para gestionar en línea todos los Procesos de Contratación, con cuentas para entidades y proveedores; y vista pública para cualquier tercero interesado en hacer seguimiento a la contratación pública.”19. Al igual que en el SECOP I, como lo muestra la Ilustración 320, esta plataforma permite realizar búsquedas de procesos de contratación según los criterios definidos por cada usuario.. Ilustración 3 Colombia Compra Eficiente - Modulo Consulta SECOP II. Fuente: Colombia Compra Eficiente (2019). 19. Colombia Compra Eficiente. (2019). compra/secop. 20. Recuperado de https://www.colombiacompra.gov.co/colombia-. Colombia Compra Eficiente (2019). Recuperado de https://www.colombiacompra.gov.co/secop/consulte-en-elsecop-ii.

(39) 32 Diariamente se publican miles de procesos licitatorios los cuales poseen información tal como la entidad estatal, descripción, fase actual, fechas de publicación, documentación en diferentes formatos (PDF, EXCEL, MP3, AUTOCAD, PNG, TIFF, POWER POINT y ASF), información presupuestal y muchas cosas más, por lo que el flujo de información crece exponencialmente. Todos estos datos pueden llegar a ser enriquecedores para cualquier tipo de análisis, es por esto que la Big Data entra como un gran protagónico y también como un punto de apoyo u opción para la identificación de oportunidades de mejora.. 2.2.. Procedimiento para la captura de datos. Hablar de Big Data se entiende como grandes volúmenes de información, para el desarrollo del siguiente modelo, se requiere hacer una aproximación a estas grandes cantidades de datos, por ello es necesario hacer uso de herramientas, que permiten capturar los procesos de contratación de portales de Licitación pública, para ello se realiza la minería de datos por medio de Web Scraping, una vez identificada la información de interés, se procede a capturar el token o credencial de acceso que provee el mismo portal. Por tal motivo se hace uso de la herramienta de automatización de pruebas Selenium, para realizar por medio de Click Stream la obtención del mismo. A continuación, se muestra la forma de ver dicho token. 2.2.1.. Registro y obtención de Token.. Inicialmente es necesario estar registrado en SECOP este registro se puede realizar en la siguiente dirección: https://community.secop.gov.co/STS/Users/Login/Index.

(40) 33 Usuario: Luisk262 Contraseña: Secop2/CO2 Una vez en plataforma es necesario dirigirse al menú y buscar el botón “Buscar por proceso” allí se encuentra la información de nuestro interés. Ilustración 4 Búsqueda de proceso SECOP. Fuente propia. Se debe analizar el funcionamiento de esta página para lo cual es necesario concentrarse en el botón “ver más” el cual se debe inspeccionar con el navegador:. Ilustración 5 Botón "ver más" búsqueda procesos SECOP. Fuente propia.

(41) 34 Al analizar el botón se ve un token identificado con la variable mkey. Ilustración 6 Token botón búsqueda de procesos SECOP. Fuente propia. Para obtener esta variable se utiliza Selenium el cual simula la interacción de un usuario hasta llegar a esta página, como lo se mostró anterior mente y saca este parámetro para luego ser utilizado. 2.2.2. Simulación peticiones HTTP. La segunda herramienta que se utiliza es una herramienta comúnmente conocida como rastreador (Crawler) con ella se simula la petición que realiza el botón “ver más” anterior mente mencionado. Para realizar la petición se debe conocer el mKey, y asignar un startidx (Inicio de índice) variable entera que identifica el inicio de un segmento de la base de datos y un endidx (final de índice) variable entera que identifica el fin del segmento de la base de datos, para realizar una prueba inicial, he identificar si los valores enviados son correctos se puede hacer uso de una herramienta que permite realizar envió de peticiones HTTP REST como Postman.. Ilustración 7 Solicitud POST con mKey botón procesos SECOP. Fuente propia.

(42) 35. Ilustración 8 Solicitud POST índices y número de página botón procesos SECOP. Fuente propia. Si él envió es el adecuado y con status 200, Postman debe retornar el contenido en formato HTML de 5 procesos de contratación como se muestra a continuación. Ilustración 9 Respuesta HTTP POSTMAN búsqueda de procesos SECOP. Fuente Propia. Una vez probado se procede a realizar el mismo proceso a través de Crawler el cual debe retornar el mismo resultado..

(43) 36 En síntesis, las plataformas que dispone Colombia Compra Eficiente para la publicación y gestión de las licitaciones, es un buen punto de partida para obtener datos que sean útiles en las pruebas del modelo. Así mismo, gracias a las técnicas de análisis Web con herramientas como Selenium, se abre la posibilidad de contar con información de los procesos como lo es el nombre de la entidad estatal solicitante, descripción de la licitación, fase actual, fechas de publicación, entre otros, para finalmente con toda esta data que se capture de las herramientas de gestión SECOP I y SECOP II sea tratada en un modelo Hadoop Big Data para posteriormente obtener resultados a partir de un análisis de la información recolectada..

(44) 37 3.. IDENTIFICACIÓN Y CONFIGURACIÓN DE HERRAMIENTAS TECNOLÓGICAS BIG DATA. En este capítulo se definen algunos productos que podemos utilizar en Big data, como lo son Apache Hadoop, Apache Hive, Cloudera Hue, adicional a ello se muestra el paso a paso para la configuración de apache Hadoop, con sus respectivos nodos que conforman en última instancia el Cluster. Así mismo se introducirá la función de los elementos que conforman el modelo iniciando con HDFS, encargado del almacenamiento de ficheros de forma distribuida; YARN, encargado de gestionar los recursos del Clúster cuya configuración encontrara en el presente capitulo y Hive como último elemento, el cual permite trabajar con el Clúster como si se trabajara con una base de datos SQL.. Ilustración 10 Estructura Clúster Hadoop – Licitaciones. Fuente propia.

(45) 38 3.1.. Identificación de herramientas para trabajar con Big Data. Según Cloudera (2019), Big data incluye muchos productos asociados, en su mayoría del proyecto Apache, que facilitan la configuración y gestión de los diferentes elementos de un sistema tipo Cluster.21 Soluciones como Hortonworks, permiten la descarga de productos, como por ejemplo Hortonworks Sandox, las cuales traen montado un entorno para trabajar con Hadoop con una configuración inicial avanzada, algunas son open source bajo los términos y condiciones de la compañía. Como se encuentra en la documentación de Hortonworks SandBox22, esta solución incluye:  Apache Hadoop: Es un entorno distribuido de Datos y Procesos, es un sistema de tipo Clúster que ofrece escalabilidad. Hadoop implementa procesamiento en paralelo a través de múltiples nodos de datos en un sistema de ficheros distribuidos. Usa varios componentes: . Hadoop Common. . MapReduce. . HDFS (Hadoop Distributed File System). 21. Cloudera. (2019). Cloudera Documentation. Recuperado de https://docs.hortonworks.com/. 22. Cloudera (2019). Development with Hadoop. Recuperado de https://es.hortonworks.com/tutorials/.

(46) 39  Apache Spark: Motor muy eficiente de procesamiento de datos a gran escala, maneja procesamiento en tiempo real. Trabaja de forma masiva en memoria. Adicionalmente puede funcionar Stand-Alone..  Apache Hive: Ver nuestro Hadoop como si fuera una base de datos normal, permite hacer consultar al estilo “SELECT * FROM” (Usa MapReduce – procesos tipo Batch - por debajo) lo que simplifica el desarrollo..  Apache HBase: Se puede decir que es la base de datos por defecto de Hadoop. Es de tipo multi columna. Está preparada para trabajar con Hadoop por lo cual es distribuida y escalable a su vez que permite gestionar grandes cantidades de información.. El mayor problema con la solución que ofrece HortonWorks es que los recursos para correr su ambiente virtual son bastante altos, por ejemplo, como mínimo se debe contar con 10GB de RAM dedicadas y 4 núcleos de procesamiento por cada nodo por lo cual excede el alcance del proyecto. Por lo anterior se realiza la instalación en limpio de Hadoop y los productos asociados. En cuanto a la virtualización, cabe resaltar que se puede trabajar con Virtual Box, VMware o Docker. Para el desarrollo del proyecto se hace uso de:  Docker  Sistema Operativo Centos 7  Apache Hadoop versión 3.2.0.

(47) 40  Hive versión 3.1.1  Microsoft® Hive ODBC Driver version 2.1.16  Lenguaje de programación Php 7.1  Framework Php Laravel versión 5 Para el desarrollo del proyecto se plantea disponer de tres Nodos de Hadoop, uno maestro y dos esclavos, para aumentar el procesamiento de datos.. 3.2.. Configuración inicial Hadoop. En primer lugar, se instala Hadoop desde el descargable.tar.gz 23 Enseguida es necesario instalar el JDK Java ya que para la ejecución de aplicaciones se usa el compilador de java y adicionalmente se deben configurar las variables de entorno HADOOP_HOME, JAVA_HOME. A continuación, otro paso importante en la configuración es el SSH (shh-keygen) En caso de tener un Clúster con 3 nodos Hadoop, con comandos SSH es la forma en que el Nodo maestro se comunica entre los demás nodos del Clúster. Se tiene que pasar la clave pública entre los nodos. (authorized_keys => donde van a estar todas las claves). 23. Apache org. Dowload Hadoop. Recuperado de https://hadoop.apache.org/releases.html.