Fuentes de datos - Desarrollo del prototipo funcional de sistema de información

2. Desarrollo del prototipo funcional de sistema de información

2.5. Fuentes de datos

Existe una cantidad de información cuya variación puede ser afectada por los procesos de negocio o la cantidad de datos es muy grande, esto genera la necesidad del desarrollo de una serie de procesos ETL que permitan automatizar la obtención de dicha información sin embargo existe información que es muy invariante en el tiempo lo que representa la necesidad de simplemente cargar datos mediante un script en la base de datos. Por ello se realiza un análisis a nivel de datos de cada una de las dimensiones para validar cual debe ser cargada mediante ETL y cual mediante proceso interno en la base de datos.

Tabla 2. Análisis para el desarrollo de la estructura dimensional.

Dimensión o Tabla

Tipo de cargue Justificación

Script BD ETL

Dimensión de periodo

X La dimensión de periodo almacena datos de año y

semestre en el cual se realiza el examen del icfes por ello son dos datos por año lo que no ameritaría gastar tiempo en desarrollo de un proceso automático ya que se puede dejar parametrizando los valores hasta un año muy grande mediante base de datos.

Dimensión de tiempo

X X La dimensión del tiempo tiene un manejo especial, ya que se debe generar un procedimiento almacenado que realice la actualización de los valores

aprovechando las características que tiene Oracle para el manejo de las fechas, sin embargo también se debe generar un proceso mediante ETL que llame este procedimiento almacenado así controlando su ejecución mediante un ente externo en este caso Pentaho.

Dimensión de ubicación

X La dimensión de ubicación almacena la información de los departamentos y municipios, a pesar de que estos datos a nivel de negocio no pueden variar constantemente, es importante generar un proceso

automático ya que la cantidad de datos almacenada es muy grande.

Dimensión de genero

X Los datos de género, se toman los que son

almacenados por la registraduría F y M por ello se prevé que no es necesario un proceso ETL

estructurado para solamente dos datos.

Dimensión de identidad

X La dimensión de identidad a pesar de tener una cantidad de datos no considerable, es posible que se presenten nuevos valores o que estos lleguen a cambiar para las respectivas homologaciones.

Dimensión de tipo estudiante

X El tipo estudiante se creó desde el análisis de información del maestro de resultados icfes en las que se identificaron una cantidad de información paramétrica que se puede analizar, sin embargo son únicamente 3 registros.

Dimensión de instituciones

X Las instituciones, tienen una cantidad de datos considerable y además pueden crearse nuevas frecuentemente de acuerdo con el ciclo de negocio. Por consiguiente van a ser cargadas mediante un proceso ETL.

Tabla de hechos de resultados icfes

X La tabla de hechos, involucra la información de todas las dimensiones y además almacena información transaccional de negocio para el análisis por ello es necesario generar un proceso automático que realice el cargue de esta información.

De acuerdo a esta validación se procede a realizar el mapeo de las fuentes de datos que se van a utilizar en el proceso de desarrollo y a realizar el desarrollo en sí, para este caso el framework de la herramienta, permite realizar dos ejecuciones, una donde se extrae la información de archivos o bases de datos externas y la siguiente que realiza una generación de la lógica y reglas de negocio que van a ser implementadas dentro de la herramienta, a la primera etapa se la conoce como a la secuencia y la etapa interna se la conoce como JOB una secuencia puede estar constituida de múltiples Jobs y de múltiples secuencias.

2.5.1. Dimensión de ubicación

La primera etapa es la construcción de la dimensión de ubicación, esta tiene la codificación de los municipios y departamentos de Colombia donde se presentan los exámenes del ICFES. Los códigos al interior del aplicativo son asignados por el departamento administrativo nacional de estadística DANE.

Figura 31. Etapa de extracción de la dimensión de ubicación fuente propia.

Figura 32. Etapa de transformación y carga de la dimensión de ubicación fuente propia.

En la etapa de extracción se realiza una el llamado a la siguiente URL https://www.datos.gov.co/resource/p95u-vi7k.csv, donde está expuesta la información de los municipios y departamentos expuestos en un archivo plano que es descargado en una ruta de extracción del servidor, esto se indica en el job HTTP, seguido se realiza llamado al JOB_TRF_UBICACION que se encuentra descrito en la figura XX donde se realiza la extracción del archivo, se organiza la data y se genera un código unitario para que mediante la etapa Insert/Update sea insertado en la base de datos en la tabla DIM_UBICACION generada por el anterior diseño.

2.5.2. Dimensión de tipo documento

Figura 34. Etapa de transformación y carga de la dimensión de tipo documento fuente propia.

La construcción de la dimensión de tipo documento se divide en dos etapas, la primera es la extracción de un archivo plano desde la ruta https://www.datos.gov.co/resource/psge-wu68.csv donde se encuentra la parametrización de los tipo de documento que existen para un ciudadano colombiano, seguido a ello se ejecuta el job JOB_ETL_TIPO_DOCUMENTO que realiza la organización de los datos y la etapa de Insert/Update que va a insertar y a actualizar los registros en la base de datos dimensional para la tabla DIM_TIPO_DOCUMENTO.

2.5.3. Dimensión de tiempo

Figura 35. Etapa de extracción de la dimensión de tiempo fuente propia.

Figura 36. Etapa de transformación y carga de la dimensión de tiempo fuente propia.

La dimensión de tiempo tiene una particularidad dentro del modelo, ya que no utiliza una fuente externa para cargar sus datos de mes, día y año, sino que se desarrolló un

procedimiento dentro de la base de datos Oracle que utiliza la funcionalidad de fechas del aplicativo para realizar el cálculo de estas fechas, sin embargo para controlar que todo el proceso corra de forma asíncrona se realiza el desarrollo de una serie de Jobs dentro del proceso ETL de Pentaho que realiza el llamado al procedimiento almacenado, esto se puede observar en las figuras anteriores.

2.5.4. Dimensión institución

Figura 37. Etapa de extracción de la dimensión institución fuente propia.

Figura 38. Etapa de transformación y carga de la dimensión institución fuente propia.

La dimensión institución se extrae mediante un origen de datos externos por ello en la extracción se coloca una etapa de HTTP que direcciona a la siguiente url https://www.datos.gov.co/resource/u3ch-n6ec.csv, donde contiene la información de las

instituciones a nivel regional y su codificación DANE que es la llave interna dentro de la base de datos dimensional. El JOB_TRF_DIM_INSTITUCION realiza la integración de los datos que son generados mediante la url descrita anteriormente adicional realiza un cruce al interior con la dimensión de ubicación para no generar una cantidad de información innecesaria dentro de la ubicación sino referenciar una estructura ya existente.

2.5.5. Tabla de hechos resultados Icfes

Figura 39. Etapa de extracción de la tabla de hechos resultados Icfes fuente propia.

El diseño y desarrollo de esta etapa, se puede determinar como el core del aplicativo ya que tiene la información más relevante para realizar un análisis detallado de la información para el aplicativo en primer lugar se realiza un análisis de la fuente de información:

El Icfes realiza la publicación de sus resultados mediante una plataforma FTP en uno de los servidores dedicados a ello sin embargo es necesario crear una serie de credenciales para su acceso.

Para el acceder las credenciales son:  Url: ftp://ftp.icfes.gov.co/  Usuario: ftpdbicfes

 Contraseña: la contraseña se envía a un correo electrónico registrado

Al momento de realizar el login en el aplicativo se identifican los siguientes directorios:

Figura 40. Directorios de acceso fuente propia..

En la ruta 4.Saber11/3. Resultados Saber11 se encuentran una serie de archivos SB11_20XXX en formato .zip, estos archivos son los datos que van a ser analizados desde el 20142 hasta el actual, ello porque desde el periodo 2 de 2014 se generó una nueva metodología de evaluación del icfes.

Por ello en la figura Figura No XX se puede detallar que realiza el descargue de los archivos, descomprime los archivos y a continuación llama el JOB_TRF_FACT_INSTITUCIONES que contiene la lógica de almacenamiento de información para el datamart.

La construcción del JOB_TRF_FACT_INSTITUCIONES consiste en la extracción de datos del archivo plano que se encuentra en los servidores del aplicativo e irlo cruzando por todas las dimensiones más relevantes con el objetivo de solo tener en la tabla de hechos que en este caso es la FACT_RESULTADOS_ICFES información que se pueda medir o analizar.

Figura 42.Etapa II de JOB_TRF_FACT_INSTITUCIONES fuente propia.

Figura 44.Etapa VI de JOB_TRF_FACT_INSTITUCIONES fuente propia.

En cada una de las etapas se va cruzando dimensión por dimensión y finalmente cuando se tiene la información estructurada se inserta y/o actualiza los registros en la tabla. Cabe aclarar que para el registro del icfes se toma como llave el valor del CONSECUTIVO_ESTUDIANTE, para que no se generen registros duplicados.

In document Aplicación de técnicas de minería de datos para el análisis de información del sector educativo de Colombia (página 69-80)