Captura de pantalla del elemento JavaScript SPOON (Pentaho PDI), utilizado en el proceso ETL de SNIES. Imprimir pantalla del proceso en SPOON para generar archivos arff de estudiantes que abandonan y estudiantes en riesgo de abandonar.
PLANTEAMIENTO DEL PROBLEMA
EVOLUCIÓN DE LA EDUCACIÓN SUPERIOR (E.S) EN COLOMBIA
- Indicadores de educación superior en Colombia
Lo que llevó a la creación en 1968 del Instituto Colombiano de Promoción de la Educación Superior (ICFES) y del departamento administrativo de ciencia, tecnología e innovación (Colciencias). En la última década, Colombia ha logrado grandes avances en la cobertura de la educación básica (preescolar, primaria, secundaria y bachillerato).
EDUCACIÓN SUPERIOR EN SANTANDER
Fuente: Elaboración propia con datos obtenidos del MEN. http://www.mineducacion.gov.co/sistemasdeinformacion/1735/articles-338911_IPES.pdf). En 2011, el departamento de Santander ocupó el tercer lugar (3°) y superó el promedio nacional.
UNIVERSIDAD AUTÓNOMA DE BUCARAMANGA –UNAB
La UNAB cuenta con dos rectorados (el académico y el administrativo y financiero), el departamento de bienestar universitario está adscrito al rectorado como unidad de apoyo a la academia. El bienestar crece con la comunidad autónoma” trabajando conjuntamente con el departamento de gestión humana (personal educativo y administrativo).
PREGUNTA DE INVESTIGACIÓN
HIPÓTESIS DE INVESTIGACIÓN
JUSTIFICACIÓN DE LA INVESTIGACIÓN
Ofrece una oportunidad de profundizar en una investigación para verificar si, a través de elementos de inteligencia de negocios luego de la aplicación de técnicas ETL en bases de datos estatales y de la UNAB, se genera un Datamart cuya finalidad es servir como repositorio de datos a los cuales se les aplican técnicas OLAP y minería de datos. se pueden aplicar que generen conocimiento estadístico con el objetivo de direccionar estrategias para reducir la deserción estudiantil en la Institución. Económico: Esta investigación contribuirá a la generación de conocimiento que permitirá mejorar el análisis en el departamento de bienestar universitario a favor de la satisfacción de los estudiantes durante su estancia en la UNAB, posibilitando la reducción de gastos e inversión en estrategias y actividades en una población. con un alto riesgo de Deserción sustentado en cifras estadísticas y minería de datos.
OBJETIVOS
- Objetivo general
- Objetivos específicos
Implementar un Data Mart como resultado de la aplicación de técnicas ETL a las bases de datos mencionadas en el objetivo anterior. Implementar una solución para la visualización y análisis de los datos en el data mart, con al menos 6 indicadores para la visualización de los resultados de la aplicación de minería de datos, técnicas OLAP, tableros y reportes en los datos existentes del bienestar universitario. mercado.
ANTECEDENTES
- Contexto internacional
- Contexto nacional
- Contexto local (Santander)
Otro proyecto se centró en los desertores universitarios utilizando minería de datos (una instancia de inteligencia de negocios – BI) para determinar el perfil de un potencial estudiante desertor (Beguerí, 2011). Presenta los resultados de la evaluación del rendimiento académico y deserción estudiantil de estudiantes del Departamento de Ingeniería e Investigaciones Tecnológicas (DIIT) de la Universidad Nacional de La Matanza (UNLaM).
MARCO TEÓRICO
NECESIDAD DE INFORMACIÓN PARA LAS EMPRESAS EN LA ERA
La gestión diaria de los sistemas de información en las empresas conlleva la recopilación de grandes cantidades de datos que se almacenan en bases de datos. Es importante resaltar que una base de datos o un sistema de información no es capaz de satisfacer todas las necesidades de información de la organización (Sinnexus, 2015).
INTRODUCCIÓN A LA INTELIGENCIA DE NEGOCIOS (BI)
ORIGEN Y EVOLUCIÓN DE LA INTELIGENCIA DE NEGOCIOS (BI)
- Tendencias de la inteligencia de negocios
El autor afirma que "poco se puede hacer con BI y análisis sin integración de datos, especialmente cuando los usuarios acceden a diferentes fuentes de datos", respaldando su afirmación argumentando que "las organizaciones necesitan tecnologías y prácticas que puedan hacer más". y la implementación de almacenes de datos. Al final de su artículo, señala que “es un momento emocionante para los usuarios que se han sentido frustrados por las herramientas BI y OLAP difíciles de usar; con transmisión de información lenta y tardía; y con opciones limitadas para la integración de datos” y esta tecnología es útil en esta situación.
ARQUITECTURA DE INTELIGENCIA DE NEGOCIOS
- Pre-data warehouse
- Data Cleansing, Extract, transform and load (ETL)
- Estilos de análisis de datos
- Repositorios de datos (data repositories)
El servidor debe poder mapear y consolidar datos entre bases de datos dispares” (olap.com, 2015). f) Dimensionalidad genérica. En The Last Rule de la plataforma www.olap.com explican que “El número de dimensiones de datos soportadas debe para todos los efectos ser ilimitado.
PLAN DEL PROYECTO
METODOLOGÍA IMPLEMENTADA
En este proyecto uno de los elementos de inteligencia de negocios que se implementará está enfocado a la minería de datos y en el estudio previo sobre metodologías de minería. Un estudio comparativo de metodologías de minería de datos” (Moine, Haedo, & Gordillo, 2015) muestra cómo la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) “detalla las tareas y actividades a realizar en cada etapa de la minería de datos”. proceso minero minería. Requerimientos y análisis del ámbito de bienestar de la Universidad UNAB Entrevistas Recolección de datos (hojas excel, estadísticas, base de datos OTPL) Revisión de planes estratégicos en el mismo.
PROPUESTA DE DESARROLLO
PLAN DE TRABAJO
- Unidades organizativas afectadas
- Diagrama Gantt
MODELO MATEMÁTICO PARA DETERMINAR LA DESERCIÓN
- RIESGO FINANCIERO
- RIESGO ACADÉMICO
- RIESGO PSICOLÓGICO
- FUNCIONAMIENTO DEL MODELO
El riesgo académico se mide en trece (13) variables igualmente ponderadas, donde la suma del riesgo puede alcanzar un máximo del 100%. Para determinar el riesgo psicológico en un estudiante se deben sumar todas las opciones que se pueden presentar en cada variable. Finalmente, para calcular el riesgo general de abandono de un estudiante, se determina mediante la siguiente ecuación:
CONSTRUCCIÓN DEL DATAMART
SELECCIÓN DE FUENTES DE INFORMACIÓN
- Estatales
- Bases de datos UNAB
Lista resumen de estudiantes matriculados en instituciones de educación superior (IES) de Colombia detallada por institución y período académico La base de datos cuenta con 38.373 matrículas (número de programas en los que se encuentran matriculados los estudiantes). Masculino xxxxn ENTERO Número de estudiantes varones que cursan su primer curso en el semestre n (1 o 2) del año xxxx. Mujeres xxxx-n ENTERO Número de estudiantes mujeres que cursan su primer año en el semestre n (1 o 2) del año xxxx.
APLICANDO TÉCNICAS ETL
- Técnicas ETL para bases de datos en archivos de Excel o CSV
- Técnicas ETL para bases de datos propias en Oracle (PL/SQL)
Serigrafía ETL para bases de datos del SNIES de estudiantes matriculados en el primer año. Imprimir pantalla del código SQL que crea un ítem "Salida de tableta" en SPOON (Pentaho PDI) para las bases de datos Oracle utilizadas en el proceso ETL del SNIES. Pantalla de impresión ETL para los resultados de extracción de la base de datos SPADIES de IES.
DATAMART RESULTANTE
- Tablas de caracterización del modelo matemático diseñado por la UNAB
- Tablas de hechos (copo de nieve) generadas de técnicas ETL a bases de
- Tablas de resúmenes estadísticos estatales
DATCARACT_PIDM INTEGER Código del alumno al que se le realiza la caracterización DATCARACT_VBLE_CODE INTEGER Código de la variable. La tabla "DESERTOR_SEMESTRE" contiene la información de cada estudiante que sale de la universidad en las carreras de pregrado (pregrado técnico, tecnológico y profesional). V_DESERTOR Listado de estudiantes desertores por cohorte, género, programa, semestre de abandono, tipo de abandono y justificación del abandono.
SELECCIÓN DE HERRAMIENTA PARA INCORPORAR LOS ELEMENTOS DE
ESTUDIO DE ALTERNATIVAS DE BI QUE SE USARA EN EL PROYECTO
- Pentaho
- TIBCO-Jaspersoft® Studio
- Eclipse BIRT Project – Actuate
La siguiente tabla enumera cada uno de los elementos clave de Pentaho y le brinda un calificador para considerar la aplicabilidad al proyecto. La siguiente tabla enumera cada uno de los elementos clave de JasperSoft y le brinda un calificador para considerar la aplicabilidad al proyecto. La siguiente tabla enumera cada uno de los elementos principales de birtactacte y le da un calificador para considerar la aplicabilidad en el proyecto.
IMPLEMENTACIÓN DEL SERVIDOR
DESCRIPCIÓN FÍSICA DEL SERVIDOR
- Instalación de JAVA
- Instalación de Oracle driver
- Instalación de Pentaho version 5.3
- Instalación de C-Tools (CDE, CDF & CDA) y Saiku Analytics
Obtenga http://sourceforge.net/projects/pentaho/files/Business Intelligence Server/5.0.1-stable/biserver-ce-5.0.1-stable.zip/. Obtenga http://sourceforge.net/settings/mirror_choices?projectname=pentaho&filename=Data%20Integration/5.0.1-stable/pdi-ce-5.4.0.A-stable.zip. Una vez descargado el archivo, se mueve a la carpeta Pentaho CE y solo es necesario descomprimirlo.
COMPONENTES DE INTELIGENCIA DE NEGOCIOS
CUBOS OLAP (ROLAP)
- Incorporando un elemento BI de cubo OLAP
- Elementos BI de cubos OLAP que se incorporaron
Una vez creada la vista, solo es necesario llamar a la vista a través de una consulta SQL para generar todos los datos de la declaración SQL incrustados en la vista. Estudiantes que durante la aplicación del modelo matemático diseñado en la Universidad presenten algún tipo de riesgo (académico, financiero, psicológico) La información es según estudiante, ubicación, programa, semestres cursados. Resultados SABRE 11 de los estudiantes matriculados en la Universidad comparados con los resultados promedio del Colegio del que egresaron.
TABLEROS DE CONTROL (DASHBOARD)
- Incorporando un elemento BI de cuadro de mando
El proyecto utilizó CDE y toda la tecnología subyacente, es decir, CDF, CDA y CCC, lo que permitió el desarrollo y la implementación de paneles Pentaho avanzados, especialmente relacionados con paneles dinámicos y varios componentes de Ivy. El tablero está diseñado con dos gráficos, una tabla dinámica y tres parámetros (semestres cursados, tipo de riesgo y programa académico). Se ha implementado una tabla dinámica en el tablero con los cursos académicos y el promedio del tipo de riesgo, la tabla está ordenada de forma descendente por promedio.
REPORTES CORPORATIVOS
- Incorporando un elemento BI de reporte corporativo
- Elementos BI de reportes corporativos que se incorporaron
Una vez inicializada la herramienta se genera la ventana "Asistente para diseñador de informes", con la cual se puede elegir un tipo de plantilla (estilos visuales) y en el siguiente paso se determina el tipo de conexión, para el proyecto el "JDBC" se tomó la conexión. ”después de instalar previamente el controlador Oracle JDBC en la carpeta “Lib” de la herramienta “diseñador de informes”. Los informes se pueden buscar a través de la opción "Examinar archivos" o configurando el informe para que siga siendo un elemento de BI favorito y se pueda acceder directamente desde la página principal del servidor web de Pentaho. El informe puede ejecutarse directamente desde el servidor web de Pentaho o incrustarse en un sitio web que no sea Pentaho.
MINERÍA DE DATOS (DATAMINING)
- Principales características de Weka
- Incorporando tres elemento BI de minería de datos
ACADEMIC_RISK_LEVEL: la distribución del nivel de riesgo académico se evidencia en la siguiente ilustración. FINANCIAL_RISK_LEVEL: la distribución del nivel de riesgo financiero es evidente en la siguiente ilustración. GENERAL_RISK_LEVEL: La distribución del nivel de riesgo general es evidente en la siguiente ilustración.
OBSERVACIONES
En las dos metodologías Kimball e Inmon, que son las más reconocidas y utilizadas en la implementación de BI, se basan en la creación de Datawarehouse o Datamart donde los datos se extraen de sistemas OLTP para su análisis y su actualización no es en tiempo real. , pero varios de los requisitos de información del departamento de bienestar necesitan analizar la información en tiempo real.
CONCLUSIONES
RECOMENDACIONES Y TRABAJOS FUTUROS
Recuperado el 4 de abril de 2015, de http://www.webometrics.info/es/Latin_America_es/Colombia. Recuperado el 20 de junio de 2015 de http://www.researchgate.net/publication/228681860_Agile_Business_Intellig ence_Governance_Su_justificacin_y_presentacin. Obtenido el 26 de abril de 2015 de http://www.innoventsolutions.com/open-source-reporting-review-birt-jasper-pentaho.html.