Diseño y desarrollo etapa de minería de datos

2. Desarrollo del prototipo funcional de sistema de información

2.6. Diseño y desarrollo etapa de minería de datos

La gestión de los archivos de Minería de Datos con la herramienta Weka, se trabaja con formato .arff (Attribute-Relation File Format), el cual se define en etapa de:

 Cabecera: Nombre en String y si es necesario los espacios se pone en comillas

 Declarar atributos: Permite distinguir que tipo de dato se debe colocar en cada atributo

 Selección de datos: Declaran los datos que van a ser analizados para cada columna

Figura 45.Muestra de datos fuente propia.

Para la ejecución de este proceso se usó el modo Explorador el cual es el método más descriptivo para realizar operaciones de un archivo, el cual permite realizar tareas como:  Preprocesamiento de datos  Clasificación  Clustering  Busqueda de Asociaciones  Selección de atributos  Visualización de datos

Figura 46.Interfaz Weka fuente propia.

En el Preprocesamiento de datos, se usó el Modelo de conexión de Weka para Oracle, de esta manera, anteriormente se llama la información de la Base de Datos con sus respectivos parámetros (credenciales, conexión y URL) 1

Figura 47.Conexión Weka – Base de datos Oracle fuente propia.

Por defecto Weka interpreta cada dato y lo parametriza de acuerdo a lo que el usuario solicita en el Query para su posterior análisis.

Figura 48.Ejemplo de consulta – Base de datos Oracle fuente propia.

El uso filtros es para poder organizar la información y tener un mayor control de datos se usó el filtro: PKIDiscretize, el cual permite discretizar los atributos numéricos para organizar y dividir en rangos los puntajes globales y de cada materia, disminución de consecutivos y agrupación de percentiles globales, teniendo en cuenta el modelo primero al último con agrupación de 6 dígitos para tener una mejor precisión

Capítulo 3

3. Resultados y discusión.

El modelo de base de datos dimensional fue creado en un motor de base de datos Oracle Xe 11G, versión para desarrollador. Esta versión y modelo fueron seleccionados por facilidad de implementación y por la robustez del motor de base de datos []. Conforme a se obtenían el modelo de tablas se procedió a generar un proceso automático que realiza la carga para un periodo (por ejemplo 20182) de evaluación icfes en particular.

Figura 50. Ejecución de la integración de datos por periodo fuente propia.

Una vez se ejecuta la implementación en Weka integrada con modelo dimensional de base de datos de donde se realiza la extracción de una muestra de datos para ser analizados, se procede organizar la información, sacar los datos para generar patrones con los cuales se puedan concluir el estado académico de los estudiantes en Colombia de forma semestral y anual.

Una vez teniendo la organización total sobre cada dato parametrizado con filtros, se procede a realizar un desglose total de datos, junto con visualización y estadísticas para verificar la variación entre cada uno. Lo que se puede observar para este caso es un ejemplo de identificación de datos de los exámenes por ítem del semestre 2016-2 de los mejores puntajes, comparado con los estudiantes que son del programa “ser pilo paga”

Figura 51. Visualización de puntajes para periodo 20162 fuente propia.

Para un mayor análisis se realizó una interpretación de cada columna para cada semestre desde 2014 hasta la actualidad (2018), tomando los menores y mayores puntajes de la prueba saber 11. De este modo con las sentencias SQL se obtiene los datos más importantes para el análisis, ya que durante cada semestre para los colegios de calendario A son más de 500.000 registros, en cambio para calendario B tienen un promedio de 30.000 registros.

Para obtener y generar una búsqueda completa de datos se tomó en cuenta:

- Búsqueda de los estudiantes por encima de la media y por debajo del promedio

- Obtención de datos columna por columna

- Mezcla y análisis sobre cada relación que tienen los estudiantes  Familia

 Ocupaciones tanto familia como estudiante  Géneros  Deberes  Colegios  Trabajo  Ciudad  Promedio  Inglés  Estrato  Nivel educativo  Nivel de vida  Jornada  Calendario  Documento de Identidad

- Gráficas que permitan identificar variables, picos y descendencia entre:  Resultados anuales

 Resultado por Semestre

 Promedio entre 2014-2 hasta la actualidad

Para obtener un entorno de clasificación óptimo para los datos analizados, se usó la opción Use training set: este método permite “entrenar” a Weka para que pueda seleccionar todos los datos del fichero y aplicar que es lo más adecuado para su interpretación.

Se adquieren mayor cantidad de datos con su respectivo análisis para evaluar los cruces de información que se puede realizar con las variables que son las más importantes, las cuales se identifican como los datos de cada materia, junto con clasificadores de tipo “árbol” para el desglose y organización de la información y así llegar hasta observar el margen de error y los datos que no pueden ser clasificados.

Figura 52. Configuración del arbol

En la siguiente gráfica se puede observar con detalle la combinación de data entre cada lfo y ver como es el comportamiento al combinarlos, para este caso de realiza la comparación entre el tipo de documento de cada persona, y si estudiaron en un colegio Bilingüe y de esta manera verificar que variaciones tienen.

Figura 53. Ejemplo de combinación de data y su comportamiento

Esto mismo se aplica para la parte de Clustering, el cual tiene funcionamiento similar al de clasificación, teniendo en cuenta la cantidad de instancias (árbol), que se puede analizar y cuales datos no son permiten identificar patrones.

Explorando los datos permite en las demás pestañas determinar cuáles son los atributos que se pueden seleccionar, cuales tienen más peso que otros y diferentes métodos a evaluar que aporta Weka, teniendo en cuenta los datos que se encuentran en el fichero, debido a que algunos no pueden ser analizados por no ser numéricos. Al final el modo visualización permite verificar la distribución de todos los datos, mostrándolas en forma de dos dimensiones, representando todos los ejes posibles y las combinaciones que puede tener cada dato y por supuesto las correlaciones y asociaciones de forma detallada.

Para generar una mejor visualización de los datos se define la cantidad de pixeles, tamaño y el Jitter: el cual añade ruido a las muestras, de manera que espacia que datos se encuentran más cerca de otros y en donde se pueden concentrar la cantidad de puntos en

un área, teniendo en cuenta con cuál columna se realiza el análisis. Para este caso se identifica el comportamiento que tiene cada data haciendo conciliación por ítem.

Figura 54. Visualización por pixeles

Una vez se ejecuta la implementación en Weka, se procede tomar la información, sacar los datos y concluir el estado académico de los estudiantes en Colombia de forma semestral y anual. La siguiente tabla cuenta con toda la conciliación de datos realizada en la herramienta Weka para generar las respectivas conclusiones sobre qué factores afectan o benefician la educación en Colombia.

Figura 55. Consolidado de datos

Con el fin de validar que la data almacenada es consistente para un análisis de un área funcional a nivel de negocio; se realizó un proceso detallado de análisis a nivel global de las variables más relevantes en las muestras de datos obtenidas por el proceso de integración del prototipo de sistema de información de icfes.

En la vigencia 2015 a 2018 los estudiantes menores de 18 años, a pesar de tener facilidades de comunicación, de acceso a internet, de recursos económicos, para presentar el examen, tienden a tener resultados no tan favorables como se esperaba ya que tiende a decrecer su nivel académico. De igual forma los estudiantes mayores a 18 años tienen la misma tendencia.

Los estudiantes mayores a 18 años representan entre el 2 y el 3 por ciento de la cantidad total de estudiantes que se presentan al examen, reduciendo tanto el número de estudiantes como su nivel académico en esta misma vigencia del 2015 al 2018.

El porcentaje de hombres que se presentan en cada examen se mantiene en el 60%, la diferencia está en el género femenino, sin embargo, la cantidad de personas que se presentan tiende a disminuir en ambos géneros, sin embargo, el género femenino se incrementa a medida que pasa el tiempo, caso contrario con el género masculino, lo que nos da a entender que la mujer representa un factor predominante en la sociedad.

La ciudad con mejores resultados en la prueba saber es Bogotá, la cual representa el 30% de los estudiantes a nivel nacional que se presentan a esta prueba, seguidos por Medellín, el cual representa el 13%, la diferencia oscila en las demás ciudades principales y en la zona rural.

Los estudiantes que pagan pensión por encima de $250.000 representan el 75%. Comparado con los estudiantes que pagan menos de $250.000, vemos un menor interés por sacar buenos puntajes dentro de este examen, así mismo denota que cuando el estudiante tiene que pagar su estudio, genera una obligación por tener mayor nivel y mayor necesidad de ingresar a estudios superiores, a diferencia de los que tienen un subsidio en su educación entran en una franja de bienestar, trayendo consigo conformidad.

La zona urbana representa el 90% de estudiantes que presentan el examen, con tendencia a la baja, caso contrario se presenta en la zona rural, donde su porcentaje diferencia 10%, tiende a incrementarse. Esto nos da a entender que el sector rural a medida que pasa el tiempo necesita tecnificarse y generar mejores resultados dentro del producto interno.

La cantidad de estudiantes que presentan su examen tiende a incrementarse en un 3% anual, así mismo los estudiantes que presentan más de una vez la prueba, representan el 2% del total que quieren mejorar su promedio, a fin de poderse presentarse a universidades con un alto nivel académico. Por lo anterior a medida que pasa el tiempo vemos que esta clase de pruebas va cogiendo mayor importancia e indica que los estudiantes se proyectan en la tecnificación de la mano de obra.

Los colegios que cuentan con una pensión más alta y con una mayor imagen, son estudiantes mejor preparados, lo cual se refleja en los buenos resultados a comparación con estudiantes que no pagan pensión. Durante el 2016 hubo un aumento de estudiantes en colegios del gobierno en obtener las mejores calificaciones del país, pero aun así no lograron superar a los estudiantes de colegios privados.

El nivel educativo de los padres afecta considerablemente el resultado de sus hijos en la prueba saber, como es el caso de los padres que cuentan con estudios universitarios, entre mayor estudio tengan, los hijos tienden a obtener resultados por encima de la media a nivel nacional. Si esto lo comparamos con los estudiantes que tuvieron resultados no favorables, vemos que el incremento para obtener educación primaria y básica secundaria de sus padres es muy bajo: Los padres con nivel educativo primaria se incrementan en 20% anual, comparado con los padres de nivel secundaria que incrementan en 1% anual. Lo anterior nos indica que el nivel de estudio básico en los padres genera mayor interés para que sus hijos tengan unos objetivos académicos concretos, así mismo se incremente la influencia para que haya mejores resultados tanto en el examen del Icfes como en las diferentes pruebas para ingresar a instituciones universitarias.

Los padres que cuentan con una ocupación pueden facilitarles mayores estudios y recursos a sus hijos, a comparación de los que no están trabajando y no pueden proveerles los recursos necesarios, por lo que los resultados negativos se ven reflejados.

De 2014 A 2015 bajo el porcentaje de padres sin estudio en un 10%, es decir que los padres se están preparando más para respaldar a los hijos, por ello tanto el nivel académico se presenta cada vez más favorable a medida que avanza.

Bajo el porcentaje de padres que no tienen estudio en un 6% del 2016 al 2017, manteniéndose la reducción a medida que nos acercamos a la actualidad.

Según los puntos anteriores los padres que no tienen estudio a medida que se acerca el tiempo se reducen y es directamente proporcional a los padres que árbol obteniendo educación, como en este caso que de 2014 a 2015 están subiendo el 1% a primaria.

Entre 2016 y 2017 el porcentaje de padres con nivel primaria bajo en un 22% comparado con el nivel de secundaria bajo el 1%, con base en lo anterior, entre más sube el nivel académico se va reduciendo el número de padres, esto nos indica que los padres no terminan el nivel secundario por deserción y ocupación, lo que provoca el olvido del estudio y su prioridad se convierte en sus obligaciones económicas.

Entre 2015 y el 2017 vemos que a medida que aumenta el desempleo (6%) los menores puntajes aumentan, esto quiere decir que a medida que hay menores ingresos en los hogares afecta el nivel académico de los estudiantes.

Los estudiantes que trabajan tienen menores puntajes en el examen saber 11, lo que nos indica que la disponibilidad de tiempo para prepararse académicamente es menor, caso

contrario con los que no trabajan, tienden a obtener mejores puntajes por disponibilidad de tiempo

A menor estrato, hay menores puntajes en los exámenes saber 11, siendo un claro ejemplo: el año 2016 al 2017 los estudiantes que trabajan y sacaron menores puntajes subió un 45%, caso contrario en los estratos altos, se presenta mayor nivel académico, lo que nos indica que el nivel socioeconómico afecta para un desarrollo normal en la obtención de estudios.

Los colegios con mayor estatus han sobresalido en nivel académico a nivel nacional, y el mayor porcentaje están ubicados en Bogotá, entre ellos se encuentran:

 San Pedro Claver: 18 estudiantes promedio  Angloamericano: 44 estudiantes promedio  Colombo británico: 15 estudiantes promedio  Corazonista: 30 estudiantes promedio  Calasanz: 48 estudiantes promedio  Colegio la Salle: 22 estudiantes promedio

En el caso contrario, los colegios que han tenido menor rendimiento académico demostrado por menores puntajes en las pruebas saber 11 están localizados en zonas rurales, en la zona de Antioquia, en la zona de Santander y en la zona de Cauca, entre ellos están:

 Cedepro: 12 estudiantes promedio

 Instituto Iberia: 8 estudiantes promedio

 Institución educativa Alfonso López Pumarejo: 9 estudiantes promedio  Instituto técnico para el desarrollo rural Idear: 8 estudiantes promedio Los colegios que obtienen los mejores resultados en la prueba saber son los mixtos, para cualquier semestre presentado desde el 2014-2 al 2018-1 en un porcentaje promedio al 80%. En cambio, los colegios masculinos como femeninos presentan un porcentaje reducido de estudiantes que obtienen buenos puntajes (15% - 20%), y en el año 2016 al 2017 hubo una reducción de estudiantes en un 16%.

Las jornadas que más se presentan estudiantes que obtienen menores puntajes es la media jornada, lo mismo se presentan con las sabatinas, cuentan con estudiantes que obtienen menores puntajes, pero a comparación con la media jornada, equivale al 38% para los 2014 – 2015, 16% para los años 2016 – 2017 y en ningún semestre de la muestra hay estudiantes que obtengan los mejores puntajes.

Los estudiantes de Jornada completa son los que obtienen mejores resultados en los puntajes de las pruebas saber 11 y cada vez más hay más estudiantes que obtienen buenos resultados, a excepción del 2017 debido a una disminución del 2%

La materia que obtienen los menores resultados es la de ciencias naturales ubicándose en puntajes menores a 60 puntos, lo que nos indica que hay menores tendencias a las ciencias investigativas. Los mejores resultados son en la materia de matemáticas, lo que nos permite identificar que los estudiantes que obtienen buenos resultados tienen un enfoque mayor a las ingenierías y ciencias numéricas.

En Ingles el semestre que contiene mejores puntajes de resultado se encuentra ubicado en el semestre 2016-2, en cambio en el 2017 hubo una disminución de mejores resultados en un 47%, ubicándose en el rango de 70 a 80 puntos. El desempeño durante cada semestre se mantiene estable, cada vez que se acerca a B+ hay un aumento considerable en los resultados de un 57% y más.

La cantidad de estudiantes que se presentan al examen saber 11 ha ido aumentando cada vez que pasan los semestres, demostrando que los estudiantes quieren progresar, desean estudiar y obtener mejores puntajes. Por otro lado, en el año 2017 hubo una disminución del 1%

Capítulo 4 4. Conclusiones.

El proceso de integración de información en un modelo dimensional de base de datos, requiere en primer lugar conocer el detalle de la información a ser analizada, sus fuentes y los posibles patrones de información que se puedan presentar, para el caso de esta investigación se desarrolló un prototipo de sistema de información que puede ser implementado para el análisis de la información académica de los exámenes de estado de grados 11 en Colombia.

El diseño y desarrollo de un modelo de información permite analizar a profundidad los datos generados por sistemas de información dispersos en varias fuentes de información, para este caso se generaron múltiples análisis de los resultados otorgados por el proceso de minería de datos. Estos resultados pueden ser evaluados por un área de negocio experta que puede tomar decisiones estratégicas que permitan optimizar los procesos educativos.

Con el proceso de desarrollo del prototipo, se lograron identificar una serie de patrones que permitieron sacar un sin número de métricas para ser analizadas por un área de negocio en particular, sin embargo, la baja calidad de los datos de los aplicativos, hace que los procesos de desarrollo sean más complejos y que se requiera mayor tiempo y recursos. Esto no se estimaba previamente en el desarrollo del prototipo lo cual causo retrasos en los desarrollos de la investigación.

5. Trabajos futuros.

Uno de los trabajos futuros que nace a partir de esta investigación es la depuración de la data de forma que se generen en las dimensiones valores de ND que son típicos en procesos de inteligencia de negocios, en algunas ocasiones generan ruido sin embargo con el pasar del tiempo se van depurando.

Otro de los trabajos futuros es no quedarnos únicamente en la aplicación de ciertas técnicas de minería de datos, sino que identificar un mayor número de técnicas para entender mejor la data y sus resultados.

El modelo de integración de datos en un pequeño datamart es flexible y permite añadir otras áreas de negocio para entender el fenómeno educativo con una mayor cantidad de datos, como la generada por las pruebas saber aplicadas a otros grados.

Finalmente en la investigación se detallaron conceptos de big data que hoy en día genera gran relevancia en los procesos diarios, otro de los trabajos que se propone la aplicación de big data para el análisis de información en el sector educativo colombiano.

Lista de referencias

[1] A. Hunt, D. Thomas (1999), The pragmatic programmer.

[2] R. Kimball, M. Ross, (2013), The Data Warehouse Toolkit, Edición 3 [3] W. Immon, (2002), Building the Data Warehouse, Edición 3.

[4]

Programa del Gobierno en Línea de la República de Colombia (2011), Investigación Lineamientos para la implementación de Datos Abiertos en Colombia.

[5] J. Araníbar (2003), “Inteligencia de negocios,” Rev Cien Cult n.12, pp. 549-557

[6]

M. Castillo, R. Gamboa (2012), “DESAFÍOS DE LA EDUCACIÓN EN LA SOCIEDAD ACTUAL,” Revista Electrónica Diálogos Educativos, vol. 12, pp. 55-69.

[7]

Grupo de Evaluación de la Educación Básica y Media, “ANTECEDENTES Y MARCO LEGAL DEL EXAMEN DE ESTADO,”, INSTITUTO

COLOMBIANO PARA EL FOMENTO DE LA EDUCACIÓN SUPERIOR – ICFES,1999

[8]

A. Rosado, D. Rico (2010), “INTELIGENCIA DE NEGOCIOS: ESTADO DEL ARTE BUSINESS INTELLIGENCE: STATE OF THE ART,”Scientia et Technica Año XVI , vol. 44, pp. 321-326.

[9]

L. Etcheverry, P. Gatto, S. Tercia (2005), “Análisis del proceso de carga del Sistema de Data Warehousing de Enseñanza de la Facultad de Ingeniería,”CSI, Instituto de Computación, Facultad de Ingeniería, pp. 2-18.

[10 ]

P. Caplan (2018),”You call it corn, we call it syntax-independent metadata for

In document Aplicación de técnicas de minería de datos para el análisis de información del sector educativo de Colombia (página 80-113)