Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).

(1)

Título:

Árboles de Decisión automáticos para el Pronóstico del

Rendimiento Docente (aplicable al Control de Procesos).

Autores: - MsC. Ing. Mario L. Basulto Núñez (ETECSA) [email protected]

- Lic. Anabel Basulto Casas (Palacio Central de Computación) [email protected]

RESUMEN: Se aplican técnicas de minería de datos para generar un árbol de decisión que permite pronosticar, en un caso de estudio, el rendimiento docente que se espera para los estudiantes en la universidad a partir de su rendimiento escolar previo. El método es aplicable al Control de Procesos y a cualquier caso donde se deseen pronosticar los valores que adquirirán ciertos parámetros, conociendo previamente los valores de un grupo de factores que se consideren influyentes en dichos resultados. Se utiliza el software libre WEKA.

Palabras clave: Árbol de Decisión, Clasificación, Minería de datos, Modelo,

Pronóstico.

INTRODUCCIÓN:

Las técnicas de Minería de Datos intentan obtener patrones o modelos a partir de los datos recopilados. Se clasifican en dos grandes categorías: supervisadas (o predictivas)y no supervisadas (odescriptivas).

Las predicciones se utilizan para prever el comportamiento futuro de algún tipo de entidad, mientras que una descripción puede ayudar a su comprensión. De hecho, los modelos predictivos pueden ser descriptivos (hasta donde sean comprensibles por las personas) y los modelos descriptivos pueden emplearse para realizar predicciones. De esta forma, hay algoritmos o técnicas que pueden servir para distintos propósitos.

En el aprendizaje inductivo supervisado (predictivo), a partir de un conjunto de ejemplos denominados de entrenamiento, de un cierto dominio D, se construyen criterios para determinar el valor del atributo (clase) en un ejemplo cualquiera del dominio. Esos criterios están basados en los valores de uno o varios de los otros pares (atributo; valor) que intervienen en la definición de los ejemplos.

(2)

El modelado predictivo es el proceso mediante el cual se crea un modelo para predecir un resultado. Si el resultado es categórico se llama clasificación y si el resultado es numérico se llama regresión. (Toronto University, 2011)

La Clasificación es una tarea de la Minería de Datos que permite predecir el valor de una variable categórica (objetivo o clase) construyendo un modelo basado en uno o más variables numéricas o categóricas (predictores o atributos).(Toronto University, 2011)

Mediante la Clasificación se analiza un conjunto de datos y se construye un modelo de objetos para cada clase. Dicho modelo puede representarse con árboles de decisión o con reglas de clasificación que muestren las características de los datos. El modelo puede ser usado para mayor comprensión de los datos existentes y para la clasificación de datos futuros

El proceso general para generar un modelo de clasificación se resume en el siguiente gráfico (ver figura 1).

Figura 1. Etapas para la generación de un modelo de clasificación. (Referencia: Corso, C., 2008)

Se selecciona el Conjunto de datos de entrenamiento (opción: “Use training set” en WEKA). El algoritmo infiere (aprende) de dicho conjunto de datos y genera un Modelo(conjunto de reglas). Este Modelo deduce (predice) las clases contenidas en el Conjunto de datos de entrenamiento y como resultado crea un Conjunto de datos de testeo. (Corso, C., 2008)

Mediante la comparación de las clases reales contenidas en el Conjunto de datos de entrenamiento con las clases predichas en el Conjunto de datos de testeo se determina el por ciento de aciertos logrado. En dependencia de dicho porcentaje se

(3)

estima en qué medida el Modelo creado por el algoritmo es adecuado para clasificar ese tipo de datos. Si la clasificación se considera suficientemente certera, se asume que se ha obtenido un Modelo Validado y por tanto se estima que dicho Modelo (Conjunto de reglas) es capaz de generar “artificialmente” un Conjunto de datos de testeo que sea una reproducción suficientemente fiel del Conjunto de datos de entrenamiento. (Corso, C., 2008),(Hernández, J. & Ferri, C., 2006)

Una vez entrenado el algoritmo, podrá someterse a evaluación un nuevo conjunto de datos que sea similar al Conjunto de datos de entrenamiento, así, de acuerdo con el Modelo (Conjunto de reglas) creado previamente por el algoritmo, se generará como Pronóstico un Conjunto de datos de testeo. (Hernández, J. & Ferri, C., 2006)

Árboles de Decisión

Los árboles de decisión representan funciones lógicas (if-then). Por medio de Aprendizaje Automático se infiere un Árbol de Decisión a partir de un conjunto de instancias o ejemplos. El algoritmo “J48” de Weka utiliza un método heurístico para inferir el árbol, donde se realiza la selección del atributo en cada nivel del árbol en función de la calidad de la división que produce. (Kohavi, R. & Quinlan, J. R., 2002).

El árbol de decisión crea un modelo basado en una estructura de árbol. Los nodos en el árbol representan características, cuyas ramas representan valores con características posiblemente relacionadas. Una hoja representa la clase que termina en una serie de nodos y ramas. Para determinar la clase de una instancia se rastrea la ruta de los nodos y las ramas para la hoja terminal. (Kohavi, R. & Quinlan, J. R., 2002).

El árbol de Decisión que genera el algoritmo “J48” se basa en la teoría del Grano de Información (Grain theory) donde la bifurcación en cada nodo busca la mayor ganancia de información, y se generan reglas de decisión que son fáciles de interpretar. (Kohavi, R. & Quinlan, J. R., 2002).

DESARROLLO:

Según los resultados docentes de una muestra de 180 estudiantes; clasificados cualitativamente como alto, medio o bajo; en siete asignaturas durante la enseñanza secundaria y preuniversitaria con sus respectivos resultados posteriores en tres diferentes ramas universitarias, se aplicó el algoritmo de Clasificación “J48” y se

(4)

obtuvo un árbol de decisión que permite pronosticar cuáles serían los resultados universitarios esperados para un estudiante de acuerdo con los resultados docentes en las etapas secundaria y preuniversitaria. Además, dicho árbol permite determinar cuáles de las siete asignaturas valoradas para la enseñanza secundaria y preuniversitaria influyeron decisivamente en el rendimiento académico de las tres especialidades consideradas y cuál sería relación lógica operacional entre las asignaturas en función del resultado previsto. Este pronóstico sería útil para estimar en qué rama universitaria se podría esperar un mejor el rendimiento para un estudiante de acuerdo con sus resultados docentes históricos y de este modo aportar elementos que le ayuden a decidir qué carrera escoger.

Matemática Español Física Química Historia Geografía Biología Ciencias

Exactas Humanidades

Ciencias Biológicas

Alto Medio Bajo Alto Bajo Alto Medio Medio - -

Medio Bajo Alto Medio Alto Medio Bajo - Medio -

Bajo Alto Medio Bajo Medio Bajo Alto - - Alto

Alto Bajo Alto Alto Bajo Alto Medio Alto - -

Alto Bajo Medio Medio Alto Medio Bajo - Alto -

Alto Bajo Bajo Alto Medio Bajo Bajo - - Bajo

Medio Alto Alto Medio Bajo Alto Medio Alto - -

Medio Alto Medio Bajo Alto Medio Bajo - Alto -

Medio Alto Bajo Alto Medio Bajo Alto - - Alto

Bajo Alto Bajo Medio Bajo Alto Medio Bajo - -

Figura 2. Fragmento con 10 casos tomados de la tabla original de 180 alumnos (Cada fila horizontal contiene los resultados de un estudiante). (Elaboración propia)

Este análisis sería válido para cualquier caso similar donde se evalúen ciertos “factores” (en lugar de asignaturas) que permitan pronosticar como consecuencia los valores de ciertos “parámetros” y comprender qué “factores” inciden directamente sobre los valores de dichos “parámetros” y estimar si existe alguna relación lógica entre ellos.

Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Factor 6 Factor 7 Parámetro 1 Parámetro 2 Parámetro 3

Alto Medio Bajo Alto Bajo Alto Medio Medio - -

Medio Bajo Alto Medio Alto Medio Bajo - Medio -

Bajo Alto Medio Bajo Medio Bajo Alto - - Alto

Alto Bajo Alto Alto Bajo Alto Medio Alto - -

Alto Bajo Medio Medio Alto Medio Bajo - Alto -

Alto Bajo Bajo Alto Medio Bajo Bajo - - Bajo

Medio Alto Alto Medio Bajo Alto Medio Alto - -

Medio Alto Medio Bajo Alto Medio Bajo - Alto -

Medio Alto Bajo Alto Medio Bajo Alto - - Alto

Bajo Alto Bajo Medio Bajo Alto Medio Bajo - -

Figura 3. Tabla hipotética con la incidencia de siete factores sobre tres parámetros a considerar. (Elaboración propia)

(5)

CIENCIAS EXACTAS

Figura 4. Evaluación del proceso de Clasificación y del Pronóstico realizado por el algoritmo “J48” para el perfil de “Ciencias Exactas”. (Elaboración propia)

En la figura 4 se observan dos ventanas de Weka, en la de arriba se puede apreciar que el algoritmo clasificó incorrectamente 10 instancias de las 180 evaluadas, por tanto se refiere que clasificó correctamente el 94.4444 % de las mismas. En la ventana inferior se observan las tres nubes de puntos que representan las clases: “Alto” con puntos azules, “Medio” con puntos rojos y “Bajo” con puntos verdes. En el eje “X” están los valores tomados de la tabla, mientras que por el eje “Y” están los valores pronosticados. Hay 10 puntos denotados con cuadrados: son las instancias

(6)

mal clasificadas, mientras que las que fueron bien clasificadas se denotan por cruces.

Las Instancias mal clasificadas son aquellos valores cuyo pronóstico fue erróneo, donde el modelo no pudo predecir el valor esperado. En términos prácticos se trata de resultados docentes en la rama universitaria que divergen de lo pronosticado.

Figura 5. Árbol de decisión realizado por el algoritmo “J48” para el perfil de “Ciencias Exactas”. (Elaboración propia)

El árbol se compone de un nodo raíz (Física para este caso) de donde se derivan tres variantes: “Alto”, “Medio” o “Bajo”, etc. Si las notas de Física fueron altas se pasa al nodo: Español. Si las calificaciones de Español fueron medias, entonces se pasa al nodo: Matemática. Si en esta asignatura las notas fueron altas, se pronostica que el estudiante obtendrá notas altas en la rama de Ciencias Exactas. De forma análogas ocurre en todo el árbol, siempre de arriba hacia abajo, partiendo del nodo raíz.

(7)

HUMANIDADES

Figura 6. Evaluación del proceso de Clasificación y del Pronóstico realizado por el algoritmo “J48” para el perfil de “Humanidades”. (Elaboración propia)

En la figura 6 se observan dos ventanas de Weka, en la de arriba se puede apreciar que el algoritmo clasificó incorrectamente 13 instancias de las 180 evaluadas, por tanto se refiere que clasificó correctamente el 92.7778 % de las mismas.

(8)

Figura 7. Árbol de decisión realizado por el algoritmo “J48” para el perfil de “Humanidades”. (Elaboración propia)

El árbol se compone de un nodo raíz (Historia para este caso) de donde se derivan tres variantes: “Alto”, “Medio” o “Bajo”, etc. Análogamente al caso anterior, si las notas de Historia fueron altas se pasa al nodo: Español. Si las calificaciones de esta asignatura fueron medias, entonces se pasa al nodo: Matemática. Si en esta asignatura las notas fueron altas, se pronostica que el estudiante obtendrá notas altas en la rama de Humanidades. De forma similar ocurre en todo el árbol.

(9)

CIENCIAS BIOLÓGICAS

Figura 8. Evaluación del proceso de Clasificación y del Pronóstico realizado por el algoritmo “J48” para el perfil de “Ciencias Biológicas”. (Elaboración propia)

En la figura 6 se observan dos ventanas de Weka, en la de arriba se puede apreciar que el algoritmo clasificó incorrectamente 16 instancias de las 180 evaluadas, por tanto se refiere que clasificó correctamente el 91.1111 % de las mismas.

(10)

Figura 9. Árbol de decisión realizado por el algoritmo “J48” para el perfil de “Ciencias Biológicas”. (Elaboración propia)

CONCLUSIONES

Para el caso analizado, el algoritmo “J48” de Weka pronosticó con una exactitud superior al 90 % el rendimiento académico de los estudiantes analizados basándose en el rendimiento docente previo. Se pudo apreciar que de las 7 asignaturas consideradas hubo 5 con influencia decisiva para el pronóstico: Matemática, Español, Historia, Física y Biología.

Como se explicó previamente, este trabajo es aplicable al Control de Procesos y a cualquier caso en el cual se evalúe la probable influencia de varios factores sobre ciertos resultados.

BIBLIOGRAFÍA

Basulto, M. (2013). Descubrimiento de conocimiento sobre accidentes de tránsito en una base de datos concerniente a las afectaciones a la infraestructura de las telecomunicaciones en “ETECSA” Tesis en opción al grado de Master en Cibernética Aplicada, Mención Minería de Datos. ICIMAF.

Basulto, M. (2011). La aplicación de Técnicas de Minería de Datos para extraer Información de la base de datos: Hechos No Delictivos de ETECSA en el 2010. Tesina para el para el Diplomado Aplicaciones de la Minería de Datos. ICIMAF. Britos, P. (2008). Procesos de explotación de información basados en sistemas

inteligentes. Universidad Nacional de La Plata, Argentina

Corso, C. (2008). Aplicación de algoritmos de clasificación supervisada usando Weka. Universidad Tecnológica Nacional, Facultad Regional Córdoba. Argentina Kohavi, R. & Quinlan, J. R. (2002). Decision-tree discovery. Handbook of Data

Mining and Knowledge Discovery, pp. 267-276, Oxford University Press. Toronto University. (2010).

http://chemeng.utoronto.ca/~datamining/dmc/data_mining_map.htm (Consultado: febrero 2011).