UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO

(1)

(2)

USO DE ÁRBOLES DE DECISIÓN PARA EL ESTUDIO DE LA PERMANENCIA ESTUDIANTIL EN LA UNIVERSIDAD DE COSTA RICA

Trabajo final de investigación aplicada sometido a la consideración de la Comisión del Programa de Estudios de Posgrado en Computación e Informática para optar

al grado y título de Maestría Profesional en Computación e Informática

FRANKLIN DAVID RODRÍGUEZ VARGAS

Ciudad Universitaria Rodrigo Facio, Costa Rica 2019

(3)

ii

Dedicatoria

A Dios, por todas sus bendiciones y regalarme vida para llevar a cabo todos mis proyectos y metas.

A mi esposa, el gran amor de mi vida que ha estado conmigo en todo momento de manera incondicional, que me ha brindado su gran apoyo para desarrollarme profesionalmente y crecer como persona.

A mis padres por su gran esfuerzo y apoyo incondicional que me han brindado en todo momento a lo largo de mi vida, por guiarme siempre por el buen camino y darme el mejor ejemplo. A mi papá por ser un soporte muy importante en mi vida y enseñarme los valores necesarios para ser una mejor persona día con día. A mi mamá que ha dedicado un enorme esfuerzo por apoyarme siempre y darme todo el aliento necesario para continuar adelante.

(4)

iii

Agradecimientos

A la Dra. Gabriela Barrantes Sliesarieva, quien ha estado junto a mí durante el desarrollo de este trabajo y me ha orientado en todo el proceso, por la dedicación y paciencia que ha tenido al ser mi profesora guía.

A la M.Sc. María Gabriela Regueyra Edelman, por ser mi guía profesional y por todo el apoyo brindado, lo que me ha permitido ser parte del trabajo en conjunto que se ha realizado en beneficio de la población estudiantil universitaria

Al Instituto de Investigación en Educación (INIE), donde está inscrito el proyecto de investigación base y a su personal que me ha dado las herramientas para poder lograr los objetivos del TFIA, que de alguna manera han sido parte de este largo camino.

A la Facultad de Farmacia, por la disposición para el acceso a los datos de sus estudiantes.

(5)

iv

“Este trabajo final de investigación aplicada fue aceptado por la Comisión del Programa de Estudios de Posgrado en Computación e Informática de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de

Maestría Profesional en Computación e Informática.”

____________________________________________

M.Sc. María Gabriela Regueyra Edelman Representante del Decano

Sistema de Estudios de Posgrado

____________________________________________

Dra. Elena Gabriela Barrantes Sliesarieva Profesora Guía

____________________________________________

Dra. Gabriela Marín Raventós Directora

Programa de Posgrado en Computación e Informática

____________________________________________

Franklin David Rodríguez Vargas Sustentante

(6)

v

Tabla de Contenidos

Portada ... i

Dedicatoria ... ii

Agradecimientos ... iii

Hoja de Aprobación ... iv

Tabla de Contenidos ... v

Resumen ... ix

Abstract ... x

Lista de Tablas ... xi

Lista de Figuras ... xv

CAPÍTULO I: INTRODUCCIÓN ... 1

1.1 Objetivos ... 2

1.2 Justificación ... 2

1.3 Antecedentes ... 3

CAPÍTULO II: MARCO TEÓRICO ... 6

2.1 Minería de Datos ... 6

2.2 Pre-procesamiento de datos ... 7

2.2.1 Integración de datos ... 8

2.2.2 Transformación de datos ... 9

2.2.3 Limpieza de datos ... 9

2.2.4 Reducción de datos ... 10

2.3 Algoritmos de Clasificación ... 10

2.4 Árboles de Decisión ... 11

2.5 Aprendizaje basado en árboles de decisión ... 12

2.5.1 Entropía de información ... 16

(7)

vi

2.5.2 Ganancia de información ... 18

2.5.3 Algoritmo ID3 ... 21

2.5.4 Algoritmo C4.5 ... 24

2.6 Validación de resultados de algoritmos de clasificación ... 24

2.6.1 Exactitud de clasificación de instancias ... 26

2.6.2 Matriz de confusión ... 27

2.6.3 Tasa de verdaderos positivos ... 28

2.6.4 Tasa de falsos positivos ... 29

2.6.5 Curva ROC ... 29

CAPÍTULO III: METODOLOGÍA ... 32

3.1 Elección Tecnológica ... 32

3.2 Acceso a los datos... 33

3.3 Elección de variables ... 35

3.4 Casos de estudio escogidos ... 36

3.5 Pre-procesamiento del conjunto de datos ... 37

3.5.1 Integración de datos ... 38

3.5.2 Transformación de datos ... 39

3.5.3 Limpieza de datos ... 47

3.5.4 Reducción de datos ... 49

3.6 Desarrollo de herramienta prototipo ... 54

3.6.1 Selección de conjunto de datos y construcción del árbol ... 55

3.6.2 Clasificar caso individual según árbol generado ... 60

3.7 Selección de árboles de decisión a construir para estudiar la permanencia . 62 3.8 Definición de estudios de validación ... 63

CAPÍTULO IV: ANÁLISIS Y RESULTADOS ... 67

4.1 Estudios de tiempo de graduación ... 67

(8)

vii

4.1.1 Tiempo de graduación haciendo uso de todos los atributos ... 68 4.1.2 Tiempo de graduación haciendo uso de atributos óptimos ... 70 4.1.3 Comparación entre estudio de tiempo de graduación optimizado y no optimizado ... 73 4.2 Estudios de tiempo de aprobación del primer año de carrera ... 75 4.2.1 Tiempo de aprobación del primer año de carrera haciendo uso de todos los atributos ... 76 4.2.2 Tiempo de aprobación del primer año de carrera haciendo uso de atributos óptimos ... 78 4.2.3 Comparación entre estudio de tiempo de aprobación de primer año optimizado y no optimizado ... 81 4.3 Estudios de tiempo de aprobación del segundo año de carrera ... 83 4.3.1 Tiempo de aprobación del segundo año de carrera haciendo uso de todos los atributos ... 84 4.3.2 Tiempo de aprobación del segundo año de carrera haciendo uso de atributos óptimos ... 86 4.3.3 Comparación entre estudio de tiempo de aprobación de segundo año optimizado y no optimizado ... 89 4.4 Estudios de tiempo de aprobación del tercer año de carrera ... 91 4.4.1 Tiempo de aprobación del tercer año de carrera haciendo uso de todos los atributos ... 92 4.4.2 Tiempo de aprobación del tercer año de carrera haciendo uso de atributos óptimos ... 94 4.4.3 Comparación entre estudio de tiempo de aprobación de tercer año optimizado y no optimizado ... 98 4.5 Estudios de continuación o no continuación en la carrera de Farmacia ... 98 4.5.1 Continuación o no continuación en la carrera de Farmacia haciendo uso de todos los atributos ... 98

(9)

viii

4.5.2 Continuación o no continuación en la carrera de Farmacia haciendo uso

de atributos óptimos... 101

4.5.3 Comparación entre estudio de continuación o no continuación en la carrera de Farmacia optimizado y no optimizado ... 103

4.6 Análisis general de los resultados de estudios realizados ... 105

4.6.1 Análisis general de área bajo la curva ROC ... 105

4.6.2 Análisis general de exactitud de clasificación de instancias ... 108

4.7 Discusión ... 109

CAPÍTULO V: CONCLUSIONES ... 111

5.1 Hallazgos ... 111

5.2 Contribuciones a la computación ... 112

5.3 Trabajo futuro ... 113

Bibliografía ... 116

Anexo 1 ... 123

Anexo 2 ... 125

Anexo 3 ... 127

Anexo 4 ... 139

Anexo 5 ... 142

Anexo 6 ... 144

Anexo 7 ... 151

Anexo 8 ... 157

Anexo 9 ... 170

(10)

ix

Resumen

El estudio de la permanencia estudiantil en la educación superior parece ser una preocupación constante en la actualidad, principalmente para las universidades públicas, las cuales deben rendir cuentas periódicamente, con el fin de dar a conocer cómo han utilizado los fondos públicos en el ejercicio de sus labores sustantivas. Cada día hay más necesidad de encontrar herramientas que permitan identificar factores relevantes en la permanencia estudiantil, para optimizar este y otros aspectos vinculados. Para tal efecto, existen técnicas de minería de datos que permiten descubrir información oculta y relevante en grandes volúmenes de datos. Ante tal requerimiento, en este trabajo de investigación se estudian los árboles de decisión, como una herramienta para el análisis de datos, ya que permiten encontrar las variables con más incidencia en una decisión y lo representan en un modelo de tipo caja blanca, además, brindan respuestas del por qué y cómo están influyendo estos factores en esa decisión, asimismo, permiten predecir la futura condición de un estudiante respecto a su permanencia y graduación. Este modelo de aprendizaje se implementó en la carrera de Licenciatura en Farmacia de la Universidad de Costa Rica, logrando resultados positivos, específicamente en la validez de la clasificación.

(11)

x

Abstract

The study of student permanence in higher education seems to be a constant concern nowadays, mainly for public universities, which must report periodically, in order to communicate how they have used public funds in the exercise of their substantive work. There is a greater need every day to find tools to identify relevant factors in student permanence, to optimize this and other related aspects. For this purpose, there are data mining techniques that allow discovering hidden and relevant information in large volumes of data. For this requirement, in this research the decision trees are studied as a tool for data analysis, because they allow people to find the variables with more incidence in a decision and representing it in a white box model. In addition, they provide answers on why and how these factors are influencing that decision, as well as predict the future condition of a student regarding their permanence and graduation. This learning model was implemented in the Pharmacy career at the University of Costa Rica, achieving positive results, specifically in the validity of the classification.

(12)

xi

Lista de Tablas

Tabla 1. Conjunto de datos ejemplo para determinar si un animal es mamífero o no

... 13

Tabla 2. Nuevo caso no contemplado en el conjunto de datos de mamíferos ... 15

Tabla 3. Conjunto de datos para decidir si jugar o no tenis según condiciones climáticas ... 17

Tabla 4. Subconjunto de factor de viento débil ... 19

Tabla 5. Subconjunto de factor de viento fuerte ... 20

Tabla 6. Subconjunto de datos obtenido en la rama “nublado” ... 22

Tabla 7. Subconjunto de datos obtenido en la rama “lluvioso” ... 23

Tabla 8. Ejemplo de una matriz de confusión 3 x 3 ... 27

Tabla 9. Índices de validez de una matriz de confusión ... 28

Tabla 10. Estructura de una matriz de confusión ... 28

Tabla 11. Reglas de interpretación de curva ROC ... 31

Tabla 12. Atributos clase seleccionados ... 36

Tabla 13. Integración de datos realizada por variable del conjunto ... 38

Tabla 14. Cantidad de variables por tipo de información ... 40

Tabla 15. Atributos que no pueden ser utilizados en todos los conjuntos de datos ... 50

Tabla 16. Reagrupación de categorías para generar variables con clases más pobladas ... 52

Tabla 17. Atributos descartados por reducción de dimensiones ... 53

Tabla 18. Conjuntos de datos a evaluar para encontrar el árbol óptimo iterando dos variables y manteniendo constante una ... 57

Tabla 19. Tipos de árboles de decisión diseñados para estudiar la permanencia estudiantil ... 62

Tabla 20. Estudios realizados para determinar la efectividad de los árboles de decisión en la permanencia estudiantil ... 63

Tabla 21. Resultados de exactitud para el árbol de tiempo de graduación ... 68

Tabla 22. Resultados de clasificación de instancias para el árbol de tiempo de graduación ... 69

(13)

xii

Tabla 23. Matriz de confusión del árbol de tiempo de graduación ... 70 Tabla 24. Resultados de exactitud para el árbol de tiempo de graduación optimizado ... 71 Tabla 25. Resultados de clasificación de instancias para el árbol de tiempo de graduación optimizado ... 72 Tabla 26. Matriz de confusión del árbol de tiempo de graduación optimizado ... 72 Tabla 27. Resultados de exactitud para el árbol de tiempo aprobación del primer año de carrera ... 76 Tabla 28. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del primer año de carrera ... 77 Tabla 29. Matriz de confusión del árbol de aprobación del primer año de carrera 78 Tabla 30. Resultados de exactitud para el árbol de tiempo aprobación del primer año de carrera optimizado ... 79 Tabla 31. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del primer año de carrera optimizado ... 80 Tabla 32. Matriz de confusión del árbol de aprobación del primer año de carrera optimizado ... 80 Tabla 33. Resultados de exactitud para el árbol de tiempo aprobación del segundo año de carrera ... 84 Tabla 34. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del segundo año de carrera ... 85 Tabla 35. Matriz de confusión del árbol de aprobación del segundo año de carrera ... 86 Tabla 36. Resultados de exactitud para el árbol de tiempo aprobación del segundo año de carrera optimizado ... 87 Tabla 37. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del segundo año de carrera optimizado ... 88 Tabla 38. Matriz de confusión del árbol de aprobación del segundo año de carrera optimizado ... 88 Tabla 39. Resultados de exactitud para el árbol de tiempo aprobación del tercer año de carrera ... 92

(14)

xiii

Tabla 40. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del tercer año de carrera ... 93 Tabla 41. Matriz de confusión del árbol de aprobación del tercer año de carrera . 94 Tabla 42. Resultados de exactitud para el árbol de tiempo aprobación del tercer año de carrera optimizado ... 95 Tabla 43. Resultados de clasificación de instancias para el árbol de tiempo de aprobación del tercer año de carrera optimizado ... 96 Tabla 44. Matriz de confusión del árbol de aprobación del tercer año de carrera optimizado ... 97 Tabla 45. Resultados de exactitud para el árbol de continuación o no continuación en la carrera de Farmacia ... 99 Tabla 46. Resultados de clasificación de instancias para el árbol de continuación o no continuación en la carrera de Farmacia ... 100 Tabla 47. Matriz de confusión del árbol de continuación o no continuación en la carrera de Farmacia ... 100 Tabla 48. Resultados de exactitud para el árbol de continuación o no continuación en la carrera de Farmacia optimizado ... 101 Tabla 49. Resultados de clasificación de instancias para el árbol de continuación o no continuación en la carrera de Farmacia optimizado ... 102 Tabla 50. Matriz de confusión del árbol de continuación o no continuación en la carrera de Farmacia optimizado ... 102 Tabla 51. Variables de información aportadas por el proyecto de Seguimiento a la Permanencia de la Población Estudiantil ... 123 Tabla 52. Variables transformadas en términos de su definición ... 125 Tabla 53. Lista de cursos a seguir en términos de convalidación y repitencia .... 133 Tabla 54. Variables resultantes posterior a la fase de transformación. ... 139 Tabla 55. Tareas realizadas para la limpieza de datos ... 142 Tabla 56. Variables utilizadas para los conjuntos de datos de cada atributo clase ... 144 Tabla 57. Atributos a utilizar en el subconjunto de datos de estudiantes graduados del plan 1 de la carrera de Farmacia ... 157

(15)

xiv

Tabla 58. Atributos a utilizar en el subconjunto de datos de estudiantes que han aprobado el primer año del plan 1 de la carrera de Farmacia ... 160 Tabla 59. Atributos a utilizar en el subconjunto de datos de estudiantes que han aprobado el segundo año del plan 1 de la carrera de Farmacia ... 162 Tabla 60. Atributos a utilizar en el subconjunto de datos de estudiantes que han aprobado el tercer año del plan 1 de la carrera de Farmacia ... 165 Tabla 61. Atributos a utilizar en el subconjunto de datos de estudiantes que continúan y no continúan la carrera de Farmacia ... 168 Tabla 62. Atributos seleccionados por el proceso optimizado para el árbol de decisión "Tiempo de graduación" ... 170 Tabla 63. Atributos seleccionados por el proceso optimizado para el árbol de decisión "Tiempo de aprobación del primer año de carrera" ... 170 Tabla 64. Atributos seleccionados por el proceso optimizado para el árbol de decisión "Tiempo de aprobación del segundo año de carrera" ... 171 Tabla 65. Atributos seleccionados por el proceso optimizado para el árbol de decisión "Tiempo de aprobación del tercer año de carrera" ... 171 Tabla 66. Atributos seleccionados por el proceso optimizado para el árbol de decisión "Continúa o no continúa en la carrera" ... 172

(16)

xv

Lista de Figuras

Figura 1. Representación gráfica de pasos para el pre-procesamiento de datos ... 8 Figura 2. Estructura de un árbol de decisión ... 11 Figura 3. Tarea de clasificar un conjunto de atributos “x” en un atributo clase “y” 12 Figura 4. Árbol de decisión para determinar si un animal es mamífero o no ... 14 Figura 5. Ilustración con un ejemplo de máxima y mínima impureza de entropía en un conjunto... 16 Figura 6. Representación gráfica de un nodo raíz ... 22 Figura 7. Ejemplo de instancias clasificadas correcta e incorrectamente en un árbol de decisión ... 26 Figura 8. Ejemplos de curvas ROC ... 30 Figura 9. Comportamiento del atributo “continúa o no continúa en carrera” ... 42 Figura 10. Distribución de datos al discretizar la variable “ciclos que tardó en graduarse de la carrera”. ... 44 Figura 11. Distribución de datos al discretizar la variable “ciclos que tardó en aprobar el primer año de carrera”. ... 44 Figura 12. Distribución de datos al discretizar la variable “ciclos que tardó en aprobar el segundo año de carrera”. ... 45 Figura 13. Distribución de datos al discretizar la variable “ciclos que tardó en aprobar el tercer año de carrera”. ... 45 Figura 14. Comportamiento de variable opción de carrera respecto a tiempo de graduación ... 48 Figura 15. Interfaz de definición de conjunto de datos y árbol de permanencia ... 56 Figura 16. Salida de la bitácora de trabajo, una vez que el árbol es construido ... 58 Figura 17. Funcionalidad para visualizar el árbol generado de la herramienta prototipo ... 59 Figura 18. Fragmento del árbol de decisión que permite conocer los factores que influyen en la continuación del estudiante en la carrera ... 60 Figura 19. Interfaz de clasificación de caso individual según árbol de permanencia generado ... 61

(17)

xvi

Figura 20. Comparación de área bajo la curva ROC estudios de tiempo de graduación para cada clase ... 74 Figura 21. Comparación de promedio ponderado de área bajo la curva ROC estudios de tiempo de graduación ... 74 Figura 22. Comparación de exactitud de clasificación de instancias en los estudios de tiempo de graduación ... 75 Figura 23. Comparación de área bajo la curva ROC estudios de tiempo de aprobación de primer año de carrera para cada clase ... 82 Figura 24. Comparación de promedio ponderado de área bajo la curva ROC estudios de tiempo de aprobación de primer año de carrera ... 82 Figura 25. Comparación de exactitud de clasificación de instancias en los estudios de tiempo de aprobación de primer año de carrera ... 83 Figura 26. Comparación de área bajo la curva ROC estudios de tiempo de aprobación de segundo año de carrera para cada clase ... 90 Figura 27. Comparación de promedio ponderado de área bajo la curva ROC estudios de tiempo de aprobación de segundo año de carrera ... 90 Figura 28. Comparación de exactitud de clasificación de instancias en los estudios de tiempo de aprobación de segundo año de carrera ... 91 Figura 29. Comparación de área bajo la curva ROC estudios de continuación o no continuación en la carrera de Farmacia para cada clase ... 104 Figura 30. Comparación de exactitud de clasificación de instancias en los estudios de continuación o no continuación en la carrera de Farmacia ... 104 Figura 31. Comparación de promedio ponderado de área bajo la curva ROC para todos los estudios ... 106 Figura 32. Exactitud de clasificación de instancias en todos los estudios ... 108 Figura 33. Distribución de datos de la variable país de nacionalidad antes de la reducción de numerosidad ... 151 Figura 34. Distribución de datos de la variable país de nacionalidad antes de la reducción de numerosidad ... 152 Figura 35. Distribución de datos de la variable tipo de colegio antes de la reducción de numerosidad ... 152

(18)

xvii

Figura 36. Distribución de datos de la variable tipo de colegio posterior a la reducción de numerosidad ... 153 Figura 37. Distribución de datos de la variable modalidad de colegio antes de la reducción de numerosidad ... 153 Figura 38. Distribución de datos de la variable modalidad de colegio posterior a la reducción de numerosidad ... 154 Figura 39. Distribución de datos de la variable modo de ingreso a la carrera antes de la reducción de numerosidad ... 154 Figura 40. Distribución de datos de la variable modo de ingreso a la carrera posterior a la reducción de numerosidad ... 155 Figura 41. Distribución de datos de la variable modalidad de trabajo final de graduación antes de la reducción de numerosidad ... 156 Figura 42. Distribución de datos de la variable modalidad de trabajo final de graduación posterior a la reducción de numerosidad ... 156

(19)

1

CAPÍTULO I: INTRODUCCIÓN

La permanencia estudiantil, se define como el proceso que inicia cada estudiante desde su ingreso a la universidad, continúa durante el período de permanencia y culmina con la obtención de un título universitario (bachillerato o licenciatura) según el plan de estudios de cada carrera. (Regueyra Edelman, 2018a)

El seguimiento a la permanencia y graduación de la población estudiantil es una preocupación de las carreras de la Universidad de Costa Rica, las cuales buscan cumplir con los compromisos Institucionales de calidad y excelencia en la formación de profesionales en todos los campos del saber. Como parte del proyecto de investigación 724-B2-006 “Seguimiento a la Permanencia de la Población Estudiantil de la Universidad de Costa Rica”, se han desarrollado aplicaciones informáticas que han permitido extraer información relevante relacionadas con variables de admisión, demográficas, académicas y de graduación de la población estudiantil de 14 carreras de la Universidad de Costa Rica, a partir de las bases de datos estudiantiles de la Institución, la cual se recopila a través de archivos con valores separados por tabuladores.

Para el presente trabajo se consideró interesante encontrar una manera de aproximar el tiempo de graduación de la población estudiantil a través de métodos de aprendizaje de máquina. Para esto, se buscó utilizar las variables de información obtenidas por el proyecto, como atributos de entrada en un método de aprendizaje, para que este creara un modelo que permitiera predecir el tiempo de graduación según los parámetros de entrada que le sean suministrados y, además, fuera capaz de explicar cómo llegó a este resultado, para que las carreras no sólo conozcan el dato, sino también los factores y reglas que influyen para obtenerlo.

Para lograr lo anterior, se decidió utilizar el aprendizaje basado en árboles de decisión. Esta técnica crea un modelo que predice el valor de una variable de destino en función de diversas variables de entrada utilizando una representación en forma de árbol, cuyas ramas se separan en función de los valores que pueden tomar las variables representadas por nodos y terminan en resultados concretos. El

(20)

2 modelo contiene los atributos de mayor incidencia en una decisión, representándolos en una estructura de árbol. Lo importante de este método es que, por su naturaleza, permite rastrear los factores que influyeron en una decisión dada.

(Santa Chávez, Veloza Mora, & Arias Montoya, 2013)

El desarrollo e implementación de esta herramienta permitiría a la universidad contar con una herramienta que sea capaz de encontrar los factores que influyen en la permanencia estudiantil de manera automatizada, y permitir a las carreras contar con información relevante para tomar decisiones que favorezcan a los estudiantes al realizar ajustes que permitan reducir la permanencia de los estudiantes en las carreras.

1.1 Objetivos

Con base en lo mencionado anteriormente, los objetivos del presente trabajo son los siguientes:

1. Estudiar la utilidad de los árboles de decisión para predecir el tiempo de graduación de la población estudiantil en una carrera de la Universidad de Costa Rica utilizando diseño de experimentos.

2. Desarrollar una herramienta prototipo que sea útil para que profesores universitarios puedan explorar los factores que influyen en la permanencia estudiantil utilizando árboles de decisión.

1.2 Justificación

El aprendizaje basado en árboles de decisión es una técnica comúnmente utilizada para realizar predicción y en el campo de minería de datos (Rokach & Maimon, 2015; Santa Chávez et al., 2013). Hasta el momento, en la Universidad de Costa Rica este método no ha sido utilizado para realizar estudios de permanencia y graduación en población estudiantil. Se propone el uso de este instrumento, debido a que es una herramienta efectiva para la predicción y clasificación de grandes cantidades de datos (Barrientos Martínez et al., 2009), jerarquiza las variables independientes con base a su poder explicativo de la variable objetivo y permite a su vez, describir el camino que sigue la variable explicada mostrando su dinámica

(21)

3 hasta llegar al resultado final (Dupoy Berrios, 2014); asimismo, existen múltiples herramientas y librerías que permiten implementar esta metodología, a través de diversos algoritmos (Moreno-Salazar, Vicente-Galindo, & Galindo-Villardon, 2016).

En la siguiente sección se describen los antecedentes que dieron origen al presente trabajo.

1.3 Antecedentes

Existe un interés significativo por parte de instituciones a cargo de enseñanza la permanencia y graduación de su población estudiantil, para cumplir con los compromisos Institucionales de calidad y excelencia en la formación de futuros profesionales. En este sentido, se generan interrogantes acerca de las causas de no continuación o bajo rendimiento y los perfiles que tienen los estudiantes en estas condiciones. (Márquez Vera, Romero Morales, & Ventura Soto, 2012)

A raíz de esta necesidad, y gracias al avance de la tecnología y la implementación de sistemas de información, se abre la posibilidad a que nuevas tecnologías contribuyan a resolver estos problemas. En este aspecto, se han aprovechado las técnicas de minería de datos, las cuales permiten descubrir patrones e información oculta en grandes volúmenes de datos. Los árboles de decisión, además de ser una técnica de minería de datos, como se mencionó, es una técnica de caja blanca, que podría permitir conocer los procedimientos llevados a cabo para encontrar la información oculta en grandes volúmenes de datos en un formato comprensible al usuario. (Márquez Vera et al., 2012; Priyam, Abhijeet, Gupta, Rathee, & Srivastava, 2013)

En el estudio “Modelo predictivo de deserción estudiantil utilizando técnicas de minería de datos” (Amaya Torrado, Barrientos Avendaño, & Heredia Vizcaíno, 2014), se listan diecinueve estudios realizados sobre deserción estudiantil utilizando técnicas de minería, de los cuales trece utilizan árboles de decisión. A continuación, se resumen los resultados obtenidos.

(22)

4 En el trabajo de investigación “Minería de datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y el algoritmo de los k vecinos más cercanos” (Valero Orea, Salvador Vargas, & García Alonso, 2010) se utilizan árboles de decisión y k vecinos más cercanos para realizar un estudio de predicción de la deserción escolar. Como conclusión de esta investigación, se afirma que ambas técnicas proporcionaron un modelo que permite determinar aquellos alumnos que son candidatos a desertar, y de esta manera, los tutores de la institución puedan detectar el riesgo con antelación y poder dar seguimiento a estudiantes vulnerables.

El mismo modelo no podría ser utilizado en otros entornos ya que fue construido por medio de datos históricos de su programa educativo; sin embargo, podría ser llevado a cabo en otras instituciones utilizando las mismas técnicas sobre los datos de sus estudiantes.

La investigación “Aplicación del aprendizaje automático con árboles de decisión al estudio de las variables del modelo de indicadores de gestión de las universidades públicas” (Santa Chávez et al., 2013), aplica el aprendizaje automático con árboles de decisión al estudio de variables del modelo de indicadores de gestión de las universidades públicas de Colombia. A raíz de esta investigación, se confirma la efectividad de utilizar el método de clasificación mediante la aplicación de un algoritmo de árboles de decisión para el manejo de información de alto volumen y análisis multivariado para el apoyo en la toma de decisiones en las universidades públicas. Asimismo, se confirma la efectividad de esta técnica como modelo predictivo y de fácil comprensión, al simplificar el árbol encontrando y haciendo uso de los indicadores más relevantes en la decisión, pasando de treinta a cinco indicadores.

Por medio de la investigación “Modelo predictivo de deserción estudiantil utilizando técnicas de minería de datos” (Amaya Torrado et al., 2014), se busca la construcción de un modelo predictivo de deserción estudiantil, caracterizando a los estudiantes de la Universidad Simón Bolívar de Colombia, con el objetivo de poder predecir la probabilidad de deserción de los estudiantes. Por medio de esta investigación, se concluye que, al analizar distintas técnicas de minería de datos para predicción, se

(23)

5 observó que los árboles de decisión resultan ser buenos clasificadores según los resultados obtenidos.

En la investigación “A comparative analysis of techniques for predicting academic performance” (Nguyen Thai Nghe, Janecek, & Haddawy, 2007), se realiza un análisis comparativo de técnicas para la predicción de rendimiento académico en dos institutos: Can Tho University y Asian Institute of Technology. Se utilizan dos técnicas: redes bayesianas y árboles de decisión. Durante la investigación, encuentran que el algoritmo de árboles de decisión supera consistentemente el algoritmo de redes bayesianas.

Por medio de la investigación “Mining Education Data to Predict Student's Retention:

A comparative Study” (Kumar Yadav, Bharadwaj, & Saurabh, 2012), se decide utilizar diferentes tipos de árboles de decisión para la predicción de la permanencia estudiantil: ID3, C4.5 y ADTree. A través de este estudio, se obtienen como resultado buenos niveles de clasificación en las tres técnicas, obteniendo la mejor clasificación el algoritmo C4.5. También se recalca que el éxito de las estas técnicas se obtiene debido a que producen reglas de clasificación que son fáciles de interpretar a diferencia de otros modelos de clasificación.

Finalmente, en el trabajo de investigación “Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos”

(Timaran Pereira, 2009), también demuestra el uso efectivo de la técnica de árboles de decisión y hace especial mención en que las fases de pre-procesamiento y transformación de datos fueron las más costosas en el tiempo, debido a la mala calidad de los datos de las bases de datos existentes.

En la siguiente sección se desarrolla el marco teórico, en el cual se detalla la teoría que fundamentó esta investigación.

(24)

6

CAPÍTULO II: MARCO TEÓRICO

En este capítulo se describe la base teórica que fundamentó el desarrollo del presente trabajo. Se definen los principales conceptos que involucran el uso de árboles de decisión como modelos de clasificación. En primer lugar, la minería de datos, técnica que fue aplicada por medio de los árboles de decisión para el estudio de la permanencia estudiantil; asimismo, el pre-procesamiento de datos que permitió limpiar y ajustar los mismos para su aplicación en los árboles de decisión.

También los algoritmos de clasificación, técnica que fue llevada a cabo por medio del aprendizaje basado en árboles de decisión, que también se definirá en esta sección. Se detallarán además los algoritmos ID3 y C4.5 que permiten construir árboles de decisión. Finalmente, se describirá el fundamento teórico respecto a la validación de los resultados obtenidos en los árboles de decisión.

2.1 Minería de Datos

La minería de datos es el proceso por el cual, haciendo uso de métodos y técnicas de inteligencia artificial y aprendizaje automático, permite descubrir conocimiento de grandes conjuntos de datos, por medio de asociaciones, patrones, cambios, estructuras significativas y anomalías encontradas en los datos almacenados en bases o almacenes de datos u otros tipos de repositorios de información (Han, Kamber, & Pei, 2012), que pueden aportar información valiosa en la toma de decisiones.

Las tareas propias de la fase de minería de datos pueden ser descriptivas (descubrir patrones interesantes o relaciones describiendo los datos), o predictivas (clasificar nuevos datos basándose en los anteriormente disponibles). (Mitra & Acharya, 2003) Algunas técnicas comúnmente usadas para realizar minería de datos incluyen el uso de algoritmos de clasificación tales como redes neuronales, árboles de decisión, k vecinos más cercanos y máquinas de soporte vectorial.

Antes de llevar a cabo la minería por medio de una técnica, es necesario realizar un pre-procesamiento en los datos, para asegurar la coherencia de los datos que van

(25)

7 a ser utilizados, y así procurar que el proceso de minería genere conocimiento relevante y confiable. (Srivastava, 2014)

2.2 Pre-procesamiento de datos

El pre-procesamiento es una tarea necesaria para la preparación de los datos que serán utilizados para un almacén o en análisis de conjuntos de datos, que permite corregir las inconsistencias de los mismos que serán la base de análisis en procesos de minería de datos, para que los datos que van a ser utilizados en tareas de análisis o descubrimiento de conocimiento conserven su coherencia. Una de las principales razones para realizar el pre-procesamiento de datos es el ruido. (Hernández &

Rodríguez Rodríguez, 2008)

Los datos inexactos, incompletos e inconsistentes son comunes en grandes bases y almacenes de datos del mundo real. Hay muchas razones posibles para datos inexactos (en otras palabras, con valores de atributo incorrectos), los instrumentos de recopilación de datos utilizados pueden estar defectuosos, es posible que haya errores humanos o informáticos al ingresar los datos, los usuarios pueden enviar intencionalmente valores de datos erróneos para campos obligatorios cuando no desean enviar información personal y también existe la posibilidad que ocurran errores de transmisión. (Han et al., 2012)

Un conjunto de datos puede presentar valores faltantes en sus registros por diversas situaciones, tales como que el campo del conjunto fuera creado posterior a la fecha de creación del registro, se haya borrado debido a inconsistencias en sistemas de información, inexistencia de un valor definido para ese caso en particular, y otras.

(Han et al., 2012)

Es frecuente encontrar valores faltantes en las bases de datos estudiantiles de la Universidad de Costa Rica, ya que estas son utilizadas para la gestión automatizada de los procedimientos administrativos, y su evolución implica la creación de nuevos campos de datos, eliminación manual de inconsistencias por medio de procesos masivos o que aún no existe información para un valor en un momento específico.

(26)

8 Varios autores han propuesto una serie de pasos para llevar a cabo el pre- procesamiento de datos (Han et al., 2012; Hernández & Rodríguez Rodríguez, 2008;

Srivastava, 2014), los cuales fueron utilizados en este proyecto: limpieza, integración, transformación y reducción. En la Figura 1, se puede apreciar una representación gráfica de cada paso.

Figura 1. Representación gráfica de pasos para el pre-procesamiento de datos. (Hernández & Rodríguez Rodríguez, 2008)

En las siguientes secciones, se detalla de manera breve en lo que consiste cada una de estas tareas.

2.2.1 Integración de datos

La integración de datos permite la creación de un conjunto de datos nuevo a partir de múltiples conjuntos o almacenes de datos. Este proceso debe ser realizado cuidadosamente, para evitar redundancia de información e inconsistencias en el conjunto resultante. Esto apoya las técnicas de minería de datos, al contar con un solo conjunto de datos normalizado. (Han et al., 2012)

(27)

9 Por ejemplo, teniendo un conjunto de datos que cuente con una variable “lugar de procedencia”, y teniendo acceso a otro conjunto de “índices de desarrollo social por región”, una estrategia de integración de datos consiste en transformar la variable

“lugar de procedencia” en “índice de desarrollo social del lugar de procedencia”, esto permite contar con una variable que aporta mayor información para realizar un proceso de minería.

2.2.2 Transformación de datos

La transformación de datos permite transformar los datos suministrados al formato requerido para realizar la labor de minería a través de técnicas tales como agregación, discretización, generalización y normalización. Esto permite incrementar el conocimiento y descubrir nuevas relaciones entre características, la calidad del proceso de minería se incrementa y los patrones que se encuentren pueden ser más simples de entender (Han et al., 2012).

Por ejemplo, se podría aplicar la transformación por generalización a una variable

“fecha de nacimiento”, para convertirla en “edad”, en caso que se requiera comparar esta propiedad entre varias personas. Esto podría favorecer el proceso de minería, al facilitar el descubrimiento de alguna relación entre los datos, que se evidencie y facilite por medio de la variable “edad”.

2.2.3 Limpieza de datos

La limpieza de datos tiene como objetivo mejorar la calidad de los datos mediante la detección y supresión de errores e inconsistencias (Han et al., 2012). Esta tarea es necesaria para resolver errores que presenten los datos, que puedan deberse a fallos en la introducción de los mismos, pérdida de información, datos inválidos, diferencia de formatos, entre otros. Estos problemas se multiplican cuando se trabaja con múltiples fuentes de datos, ya sea en almacenes de datos o sistemas distribuidos, por lo que la necesidad de limpiar los datos antes de analizarlos se hace indispensable, ya que, al tratarse de diversas fuentes de distintas organizaciones, existen muchas posibilidades de que existan datos redundantes o con diferentes representaciones (Pérez del Rey, 2007).

(28)

10 En el proceso de limpieza, también se tratan los valores faltantes del conjunto de datos. Algunas maneras de manejarlos son: ignorar la tupla, descartar el atributo del conjunto, completar manualmente el dato, reemplazar los valores con una constante global y reemplazar los valores por un valor medio para la clase dada (Han et al., 2012; Hernández & Rodríguez Rodríguez, 2008).

2.2.4 Reducción de datos

Las técnicas de reducción de datos pueden ser aplicadas para obtener una representación reducida manteniendo la integridad de los datos originales (Hernández & Rodríguez Rodríguez, 2008). Se aplica en conjuntos de datos grandes, con el propósito de hacer más eficiente la técnica de minería, reduciendo los datos a un conjunto más pequeño pero significativo (Pérez del Rey, 2007). Se aplican técnicas como reducción de dimensiones, en donde se remueven atributos ruidosos o poco significativos del conjunto de datos, o reducción de numerosidad, en donde se agrupan categorías de una variable para obtener mejores resultados de clasificación.

La implementación del pre-procesamiento, permite contar con un conjunto de datos óptimo, requisito necesario para asegurar la efectividad del algoritmo de clasificación que vaya a ser seleccionado para realizar el proceso de minería de datos. Seguidamente se detalla el concepto de algoritmos de clasificación.

2.3 Algoritmos de Clasificación

Los algoritmos de clasificación son un grupo de técnicas de minería de datos que mapean los datos a grupos o clases predefinidas. Es un método de aprendizaje supervisado que requiere etiquetado de datos de entrenamiento para generar reglas para clasificar datos de prueba en grupos o clases predefinidas (Dunham, 2002). El proceso consta de dos fases. La primera es el aprendizaje, donde el conjunto de datos de entrenamiento es analizado y se generan reglas de clasificación. La siguiente fase es la clasificación, en la cual los datos de prueba son clasificados en clases de acuerdo a las reglas generadas. (Kabakchieva, 2013)

(29)

11 Para efectos de este proyecto, se escogió el algoritmo de clasificación basado en árboles de decisión, el cual se detalla a continuación.

2.4 Árboles de Decisión

Los árboles de decisión son un tipo de algoritmo de clasificación cuyo objetivo principal es el aprendizaje inductivo a partir de observaciones y construcciones lógicas. Son utilizados para representar y categorizar una serie de condiciones que suceden de forma sucesiva para la solución de un problema. (Barrientos Martínez et al., 2009)

Un árbol gráficamente se representa por un conjunto de nodos, hojas y ramas. El nodo principal o raíz es el atributo a partir del cual se inicia el proceso de clasificación; los nodos internos corresponden a cada una de las preguntas acerca del atributo en particular del problema. Cada posible respuesta a los cuestionamientos se representa mediante un nodo hijo. Las ramas que salen de cada uno de estos nodos se encuentran etiquetadas con los posibles valores del atributo (Russell & Norvig, 2003). Los nodos finales o nodos hoja corresponden a una decisión, la cual coincide con una de las variables del problema a resolver, a esta variable se le conoce como atributo clase (Ver Figura 2).

Figura 2. Estructura de un árbol de decisión

(30)

12 Para recorrer el árbol de decisión, se inicia por el nodo raíz. Para seguir al siguiente nodo, se selecciona la rama del nodo de acuerdo a la circunstancia, se sigue el mismo proceso hasta llegar al nodo hoja, el cual define la decisión recomendada por el modelo.

En el campo de la minería de datos, los árboles de decisión son utilizados como una herramienta para análisis de datos, que facilitan la toma de decisiones y permiten predecir el valor de una variable. Para esto, se construyen árboles a partir de grandes conjuntos de datos por medio de la técnica de aprendizaje basada en árboles de decisión, que se detalla a continuación.

2.5 Aprendizaje basado en árboles de decisión

El aprendizaje basado en árboles de decisión utiliza un árbol de decisión como un modelo predictivo. Se utiliza comúnmente en la minería de datos y su objetivo es crear un modelo que predice el valor de una variable de destino en función de diversas variables de entrada. Este método es apropiado para solucionar problemas de aprendizaje conocidos como problemas de clasificación. (Han et al., 2012) Como se muestra en la Figura 3, el proceso de aprendizaje o clasificación utiliza los registros de un conjunto de datos. Cada registro, también llamado instancia o ejemplo, está caracterizado por una tupla (x,y), donde “x” es el conjunto de atributos y “y” es el atributo clase, el cual es la categoría en la cual se clasifica “x”. Los atributos que se encuentran en el conjunto x pueden ser de tipo discreto y continuo, mientras que la variable de clase debe de ser estrictamente de tipo discreto. (Tan, Steinbach, & Kumar, 2013)

Figura 3. Tarea de clasificar un conjunto de atributos “x” en un atributo clase “y”

(31)

13 Este tipo de aprendizaje es de tipo caja blanca, esto permite conocer los procedimientos o decisiones que se llevan a cabo para realizar una clasificación.

(Márquez Vera et al., 2012)

En la Tabla 1, se suministra un conjunto de datos, en el cual se definen las condiciones en las cuales un animal es mamífero o no. Según lo expuesto en el párrafo anterior, para llevar a cabo el proceso de aprendizaje utilizando árboles de decisión, se debe definir el conjunto de variables y el atributo clase. En este caso, si el interés es crear un modelo que permita definir en qué condiciones el animal es mamífero, debe definirse la variable “Tipo” como atributo clase (y), y al conjunto de atributos (x) deben pertenecer todos aquellos que permiten determinar el atributo clase (y), que en este caso corresponden a “temperatura del cuerpo” y “¿da a luz?”.

La variable nombre, es simplemente un identificador de la tupla y no debe incluirse dentro del conjunto de atributos, ya que no aporta ninguna información que influya al respecto.

Tabla 1. Conjunto de datos ejemplo para determinar si un animal es mamífero o no

Nombre Temperatura del cuerpo

¿Da a luz? Tipo

Oso Caliente Sí Mamífero

Salmon Fría No No mamífero

Ballena Caliente Sí Mamífero

Paloma Caliente No No mamífero

Tortuga Fría No No mamífero

Gato Caliente Sí Mamífero

Una vez que se identifica el conjunto de atributos (x) y el atributo clase (y) del conjunto de datos, el proceso de aprendizaje se encarga de generar un modelo de clasificación haciendo uso de árboles de decisión que permita mapear el conjunto

(32)

14 de atributos (x) en alguna de las categorías con las que cuenta el atributo clase.

Este proceso puede ser llevado a cabo haciendo uso de distintos algoritmos existentes tales como ID3 y C4.5 (Tan et al., 2013). Una vez que se implementa el algoritmo de aprendizaje, este genera como salida un árbol de decisión como el que se muestra en la Figura 4.

Figura 4. Árbol de decisión para determinar si un animal es mamífero o no

El árbol generado es el modelo de clasificación resultante del proceso de aprendizaje. Es útil como modelo descriptivo, ya que puede utilizarse como una herramienta que permita explicar el vínculo de un conjunto de atributos sobre una variable en particular, y que brinde un detalle visual de la información que contiene el conjunto de datos de la Tabla 1. Además, es útil como modelo predictivo, ya que puede ser usado para predecir el valor de la variable clase en condiciones desconocidas que no se encuentren en el conjunto de datos. En la Tabla 2, se suministra el ejemplo de un caso que no está dentro del conjunto de datos de la Tabla 1, pero que recorriendo el árbol de decisión de la Figura 4 se puede determinar que es no mamífero.

(33)

15

Tabla 2. Nuevo caso no contemplado en el conjunto de datos de mamíferos

Nombre Temperatura del cuerpo

¿Da a luz? Tipo

Salamandra Fría No ?

En principio, existen múltiples árboles de decisión que pueden ser construidos de un conjunto de atributos dado. Algunos árboles pueden ser más eficientes que otros; sin embargo, encontrar el mejor árbol que puede ser construido, en muchos casos es computacionalmente imposible debido al tamaño exponencial del espacio de búsqueda que esto pueda implicar; no obstante, los algoritmos existentes son suficientemente eficientes para encontrar árboles razonablemente precisos, sub- óptimos en un tiempo razonable. (Tan et al., 2013)

Asimismo, para realizar un proceso de aprendizaje, es deseable contar con un conjunto de datos lo más completo posible en términos de atributos y tuplas, ya que la ausencia de estos puede alejar la probabilidad de encontrar el árbol óptimo. Por ejemplo, el árbol de la Figura 4 fue construido utilizando dos atributos y funciona para efectos del conjunto de datos utilizado; sin embargo, el árbol no es útil para clasificar casos excepcionales como el ornitorrinco, cuya temperatura del cuerpo es caliente y no da a luz, pero sí es un mamífero. Para evitar esto, se pudo haber agregado al conjunto, los atributos que determinan la condición de este animal.

Para efectos del presente proyecto, se utilizará el algoritmo C4.5 para realizar el proceso de aprendizaje, utilizando la técnica “división del conjunto de datos en porcentajes”, que será explicada más adelante.

El algoritmo C4.5 es una mejora del ID3, por tanto, en secciones posteriores se explicarán ambos para entender completamente el funcionamiento del primero. A continuación, se procederán a explicar dos conceptos que son necesarios para entender el procedimiento llevado a cabo por ambos algoritmos, que son entropía y ganancia de información.

(34)

16

2.5.1 Entropía de información

La entropía mide el grado de desorden o incertidumbre en un conjunto de datos (Bhargava, Sharma, Bhargava, & Mathuria, 2013). Esta característica se mide con valores entre cero y uno.

Cuando un conjunto de datos tiene una entropía de cero, se dice que todos los elementos del conjunto pertenecen a una misma clase, a esto se le conoce como

“mínima impureza de datos”. Cuando un conjunto tiene una entropía de uno, es cuando existen la misma cantidad de elementos de cada clase, en otras palabras, cuando existe una máxima aleatoriedad, a esto se le conoce también como “máxima impureza de datos”. (Solarte Martínez & Soto Mejía, 2011)

En la Figura 5, se puede observar dos ejemplos de conjuntos. El conjunto de máxima impureza cuenta con la misma cantidad de elementos de cada clase (rombos y círculos), en este caso la entropía tendría un valor de uno. El conjunto de máxima impureza cuenta con todos los elementos de una misma clase (únicamente círculos), en este caso el valor de entropía sería de cero.

Figura 5. Ilustración con un ejemplo de máxima y mínima impureza de entropía en un conjunto

La fórmula para calcular la entropía de un conjunto de datos se define por:

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) = ∑ −𝑝(𝑆_𝑖) × 𝑙𝑜𝑔₂𝑝(𝑆_𝑖)

𝑖=𝑛

𝑖=1

(35)

17 Donde S representa el conjunto de datos con todas sus clases, del cual se desea obtener la entropía, n el número de distintas clasificaciones que existen del conjunto y cada p(Si) es la proporción de ejemplos que hay de la clasificación i en la muestra.

Para dejar más claro el concepto, en la Tabla 3 se muestra un conjunto de datos para decidir si es factible jugar o no tenis según las condiciones específicas del tiempo. El atributo clase corresponde a “decisión”. A continuación, se procederá a calcular el índice de entropía.

Tabla 3. Conjunto de datos para decidir si jugar o no tenis según condiciones climáticas (Hssina, Merbouha, Ezzikouri, & Erritali, 2014)

Día Panorama Temperatura Humedad Viento Decisión

1 Soleado Alta Alto Débil No

2 Soleado Alta Alto Fuerte No

3 Nublado Alta Alto Débil Sí

4 Lluvia Moderada Alto Débil Sí

5 Lluvia Baja Normal Débil Sí

6 Lluvia Baja Normal Fuerte No

7 Nublado Baja Normal Fuerte Sí

8 Soleado Moderada Alto Débil No

9 Soleado Baja Normal Débil Sí

10 Lluvia Moderada Normal Débil Sí

11 Soleado Moderada Normal Fuerte Sí

12 Nublado Moderada Alto Fuerte Sí

13 Nublado Alta Normal Débil Sí

14 Lluvia Moderada Alto Fuerte No

Para calcular p(Si), hay que determinar la cantidad de instancias existentes en cada categoría para el atributo clase, en este caso hay nueve de tipo “Sí” y cinco de tipo

“No”, asimismo, hay una cantidad de catorce instancias en el conjunto. De esta manera, se calculan las probabilidades a continuación:

𝑝(𝑆í) = 9

14= 0.64

(36)

18 𝑝(𝑁𝑜) = 5

14= 0.36

Con estos datos, se aplica la fórmula para determinar la entropía del conjunto:

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛) = − 9

14× 𝑙𝑜𝑔₂ 9 14− 5

14× 𝑙𝑜𝑔₂ 5

14= 0.940

Por medio de la entropía, es posible obtener la ganancia de información de una variable en un conjunto de datos, elemento fundamental para los algoritmos ID3 y C4.5. En la siguiente sección se detalla este concepto.

2.5.2 Ganancia de información

La ganancia de información en un conjunto de datos define la medida de cuanto ayuda a conocer el valor de un atributo X el valor de otro atributo Y, o bien, la medida de cuanto ayuda la información aportada por el atributo X a reducir la incertidumbre del valor del atributo Y (Battiti, 1994). En el caso que el atributo X sea completamente relevante para conocer el valor del atributo Y, se obtiene una máxima ganancia de información.

La ganancia de información es inversamente proporcional a la entropía, ya que, a menor entropía, mayor ganancia de información. (Coppin, 2004)

La fórmula para calcular la ganancia de información de un atributo A sobre un conjunto de datos con la variable S definida como atributo clase se define por:

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆) − ∑ |𝑆_𝑣|

|𝐶| × 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝑆_𝑣)

𝑣 ∈𝑉𝑎𝑙𝑜𝑟𝑒𝑠(𝐴)

Donde Ganancia(S, A) representa la ganancia de información de un atributo A con respecto a un conjunto de datos S de acuerdo a su atributo clase, Entropía(S) indica la entropía del conjunto de datos S, Valores(A) simboliza el conjunto de valores del atributo A, Sv representa el número de tuplas del subconjunto de S formado por aquellas instancias que en el atributo A toman el valor v, C indica el número total de

(37)

19 instancias del conjunto de datos S y Entropía(Sv) simboliza la entropía del conjunto de datos S formado por aquellas instancias que en el atributo A toman el valor v.

Para dejar más claro el concepto, se hará uso del conjunto de datos mostrado en la Tabla 3 de la sección anterior para calcular el índice de ganancia del atributo

“Viento” con respecto al conjunto teniendo como atributo clase “Decisión”.

Para conocer el índice de ganancia, hay que resolver la siguiente fórmula:

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝑉𝑖𝑒𝑛𝑡𝑜) = 𝐸𝑛𝑡. (𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛) − ∑ |𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛𝑣|

|𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛| × 𝐸𝑛𝑡. (𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛_𝑣)

𝑣 ∈𝑉𝑎𝑙𝑜𝑟𝑒𝑠(𝑉𝑖𝑒𝑛𝑡𝑜)

Se conoce que el valor de Entropía (Decisión) es de 0.940 ya que se resolvió en la sección anterior.

Para calcular la sumatoria, es necesario identificar cada uno de los valores de 𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛_𝑣, siendo v1 = viento débil y v2 = viento fuerte

El subconjunto de factor de viento débil (v1) se puede observar en la Tabla 4. Este conjunto cuenta con ocho muestras de las catorce del conjunto completo, de esta manera, se resuelve el componente de la sumatoria.

|𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛_𝑣₁|

|𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛| = 8

14= 0.57

Tabla 4. Subconjunto de factor de viento débil

1 Soleado Alta Alto Débil No

4 Lluvia Moderada Alto Débil Sí

5 Lluvia Baja Normal Débil Sí

8 Soleado Moderada Alto Débil No

9 Soleado Baja Normal Débil Sí

10 Lluvia Moderada Normal Débil Sí

(38)

20 Además, para resolver la fórmula de la ganancia, se procede a obtener la entropía del subconjunto anterior.

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎_𝑣₁ = 2

8× 𝑙𝑜𝑔₂2 8−6

8× 𝑙𝑜𝑔₂6

8= 0.811

El subconjunto de factor de viento fuerte (v2) se puede observar en la Tabla 5. Este conjunto cuenta con seis muestras de las catorce del conjunto completo, de esta manera, se resuelve el componente de la sumatoria.

|𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛_𝑣₂|

|𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛| = 6

14= 0.43

Tabla 5. Subconjunto de factor de viento fuerte

2 Soleado Alta Alto Fuerte No

6 Lluvia Baja Normal Fuerte No

11 Soleado Moderada Normal Fuerte Sí

14 Lluvia Moderada Alto Fuerte No

Además, para resolver la fórmula de la ganancia, se procede a obtener la entropía del subconjunto anterior.

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎_𝑣₂ = 3

6× 𝑙𝑜𝑔₂3 6−3

6× 𝑙𝑜𝑔₂3 6= 1

De esta manera se puede resolver la fórmula de la ganancia de información del atributo viento sobre decisión.

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 (𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝑉𝑖𝑒𝑛𝑡𝑜) = 0.940 − (0.57 × 0.811) − (0.43 × 1) = 0.048 Tanto el concepto de ganancia, como el de entropía son la base de los algoritmos ID3 y C4.5, que permiten implementar el método de aprendizaje por medio de árboles de decisión. En la siguiente sección se detalla el algoritmo ID3.

(39)

21

2.5.3 Algoritmo ID3

El algoritmo ID3 fue desarrollado por Ross Quinlan, realiza una búsqueda de hipótesis o reglas, dado un conjunto de datos. El algoritmo utiliza la técnica de ganancia de información para escoger los atributos que dividirán el conjunto de datos, y el atributo que cuenta con la mayor ganancia de información y menor entropía es seleccionado como el atributo que subdividirá el conjunto del nodo (Quinlan, 1986). Este algoritmo acepta únicamente variables discretas y no acepta valores faltantes en todos los atributos del conjunto de datos.

Para construir el árbol de decisión con ID3, se calcula la ganancia de información para cada uno de los atributos y se selecciona el atributo con la mayor ganancia y se escoge como el nodo raíz. Se coloca el nodo raíz y los posibles valores del atributo se colocan en las ramas del árbol. Luego se hace una búsqueda de todas las posibles instancias que apliquen para cada rama, si todas las instancias de una rama tienen la misma clase, se crea un nodo hoja y se le asigna la clase correspondiente, en caso contrario se realiza de nuevo la búsqueda del atributo con mayor ganancia de información para clasificar el resto de las instancias. (Quinlan, 1986)

Tomando como ejemplo el conjunto de datos que fue suministrado en la Tabla 3 de la sección 2.5.1, para seleccionar el nodo raíz del árbol se debe de conocer cuál es el atributo que tiene más ganancia de información respecto al atributo clase de todo el conjunto de datos, de esta manera, se obtienen los siguientes valores para cada caso:

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎(𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝑃𝑎𝑛𝑜𝑟𝑎𝑚𝑎) = 0.246 𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎(𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝐻𝑢𝑚𝑒𝑑𝑎𝑑) = 0.151

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎(𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝑉𝑖𝑒𝑛𝑡𝑜) = 0.048 𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎(𝐷𝑒𝑐𝑖𝑠𝑖ó𝑛, 𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎) = 0.029

(40)

22 De esta manera, el atributo que debe ir en la raíz del árbol es panorama, se agrega como nodo del árbol, además, se agregan tanta cantidad de ramas como la cantidad de categorías con las que cuenta el atributo. La representación gráfica se representa como se visualiza en la Figura 6.

Figura 6. Representación gráfica de un nodo raíz

Posteriormente, para cada rama del nodo, se realiza el mismo procedimiento con el subconjunto disponible para cada rama.

En la Tabla 6, se puede observar el subconjunto obtenido en la rama “nublado”. En este caso, el atributo clase “decisión” en todos los casos tiene el mismo valor “Sí”.

En esos casos finaliza el crecimiento del árbol en esa rama, y se crea un nodo hoja, con el valor del atributo clase, en este caso en particular, se crea un nodo hoja con la clase “Sí”.

Tabla 6. Subconjunto de datos obtenido en la rama “nublado”

En la Tabla 7, se muestra el subconjunto obtenido en la rama “lluvioso”. Esta vez, a diferencia del subconjunto de la rama “nublado”, existen instancias con distintos valores en el campo “decisión”. En este caso, se busca el atributo con mayor ganancia de información y este será el próximo nodo de esa rama. El proceso se repite hasta que se obtiene un subconjunto en el que todas las tuplas tienen el mismo valor en el atributo clase, como fue en el caso de la rama “nublado”.