PRE-PROCESO: SELECCIÓN, LIMPIEZA Y TRANSFORMACIÓN DE DATOS.
4. Pre-proceso: Selección, limpieza y transformación de datos
4.5. Descripción del proceso de extracción de datos
A partir de los datos, previo a los resultados obtenidos del análisis que se realice en este proceso son la parte fundamental de este proyecto, ya que estos datos son las acciones que los estudiantes de la UTPL realizan al momento de interactuar con el EVA, lo cual ayudará a encontrar una estructura jerárquica que determine un recorrido lógico y organizado de la información a través de patrones de navegación de los estudiantes, y con ello las diferentes maneras de aprendizaje del estudiante. Para la extracción de conocimiento de los datos adquiridos, se tiene que seguir un proceso. El proceso de las fases fundamentales que constituye la minería del uso Web, para el procesamiento de los Log, la misma que produce información de alto valor para el análisis previo de los Logs.
Para el desarrollo del presente análisis y el minado se consideraron los datos expuestos en la Tabla 11, la cual se la presenta más adelante, esta tabla describe los datos de extracción de la base de datos del EVA, con los cursos y el total de estudiantes enrolados dentro de los mismos, de la Universidad Técnica Particular de Loja, modalidad Abierta, noveno ciclo de la carrera de Informática del periodo académico: Abril 2013 ± Agosto 2013.
La razón por la cual se escogió la carrera de Informática es debido al nivel de interacción que los estudiantes tienen con la plataforma del EVA, y los cinco cursos de noveno ciclo fueron
74
seleccionados debido al número de estudiantes que se encuentran enrolados en los cursos, que en comparación con otros cursos del mismo periodo académico cuentan con un número bajo de estudiantes enrolados en el sistema. Además, por ser los cursos con mayor nivel de interacción en relación a los demás estudiantes de la misma carrera. Los estudiantes de noveno ciclo interactúan con la mayoría de las herramientas de la plataforma, ya sea para su aprendizaje y la colaboración y comunicación con su profesor. Luego con estos datos se realizará la minería de los datos para extraer patrones de navegación de los estudiantes que interactúan con el EVA y determinar indicadores y atributos que serán representados dentro de un modelo de datos del usuario.
4.5.1. Datos de extracción
Para la fase de extracción de los datos del EVA, se toman los atributos más importantes dentro de la tabla de los Logs, los mismos que se determinaron de acuerdo a la interacción que tiene el estudiante con las herramientas del EVA, y que permitan extraer las rutas de navegación de los usuarios durante la interacción con el EVA, ya sean las acciones del estudiante sobre los objetos de los cursos en los que se encuentra enrolado dentro del sistema, para almacenarlos en una tabla dentro de la base de datos, ver (ANEXO E).
Una vez realizadas las consultas mediante lenguaje SQL en la base de datos, y con la información clasificada y pre-procesada de la interacción de los estudiantes en el EVA, se procedió a experimentar con los algoritmos de las técnicas propuestos para el proceso de minería.
Para el proceso de extracción de los datos del EVA, se realizó una conexión directa con la herramienta de Navicat y la base de datos del Eva, ver (ANEXO F). Los datos de extracción que fueron obtenidos mediante consultas en lenguaje SQL desde la base de datos del EVA, se detallan en la siguiente tabla.
Fuente: Ruiz, F., (2014).
Periodo Modalidad Carrera Ciclo Curso (Asignatura)
Abril 2013 ± Agosto 2013
Abierta y a
Distancia Informática Noveno
Administración de Herramientas CASE [A] Control de Calidad [A]
Modelamiento de Datos [A] Redes y Sistemas Distribuidos [A] Sistemas Basados en el Conocimiento [A] Sistemas de Control [A]
La metodología utilizada para la minería del uso de la Web y la extracción del conocimiento incluye cinco fases fundamentales para el análisis de Logs, que fueron descritas en el estado del arte, estas fases están relacionadas con las etapas del uso de la minería Web, descrita anteriormente. Las fases se detallan más adelante junto con las herramientas con las cuales se trabajara para realizar cada una de las fases de la minería de datos.
4.5.2. Limpieza de datos
Este proceso es fácil, pero se debe realizar con mucho cuidado, sobre todo al momento de la selección de los datos que van a ser tratados, ya que en la tabla de los Log, existen muchos datos irrelevantes e innecesarios, además hay que tomar en cuenta que los datos sean concisos, y estén libres de datos erróneos, obsoletos o con inconsistencias; ya que de estos datos depende la veracidad y eficiencia para el posterior análisis de los resultados.
Luego de realizar el análisis de minería, lo siguiente consiste en realizar una revisión minuciosa de los datos del EVA, para luego elaborar un diagrama Entidad-Relación con las tablas más importantes para el análisis y proceso de los datos, la selección de las tablas se la realizó de forma manual mediante consultas SQL, desde una herramienta de gestión de base de datos,
Navicat for MySQL, propia para la plataforma de MAC, que es, en la que se está trabajando, esta herramienta permite editar, borrar y modificar todas las tablas y los datos, además permite ejecutar consultas SQL, crear nuevas tablas, hacer consultas, etc.; en el momento de realizar las consultas para extraer los datos previos que permitirán encontrar las trazas de navegación de los estudiantes que interactúan con el sistema, por tal razón, es necesario filtrar información para que el sistema no arroje datos redundantes, incoherentes e innecesarios, y sólo nos presente los datos necesarios, ver (ANEXO B).
4.5.3. Transformación de datos
Para la transformación de los datos, existen varias herramientas de consulta y análisis para explotación de la información, herramientas de procesamiento analítico que sirven para visualizar y manipular datos interactivamente que se encuentran almacenados en un repositorio de datos, y la minería de datos es para encontrar patrones de navegación que ayuden a determinar los indicadores de navegación de los estudiantes que interactúan con el EVA; la razón por la que se escogió una herramienta para realizar el análisis y las consultas en el EVA, es debido a la gran cantidad de datos almacenados ahí, a los cuales hay que realizarles un proceso de depuración antes de realizar la extracción de los mismos.
76
La fase de la transformación y limpieza de datos, se realizó con la herramienta de Weka, la cual permite aplicar una gran diversidad de filtros y todo tipo de transformaciones sobre los datos; y de esta manera poder discernir sólo la información necesaria para determinar indicadores y patrones de navegación en los estudiantes. Los datos se filtraron en una nueva tabla con los datos de interacción de los estudiantes con el EVA.
Con la información obtenida en el pre-proceso de datos, se procedió a realizar cada una de las fases previas a la minería, para luego con los datos extraídos crear una nueva entidad dentro de la base de datos con las interacciones obtenidas de los estudiantes en el EVA mediante consultas SQL, con la finalidad de realizar la minería de datos de una manera dinámica, según las acciones de los estudiantes en las herramientas (foros, recursos, REA, RSA, chat, tareas,
cuestionarios, etc.) o la interacción en actividades (subir tareas, revisar blogs o la Wiki, enviar
mensajes, etc.).
Para realizar el pre-proceso, que consiste en la selección, limpieza y transformación de datos, se lo realizará con la herramienta Weka. Antes de aplicar las técnicas de minería a los datos del EVA, se realizará algunos ajustes en el módulo, esta herramienta importa datos de varios formatos: formato Weka denominado ARFF, archivos de texto separados por comas (CSV), c4.5, binario y puede leer datos usando la especificación JDBC de Java; que es con la que se trabajará. Para ello, se realizará la conexión de MySQL con la base del EVA y desde allí realizar el proceso de minado.
Weka contiene filtros para obtener los datos útiles, estos filtros incluyen operaciones de muestreo, selección de campos y transformación y combinación de atributos. Los algoritmos de minería que incluye caen en 3 rubros que se pueden ver en su interfaz gráfica y los cuales se tomarán para el proceso de minería del EVA, dentro de los Logs.