Fase de minería de datos - Metodología de minería de datos KDD

3.2. Metodología de minería de datos KDD

3.1.3. Fase de minería de datos

Tiene como objetivo principal el descubrimiento de conocimiento útil y comprensible para el usuario, aquí se realiza una descripción de los patrones y relaciones presentes en los datos descritos en la base datos, las técnicas de minería que se emplearon en esta investigación están orientadas, primero a la conformación de grupos o perfiles de estudiantes con características en común de uso de Internet; y luego a la comprobación de las hipótesis planteadas al inicio del estudio.

49 2.3.3.3. Identificar el modelo más adecuado para la base de datos.

Para seleccionar el modelo más adecuado se realizó un análisis basado en los objetivos de la investigación, así como también en las hipótesis que se busca comprobar o descartar; en el primer caso se busca describir los grupos o perfiles de los estudiantes según el uso de Internet; en el segundo caso, se busca predecir el valor de variables dependientes en base a un grupo de variables independientes, lo que sería la comprobación de las hipótesis. Es por ello que se optó por usar dos de los modelos más representativos de la minería de datos: el modelo predictivo y el modelo descriptivo.

2.3.3.4. Elegir la tarea de minería de datos más adecuada.

Para la selección de la tarea o las tareas de minería de datos más adecuada se debe considerar el modelo seleccionado, a continuación se describe cada una de las tareas de minería de datos involucradas en esta investigación.

Reducción de variables factorización.

Puesto que se tiene un amplio número de variables enfocadas en conocer los usos de Internet tanto para actividades académicas como de entretenimiento y considerando que para obtener los grupos homogéneos descritos en los objetivos se hace necesaria la reducción de variables; mediante el empleado de la técnica conocida como factorización que permite reducir el número de atributos a un menor número de factores, este análisis agrupa a los factores que mayormente están relacionados entre sí.

Las condiciones que debe cumplir el análisis factorial para ser válido según (De la Fuente, 2011) son:

1. “Que el valor correspondiente a la determinante sea menor a cero (d < 0). 2. Que el valor de la prueba KMO4_{sea cercano a 1.}

3. Y el valor de la varianza total alcance un valor superior al 70% de exactitud”. El detalle de los resultados obtenidos con esta técnica se muestra en el (Anexo 15 y 16).

4_{KMO: índice que se utiliza para comprobar las magnitudes de los coeficientes de correlación parcial, según}

afirma (De la Fuente 2011). Disponible:

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/MULTIVARIANTE/FACTORIAL/analisis- factorial.pdf

Agrupación o clusterización.

La tarea de minería de datos seleccionada es agrupamiento o clustering, siendo una tarea descriptiva que permite obtener grupos a partir de un determinado número de factores descritos en la base de datos, la tarea de clusterización se divide en dos tipos según (Benítez, Escudero, y Kanaan 2013): la clasificación jerárquica; donde todos los casos inician siendo un grupo independiente y se van fusionando hasta quedar uno solo; y la no jerárquica; en la cual desde el inicio se define el número de grupos y se va asignando cada caso a uno de estos. En esta investigación se empleó la clasificación no jerárquica siguiendo la recomendación dada por Días de Rada (2002), para trabajar con muestras altas, mediante la aplicación del algoritmo K-means.

2.3.3.5. Seleccionar el algoritmo para minería de datos.

Algoritmo (K-means).

Este algoritmo también es conocido como K-medias es uno de los más utilizados para agrupamiento de datos, se basa en un método de agrupamiento por vecindad, para ello parte de un determinado número de casos y de un conjunto de datos a ser etiquetados en el grupo correspondiente.

Benítez, Escudero y Kanaan ( 2013) describen el algoritmo K-means para obtener los grupos a través de los siguientes pasos:

1. “Elegir k puntos al azar como centroides iniciales. No tienen por qué pertenecer al

conjunto de datos, aunque sus coordenadas deben estar en el mismo intervalo. 2. Asignar cada punto del conjunto de datos al centroide más cercano, formándose así

k grupos.

3. Recalcular los nuevos centroides de los k grupos, que estarán en el centro

geométrico del conjunto de puntos del grupo.

4. Volver al paso 2 hasta que las asignaciones a grupos no varíen o se hayan superado las iteraciones previstas”.

Para obtener los perfiles académicos, se consideran como factores de entrada a las variables más representativas del conjunto de preguntas académicas y para ello se obtuvo primero las medias y se seleccionaron las 5 más altas, aludiendo hacer equilibrio pues como ya se ha descrito anteriormente el grupo académico contiene 10 variables, es así que las variables seleccionadas son: número de horas que busca información académica en Internet cada mes, número de consultas que realiza a sus compañeros en el mes, número de consultas que realiza a sus profesores en el mes, número de horas que dedica para chatear

51 sobre temas académicos y el número de videos académicos que observa en YouTube cada mes. Al algoritmo se le indicó que debía realizar clasificaciones o grupos de 2, 3 y 4 categorías; los resultados en caso del grupo seleccionado se exponen en la (Pag.69).

De la misma manera para los perfiles de entretenimiento, se ha considerado 3 de las 5 variables que conforman este grupo, siguiendo el mismo método se selecciona las variables cuyas medias sean las más altas, de modo que se ingresa las variables siguientes: número de horas que en la semana chatea por diversión, número horas que dedica en la semana a las redes sociales y el número de videos para entretenimiento que observa en YouTube cada semana., Con el objeto de realizar comparaciones y obtener el grupo más adecuado que permita describir los resultados y que apoye la comprobación de hipótesis planteadas se han realizado pruebas con grupos de 2, 3 y 4 categorías, el grupo seleccionado se muestra en la (Pág. 71).

Discriminación.

Con los grupos que se han obtenido en el apartado anterior se debe proceder a realizar el análisis discriminante, el cual permite obtener los porcentajes de clasificación de cada grupo y mediante ello elegir la mejor clasificación.

El análisis discriminante es conceptualizado por (Marin, 2004) como sigue:

“Supongamos que un conjunto de objetos está ya clasificado en una serie de grupos, es decir, se sabe previamente a qué grupos pertenecen. El Análisis Discriminante se puede considerar como un análisis de regresión donde la variable dependiente es categórica y tiene como categorías la etiqueta de cada uno de los grupos, y las variables independientes son continuas y determinan a qué grupos pertenecen los objetos. Se pretende encontrar relaciones lineales entre las variables continuas que mejor discriminen en los grupos dados a los objetos.

Un segundo objetivo es construir una regla de decisión que asigne un objeto nuevo, que no sabemos clasificar previamente, a uno de los grupos prefijados con un cierto grado de riesgo” (p. 1).

Dicho de otro modo el análisis discriminante permite verificar el nivel de exactitud de los grupos definidos con anterioridad en el análisis clúster. Así lo recomiendan Días de Rada, (2002) y (Torres 2012) quienes sugieren utilizar análisis discriminante, empleando como variable dependiente al número de grupo generado en el análisis clúster (clasificaciones 2, 3 y 4) y comprobar el porcentaje de asignaciones correctas que se obtienen para cada grupo.

52 Obtenidos los porcentajes de cada grupo se realiza una comparación para identificar el grupo que tiene mayor porcentaje de clasificación.

En el caso del perfil académico el análisis discriminante realizado para la clasificación de 3 grupos se presenta en la (Tabla 6), mientras que los discriminantes realizados para las clasificaciones de 2 y 4 grupos se presentan en el (Anexo 24).

Tabla 6. Discriminante clasificación 3 grupos perfil académico RESULTADOS DE LA CLASIFICACIÓNA

Número inicial de casos Grupo de pertenencia pronosticado _Total

1 2 3 Original Recuento 1 285 0 0 285 2 0 34 0 34 3 5 0 126 131 % 1 100 0 0 100 2 0 100 0 100 3 3,8 0 96,2 100

a. Clasificados correctamente el 98,9% de los casos originales agrupados. Fuente: Jessica Jima

53 Y para el perfil entretenimiento realizado para la clasificación de 3 grupos se presenta en la Tabla 7, así como el realizado para las clasificaciones de 2 y 4 grupos (Anexo 25).

Tabla 7. Discriminante clasificación 3 grupos perfil entretenimiento RESULTADOS DE LA CLASIFICACIÓNA Número inicial de casos Grupo de pertenencia pronosticado Total 1 2 3 Original Recuento 1 75 0 6 81 2 0 54 13 67 3 0 3 299 302 % 1 92,6 0 7,4 100 2 0 80,6 19,4 100 3 0 1 99 100

a. Clasificados correctamente el 95,1% de los casos originales agrupados. Fuente: Jessica Jima

Elaboración: Jessica Jima

In document La Educación Virtual en el Ecuador. “Análisis de los usos de la tecnología en los estudiantes de la Universidad Laica Vicente Rocafuerte de Guayaquil” (página 58-63)