Fase de Minería de datos - Metodología de minería de datos KDD

3. METODOLOGÍA

3.2. Metodología de minería de datos KDD

3.2.3. Fase de Minería de datos

Es la fase donde se extrae conocimiento en base a los datos obtenidos en paso anterior, esta información será comprensible para ser utilizado por el usuario, se construye un modelo que es conformado por relaciones y patrones de los datos almacenados, para llegar a obtener predicciones que interpreten de mejor manera los datos obtenidos. Para esto se define el modelo, tarea y el algoritmo de minería de datos se va a utilizar.

3.2.3.1. Identificar el modelo adecuado.

Para identificar el modelo a seguir, se toma en cuenta los objetivos que se pretende obtener y también las hipótesis que hay que resolver, para la presente investigación se utilizaran dos tipos de modelo los cuales son: el modelo descriptivo que permite agrupar a los estudiantes en grupos homogéneos y también se utilizara el modelo predictivo el cual nos permite comprobar las hipótesis planteadas.

3.2.3.2. Seleccionar la tarea de minería de datos.

La tarea seleccionada en base a los modelos ya definidos anterior mente es:

Clusterizacion: Que es una tarea descriptiva la cual nos permite obtener grupos a partir de características similares descritos en la base de datos.

Para la presente investigación se empleara la clasificación no jerárquica en base a la investigación realizada por Días de Rada (2002) que recomienda trabajar con clusterizacion no jerárquica en muestras altas aplicando al algoritmo K-means.

K-means: Es un análisis clúster que utiliza la distancia euclídea que es la distancia más corta entre objetos, donde se define K centroides en cada uno de los grupos para luego colocarlos en la clase centroide más próximo.

Los pasos propuestos por Xu, R. y Wunsch (2009) para ejecutar el algoritmo K-means son: 1. Inicializar cada partición K de forma randómica o en base a centroides preexistente. Calcular la matriz prototipo de clúster M=[m1,...,mK]

2. Asignar cada sujeto al clúster más cercano.

3. Recalcular la matriz prototipo del clúster en base a la partición actual.

4. Repetir los pasos 2 y 3 hasta que no hayan cambios en el centroide de los clúster.

Para la ejecución del algoritmo K-means se escogió para las variables en lo referente a las actividades académicas:

1. ¿Para entender las materias cuantos videos miras en youtube a la semana? 2. ¿Cuantos post o tweets sobre temas académicos realizas por semana?

3. ¿Aproximadamente cuantas horas chateas sobre temas académicos por semana? 4. ¿Aproximadamente cuantas horas buscas información académica en internet por semana?

Las cuales fueron agrupadas en el perfil para actividades académicas y se realizaron grupos de 2, 3 y 4, seleccionado el grupo de 2 con dos categorías: normal (clúster 1) y moderno (clúster 2) para mejor interpretación de los resultados.

Las variables seleccionadas para utilizar en el algoritmo K-means para el perfil actividades de entretenimiento fueron:

• Aproximadamente cuantas horas a la semana chateas por diversión.

• Aproximadamente cuántas horas a la semana utilizas redes sociales por diversión. • Aproximadamente cuántos videos para entretenimiento miras en youtube cada semana

De las cuales se obtuvo grupos de 2, 3 y 4 y se escogió al grupo de 2 con dos categorías nombradas normal (clúster 1) y moderno (clúster 2) para mejor interpretación de los resultados.

Discriminación: Se utilizó para evaluar y verificar los resultados obtenidos en el algoritmo K-means, recomendada en (Torres 2012) y así escoger la mejor clasificación en base al porcentaje de exactitud.

Tabla 14. Discriminante clúster 2 perfiles actividades académicas.

Número de caso de clúster

Pertenencia a grupos pronosticada Total 1 2 1 514 0 514 2 0 4 4 1 100,0 ,0 100,0 2 ,0 100,0 100,0

a. 100,0% de casos agrupados originales clasificados correctamente. Elaboración: Elaboración propia.

En la prueba de discriminación para el grupo de 2 clúster en el perfil actividades de entretenimiento se obtuvo un porcentaje de 99,6% de exactitud de clasificación correcta Tabla 15.

Tabla 15. Discriminante clúster 2 perfil actividades entretenimiento.

Número de caso de clúster

Pertenencia a grupos pronosticada Total 1 2 Original Recuento 1 15 0 15 2 2 501 503 % 1 100,0 ,0 100,0 2 ,4 99,6 100,0

a. 99,6% de casos agrupados originales clasificados correctamente. Elaboración: Elaboración propia.

3.2.4. Fase de Evaluación e Interpretación.

En esta fase se verifican las hipótesis planteadas en base a los patrones obtenidos en la fase anterior, se utilizan algunas medidas y técnicas de minería de datos para conocer si las hipótesis se cumplen o no.

3.2.4.1. Regresión Logística Binomial.

Es una técnica supervisada o predictiva que predice la probabilidad de que un evento ocurra o no, la variable dependiente está conformado por dos categorías (dicotómica) y la variable independiente es categórica.

ingresos con 5 niveles (categórico nominal), tanto para el perfil actividades académicas como para el perfil actividades de entretenimiento Tabla 16.

Tabla 16. Prueba de Chi cuadrado hipótesis 1 y 2.

Hipótesis Valor Chi cuadrado Grados de libertad Nivel de significancia

H 1 634,050 4 ,000

H 2 572,796 4 ,000

Elaboración: Elaboración propia.

Para la regresión logística binomial también hay que considerar otras medias para verificar si el modelo se ajusta a los datos para ello se tiene las siguientes medidas:

Test de Wald: Es una prueba de ajuste de modelo o coeficiente de determinación que permite evaluar la hipótesis nula (ßi=0), la significación estadística asociada y el valor de la (exp(B)) con sus intervalos de confianza Aguayo (2007).

Bondad de ajuste: Se verifica si el modelo se ajusta a los datos y para ello se obtiene un valor que debe ser menor a 0,005 (p<0,005) en las pruebas de razón de verosimilitud y Pearson y Deviance.

R² Nagelkerke: Es el porcentaje de exactitud de un modelo, describe la varianza explicada por el modelo, esta debe representar al menos el 70% de los datos.

Test Odds Ratio(OR): Presenta la probabilidad de pertenecer a un grupo, probabilidad de que la variable dependiente pertenezca a una de las categorías de la variable independiente, para lo cual se toman los valores de significancia que se expresan en la tabla de estimación de parámetros.

Hosmer y Lemeshow: Esta prueba calcula para cada observación del conjunto de datos las probabilidades de la variable dependiente que predice el modelo y lo más importante de la prueba es que no tiene que mostrar valores significantes (p>0,005).

CAPÍTULO IV.

In document La Educación Virtual en el Ecuador “Análisis de los usos de la tecnología en los estudiantes de los Colegios de la ciudad de Loja (página 58-62)