• No se han encontrado resultados

3.2. Metodología de minería de datos KDD

3.1.4. Fase de evaluación e interpretación

El objetivo en esta fase dentro de la investigación y dentro del proceso KDD consiste en realizar la comprobación de los modelos de minería de datos, es así que para este caso específico de investigación, esta fase está enfocada en comprobar si las hipótesis se cumplen o no, para ello se consideró realizarlo mediante la aplicación de la tarea de minería de datos predictiva conocida como regresión logística puesto que se necesita predecir la ocurrencia de una variable dependiente de función de los valores que puedan tomar las variables independientes.

Hasperué (2012), sobre la fase de evaluación e interpretación describe que los métodos de aprendizaje permiten construir modelos a partir de un conjunto de datos o evidencia. En la mayoría de los casos es necesario evaluar la calidad de las hipótesis de la manera más exacta posible, entre los objetivos que se tiene al aplicar regresión logística en esta investigación está el que describe el mismo autor al decir que; se intenta estimar el valor de una característica (variable dependiente) en función de los valores que pueden tomar en conjunto otra serie de características (variables independientes) que se conoce como modelo con fines predictivos.

54 2.3.3.6. Regresión logística multinomial para las hipótesis 1 y 2.

Para el caso de la hipótesis ( ) y la hipótesis ( 2) se utiliza regresión logística multinomial puesto que la variable dependiente que se busca predecir es de tipo categórica; en el caso de la primera hipótesis se utiliza el clúster o perfil académico de 3 grupos (Descuidado, Regular y Aprobado) al igual que en la segunda hipótesis se utiliza el clúster o perfil entretenimiento que consta de 3 grupos (Bajo, Medio y Avanzado); en las hipótesis se considera como variable independiente a la variable nivel de ingresos de tipo categórica. Al realizar la comprobación de hipótesis mediante la técnica de regresión primeramente se considera la técnica de Chi-cuadrado que permite verificar la existencia de correlación entre la variable independiente y dependiente a nivel general, (Tabla 8).

Tabla 8. Prueba Chi-cuadrado hipótesis 1 y 2

PRUEBAS DE CHI-CUADRADO

Hipótesis Chi-cuadrado de Pearson

(valor) gl Sig. asintótica (bilateral)

14,373 8 ,073

2 14,455 8 ,071

Fuente: Jessica Jima Elaboración: Jessica Jima

Además para evaluar la validez de un modelo de minería de datos se hace indispensable considerar algunos estadísticos sobre todo para efectos de interpretación así lo sugiere (Torres 2012) quien precisa los siguientes:

Bondad de ajuste: este valor deja ver si el modelo se ajusta a los datos y para ello el valor de significancia debe ser menor a 0,005 (p < 0,005), se verifica en base a los valores de la prueba razón de verosimilitud (Chi-cuadrado) y Pearson y Deviance...

Nagelkerke: porcentaje de exactitud de un modelo, describe la varianza explicada por el modelo, en este caso la recomendación dice que para aceptar el modelo este debe de representar al menos el 70% de los datos…

Test de Wald: pruebas de ajuste de modelo o coeficiente de determinación que permite evaluar la hipótesis nula (βi=0), la significación estadística asociada, y el valor de la OR (exp(B)) con sus intervalos de confianza,(Aguayo, 2007)…

Test Odds Ratio (OR): describe la probabilidad de pertenecer a un grupo, en este caso este test deja ver la probabilidad de que una variable dependiente pertenezca a una de las

55 categorías de la variable independiente en función de sus valores. Para describir este valor tomamos como referencia el valor de significancia que se expresa en la tabla estimación de parámetros.

2.3.3.7. Regresión logística binomial para las hipótesis 3 y 4.

En el caso de la hipótesis ( ) y de la hipótesis ( ), se utiliza la regresión binomial puesto que la variable dependiente rendimiento académico “Aprobado” y “Reprobado” es de tipo dicotómica, y como variables independientes se ingresan el perfil académico para la hipótesis ( ) y el perfil entretenimiento para la hipótesis ( ).

En este caso también se ha considerado aplicar la técnica del Chi-cuadrado a fin de verificar que tan relacionadas están las variables dependientes e independientes en cada una de las hipótesis, (Tabla 9).

Tabla 9. Prueba Chi-cuadrado hipótesis 3 y 4 PRUEBAS DE CHI-CUADRADO Hipótesis Chi-cuadrado de Pearson (Valor) gl Sig. asintótica (bilateral) H3 1,268 2 ,530 H4 2,331 2 ,312

Fuente: Jessica Jima Elaboración: Jessica Jima

La regresión binomial también considera que se debe analizar algunas técnicas que permitan validar el modelo de minería de datos, al igual que en la regresión multinomial en este caso se valida los modelos mediante la técnica de Wald (pruebas de ajuste de modelo para verificar la hipótesis), Nagelkerke (la varianza que explica el modelo) así como también el Oldd Ratio (probabilidad de pertenecer a un grupo) adicional a ellas se debe considerar las pruebas: ómnibus, Hosmer y Lemeshow.

Para la comprobación del modelo (Torres 2012), describe que la prueba de ómnibus,

permite verificar que por lo menos uno de los coeficientes que forman parte del modelo sea distinto de cero, los resultados se presentan mediante el valor de chi-cuadrado y para dar por aceptado el modelo este debe ser significativo es decir que (p < 0,005).

Para evaluar la bondad de ajuste del modelo de regresión logística binomial (Aguayo 2007), sugiere utilizar la prueba de Hosmer y Lemeshow en donde se calcula para cada

56 el modelo y lo más importante, esta prueba busca que no haya significación (contradiciendo lo habitual) es decir, si (p > 0,005) se puede concluir que el modelo se ajusta a los datos.

CAPÍTULO IV

58 En este capítulo se presenta una descripción y análisis de los resultados generales y de carácter relevante para la investigación, que fueron observados en la universidad; así se describe a la población estudiantil, niveles de ingreso, edad promedio de los estudiantes y sus principales tendencias en cuanto al uso de Internet dedicado a actividades académicas y de entretenimiento, mediante la presentación de perfiles y finalmente una visión general sobre el rendimiento académico. Para concluir se describe la comprobación de hipótesis con sus respectivas observaciones y comentarios.