4.5. Fase de evaluación e interpretación de datos
4.5.2. El nivel de ingresos determina como se utiliza Internet para entretenimiento
Describiendo la hipótesis nula y la hipótesis alternativa
. El nivel de ingresos determina como se usa Internet para entretenimiento . El nivel de ingresos no determina como se usa Internet para entretenimiento
Recordemos que el nivel de ingreso económico donde se ubica el 29,3% de los estudiantes y que representa el mayor porcentaje pertenece al nivel 2 con ingresos superiores a los 600 dólares, para la comprobación de esta hipótesis el atributo ingresos económicos también es considerado como independiente, mientras que para describir el uso de Internet en actividades de entretenimiento se considera el perfil de entretenimiento seleccionado anteriormente, el mismo que consta de 3 grupos etiquetados como: Interactivo, Normal y Bajo.
Realizando la regresión logística multinomial se presenta la varianza que explica el modelo representado por el valor de Nagelkerke=0,041; es decir el 4%. La prueba de Wald (Tabla 15) realizada para comprobar la hipótesis dejar ver que el Ingreso 1 para el grupo Regular y el Ingreso 1 para el grupo Bueno son significativos (p < 0,05).
En el primer modelo, el OR (probabilidad) de pertenecer al perfil de entretenimiento Normal con respecto al grupo de entretenimiento Interactivo es de 0,3 veces menor cuando un estudiante pertenece al Ingreso 1 respecto al Ingreso 5 (OR=0,3 (IC 95% 0,115 – 0,784), p=0,014).
En el segundo modelo, el OR (probabilidad) de pertenecer al perfil de entretenimiento Bajo con respecto al perfil de entretenimiento Interactivo es de 0,375 veces menor cuando un estudiante pertenece al Ingreso 1 respecto al Ingreso 5 (OR=0,375 (IC 95% 0,152 – 0,931), p=0,034).
77 Tabla 15. Coeficientes del modelo de regresión logística para hipótesis 2
ESTIMACIONES DE LOS PARÁMETROS
Clúster entretenimiento B Error
típ. Wald gl Sig. Exp(B)
Intervalo de confianza al 95% para Exp(B) Límite inferior Límite superior Normal Intersección -1,099 0,32 11,768 1 0,001
Ingreso 1 -1,204 0,49 6,038 1 0,014 0,3 0,115 0,784 Ingreso 2 0,105 0,385 0,075 1 0,784 1,111 0,522 2,363 Ingreso 3 -0,047 0,407 0,013 1 0,909 0,955 0,43 2,118 Ingreso 4 -0,288 0,491 0,343 1 0,558 0,75 0,286 1,965 Ingreso 5 0b . . 0 . . . . Bajo Intersección -1,099 0,32 11,768 1 0,001
Ingreso 1 -0,981 0,464 4,473 1 0,034 0,375 0,151 0,931 Ingreso 2 -0,251 0,403 0,389 1 0,533 0,778 0,353 1,714 Ingreso 3 -0,383 0,429 0,796 1 0,372 0,682 0,294 1,582 Ingreso 4 -0,405 0,505 0,644 1 0,422 0,667 0,248 1,795 Ingreso 5 0b . . 0 . . . .
a. La categoría de referencia es: Interactivo.
b. Este parámetro se ha establecido a cero porque es redundante. Elaboración: Jessica Jima
Fuente: Elaboración propia
Resumiendo el análisis de las pruebas expuestas en este modelo es evidente que los niveles de ingreso de las familias de los estudiantes no presentan mayores incidencias significativas en ninguno de los grupos que forman parte del perfil entretenimiento, ya en los dos modelos expuestos solo el Ingreso 1 determina el uso de Internet para los grupos de entretenimiento Normal y Bajo con respecto al grupo Interactivo. Con estos parámetros se considera oportuno rechazar la hipótesis nula, y dar por aceptada la hipótesis alternativa que plantea que el nivel de ingresos económicos no determina como se usa Internet para entretenimiento.
El uso de Internet para entretenimiento se podría considerar como una tendencia en crecimiento, no hace falta indagar demasiado para darse cuenta que la interacción en redes sociales, juegos online, videos, chat, etc., son actividades de grandes y pequeños, es aquí donde cabe preguntarse ¿Cómo influye el nivel económico de un estudiante universitario en el uso de Internet para entretenimiento?, de acuerdo a los resultados de la presente investigación el nivel de ingresos económicos no presenta influencia sobre el uso de Internet para temas de entretenimiento, es importante destacar que las actividades de
78 entretenimiento no necesariamente tienen que ser por ocio, pues existe una abanico muy amplio de opciones tanto para ocio como para entretenimiento donde la diferencia principal radica en el punto de vista que tenga el usuario sobre la actividad.
Según este estudio el nivel de ingreso económico bajo que tiene la mayoría de las familias de los estudiantes no impide que los estudiantes hagan un elevado uso de la tecnología para temas de entretenimiento donde el 77,2% de estudiantes chatea más de 3 horas semanales y el 96,3% invierte más de 6 horas en redes sociales superando los tiempos invertidos en actividades académicas, en contraste a ello (Ayala, 2007) encontró en su estudio que el uso de Internet para entretención no muestra grandes diferencias entre los grupos de mayor o menor ingreso económico, pero tiende a ser más fuerte en grupos de menores ingresos.
79
4.5.3. El uso de la tecnología en el aprendizaje incide en el rendimiento académico.
Describiendo la hipótesis nula y la hipótesis alternativa
. El uso de tecnología en el aprendizaje incide en el rendimiento académico . El uso de tecnología es en aprendizaje no índice en el rendimiento académico
En esta sección se busca encontrar la probabilidad de ocurrencia de la variable dependiente rendimiento académico, respecto a los datos que tome la variable independiente perfil académico, bajo esta premisa se aplica el modelo de regresión logística binomial.
Se asume que el uso de la tecnología para el aprendizaje es igual a la variable “perfil académico” que cuenta con 3 categorías; “Aprobado”, “Regular” y “Descuidado”, para este experimento o comprobación de hipótesis se considera como variable independiente precisamente a este perfil, ya que describe las principales características de los usos de Internet para actividades académicas por parte de los estudiantes; y como variable dependiente se presenta al “rendimiento académico” que es una variable categórica binomial que consta de dos categorías “Aprobado” y “Descuidado”, dicho de otro modo se busca predecir la variable rendimiento académico en función de los valores que tome la variable independiente perfil académico.
En la prueba de ómnibus para la hipótesis se puede verificar paso a paso, o bloque a bloque, que tanto mejora la predicción del atributo dependiente rendimiento académico. Como en este caso solo se cuanta con un bloque y una variable, se puede observar que tanto el paso, como el bloque y el modelo van a tener la misma puntuación de Chi-cuadrado no significativo ( 2=0,399, p=0,528). (Tabla 16).
Tabla 16. Pruebas ómnibus sobre los coeficientes del modelo hipótesis 3
CHI CUADRADO GL SIG. Paso 1 Paso 0,399 1 0,528 Bloque 0,399 1 0,528 Modelo 0,399 1 0,528
Elaboración: Jessica Jima Fuente: Elaboración propia
80 Aquí la significancia es mayor al 5% o lo mismo que (p > 0,05); por lo tanto, se concluye que al introducir la variable independiente perfil académico, no mejora la predicción de la variable dependiente rendimiento académico o que el modelo no es significativo.
En el resumen del modelo se puede observar que el valor de R cuadrado de Nagelkerke indica que el modelo propuesto explica tan solo el 4% de varianza de la variable dependiente rendimiento académico (0,004) y es un valor muy bajo, en base a ello se concluye que la variable independiente perfil académico no influyen en mayor medida en la variable dependiente rendimiento académico, pues en esta prueba se debe tener en cuenta que cuanto más alto es R cuadrado de Nagelkerke más explicativo es el modelo y cuyo porcentaje mínimo aceptable es 70%.
Tabla 17. Resumen del modelo hipótesis 3
Elaboración: Jessica Jima Fuente: Elaboración propia
En la prueba de Hosmer y Lemeshow, se puede ver el resultado en la Tabla 18, y dado que el valor de Chi-cuadrado no es significativo ( 2=0,939; p=0,333) se puede concluir que el modelo si se ajusta a los datos con esta prueba.
Tabla 18. Prueba de Hosmer y Lemeshow hipótesis 3
PASO CHI
CUADRADO GL SIG.
1 0,939 1 0,333
Elaboración: Jessica Jima Fuente: Elaboración propia
Es así que al construir el modelo de predicción siguiendo el modelo de regresión logística binaria para la hipótesis , se verificó que pese a que una de las pruebas del modelo como es Hosmer y Lemeshow, indica que el modelo se ajusta a los datos, la probabilidad de acierto no varía en el resto de pruebas que incluye el modelo, lo que conlleva a aceptar la hipótesis alternativa que indica que el uso de Internet o tecnología no influye en el rendimiento académico de los estudiantes.
PASO -2 LOG DE LA VEROSIMILITUD R CUADRADO DE COX Y SNELL R CUADRADO DE NAGELKERKE 1 110,262a 0,001 0,004
a. La estimación ha finalizado en el número de iteración 6 porque las estimaciones de los parámetros han cambiado en menos de ,001.
81
4.5.4. El uso de la tecnología para entretenimiento incide en el rendimiento académico.
Describiendo la hipótesis nula y la hipótesis alternativa
. El uso de tecnología para entretenimiento incide en el rendimiento académico . El uso de tecnología para el entretenimiento no índice en el rendimiento académico En esta sección y para finalizar con la comprobación de hipótesis se intenta encontrar la probabilidad de ocurrencia de la variable dependiente rendimiento académico, con respecto a los casos que se puedan presentar en la variable independiente perfil entretenimiento que representa el uso de Internet para temas de entretenimiento por parte de los estudiantes, bajo estos parámetros se aplica el modelo de regresión logística binaria.
El perfil entretenimiento es una variable categórica que consta de tres grupos: “Bajo”, “Normal” e “Interactivo”, mientras que la variable dependiente corresponde al rendimiento académico de tipo nominal con dos categorías: “Aprobado” y “Descuidado”.
En la prueba de ómnibus para la hipótesis se puede verificar paso a paso, o bloque a bloque que tanto mejora la predicción de la variable dependiente rendimiento académico; como en este caso solo se cuenta con un bloque y una variable, se puede observar que tanto el paso, como el bloque y el modelo van a tener la misma puntuación de Chi-cuadrado no significativo ( 2= 0,687, p = 0,407). Tabla 19.
Tabla 19. Pruebas ómnibus sobre los coeficientes del modelo
CHI CUADRADO GL SIG. Paso 1 Paso 0,687 1 0,407 Bloque 0,687 1 0,407 Modelo 0,687 1 0,407
Elaboración: Jessica Jima Fuente: Elaboración propia
En este modelo la significancia es mayor al 5% (p > 0,005); por lo tanto, se concluye que al introducir la variable independiente perfil entretenimiento, no va mejora la predicción de la variable dependiente rendimiento académico o que el modelo no es significativo.
82 En el resumen del modelo se puede observar que el valor de Nagelkerke indica que el modelo propuesto explica tan solo el 7% de varianza de la variable dependiente rendimiento académico (p = 0,007) es un valor muy bajo, en base a ello se concluye que la variable independiente rendimiento académico no influyen en mayor medida en la variable dependiente perfil entretenimiento, ya que cuanto más alto es la R-cuadrado de Nagerkerke más explicativo es el modelo.
Tabla 20. Resumen del modelo
PASO -2 LOG DE LA VEROSIMILITUD R CUADRADO DE COX Y SNELL R CUADRADO DE NAGELKERKE 1 109,975a 0,002 0,007
a. La estimación ha finalizado en el número de iteración 7 porque las estimaciones de los parámetros han cambiado en menos de ,001.
Elaboración: Jessica Jima Fuente: Elaboración propia
La prueba de Hosmer y Lemeshow, al presentar valor de Chí-cuadrado no significativo (p=0,158) deja ver que el modelo si se ajusta a los datos con esta prueba, (Tabla 21).
Tabla 21. Prueba de Hosmer y Lemeshow hipótesis 4
PASO CHI
CUADRADO GL SIG.
1 1,995 1 0,158
Elaboración: Jessica Jima Fuente: Elaboración propia
El modelo predictivo de regresión logística binomial construido para comprobar la hipótesis , deja como resultado que la única prueba que permite confirmar que el modelo se ajusta a los datos es Hosmer y Lemeshow. Sin embargo la probabilidad de acierto no varía en el resto de pruebas que conforman el modelo es decir que no cumplen con las condiciones que permitan aceptar que el modelo se ajusta a los datos y por lo tanto se acepta la hipótesis alternativa que describe que el uso de Internet para entretenimiento no influye en el rendimiento académico de los estudiantes.
84
CONCLUSIONES
Con base en los resultados obtenidos mediante los modelos, se puede concluir lo siguiente:
Los ingresos familiares de los estudiantes de la Universidad Laica Vicente Rocafuerte de Guayaquil alcanzan el Nivel 2; es decir 600 dólares mensuales, sin embargo se puede concluir que este nivel de ingreso no es un limitante para que los estudiantes cuenten con acceso a Internet desde sus hogares.
En base al resultado relacionado con la hipótesis 1 y 2, que sostiene que el nivel de ingresos incide en el uso de Internet para actividades académicas y de entretenimiento por parte de los estudiantes, se encontró que la variable ingresos no presenta incidencia sobre las variables perfil académico y entretenimiento; en base a lo descrito se concluye que el nivel de ingresos económicos de las familias de los estudiantes no determina el uso Internet para el aprendizaje y entretenimiento.
El uso de la tecnología en el aprendizaje incide en el rendimiento académico; es la afirmación planteada en la hipótesis 3, pero dado que solo una de las pruebas del modelo de minería se ajusta a los datos y que la probabilidad de acierto no varía en el resto de pruebas incluidas en el modelo, se concluye que el uso de Internet o tecnología no influye en el rendimiento académico de los estudiantes.
Se logró determinar según el análisis del modelo que buscaba dar respuesta a la hipótesis 4, que el uso de tecnología para entretenimiento no incide en el rendimiento académico de los estudiantes, en este caso pese a contar con una prueba válida dentro del modelo de regresión no es razón suficiente para dar por aceptada la hipótesis que describía que el uso de tecnología para el entretenimiento incide en el rendimiento académico.
La minería de datos mediante el proceso de descubrimiento de conocimiento en grandes bases de datos KDD; permite la creación de modelos descriptivos y predictivos en base a los patrones que se encuentran ocultos en los datos, convirtiéndose en una herramienta potente que apoya el análisis ordenado de datos y mejora la toma de decisiones.
85 En cuanto a las técnicas empleadas para la generación de modelos se concluye que la técnica de clustering es la más utilizada y que mediante el algoritmo K-medias permite obtener resultados eficaces cuando se busca obtener grupos homogéneos y conocer las principales características de cada uno de los grupos seleccionados.
Se concluye que el modelo de regresión logística permite la comprobación de hipótesis y para ello considera el modelo binomial para cuando la variable dependiente es dicotómica y el modelo multinomial para cuando la variable dependiente tiene más de dos categorías. Una variable puede ser tanto dependiente como independiente, esto dependerá de cómo este planteada la hipótesis a comprobar.
Respecto al software utilizado en el tratamiento y análisis de los datos; se concluye que SPSS de la empresa IBM es una excelente opción para trabajar en proyectos de minería de datos cuando la base que se pretende analizar es considerada mediana o pequeña como fue el caso de la presente investigación.
86
RECOMENDACIONES
En base a las conclusiones planteadas en el apartado anterior se describe las siguientes recomendaciones.
Se recomienda provechar las ventajas de la tecnología para maximizar su rendimiento académico, si bien es cierto son variables que no están relacionadas, tampoco se puede negar que haciendo un correcto uso de Internet se puede obtener grandes ventajas frente a individuos que por diversas maneras no tienen acceso o bien no hacen uso de esta tecnología.
Para futuras investigaciones, se cree conveniente para determinar el rendimiento académico tratar de trabajar con datos como son las notas de cada estudiante y de ese modo poder hablar de éxito académico o caso contrario poder hablar de fracaso académico.
Se recomienda hacer uso de la metodología KDD (Descubrimiento de Conocimiento en Bases de Datos), ya que actualmente es una de las más utilizadas para proyectos de minería de datos y permite la creación de modelos de forma correcta así como ordenada; esto gracias a la integración y comunicación entre sus fases.
Cuando se selecciona la/as técnicas de minería de datos, es necesario realizarlo en base al tipo de información o base de datos con la que se cuenta, así como también en función del problema , hipótesis u objetivo que se esté analizando en la investigación.
Para la eficiente generación de grupos o perfiles homogéneos se recomienda trabajar con la técnica de minería de datos como es: el análisis clustering que mediante la aplicación del algoritmo K-medias presenta resultado eficaz, con un nivel elevado de facilidad para la interpretación e identificación de las características comunes entre los grupos.
Para la elaboración de modelos predictivos y cuando se cuanta con variables dependientes e independientes se recomienda emplear la tarea de regresión logística binomial y multinomial, el uso de esta tarea en la investigación fue de transcendental importancia por permitir comprobar las hipótesis planteadas, las
87 mismas que de manera fundamental buscaban predecir el valor de una variable en base a los valores de otra.
Se recomienda utilizar el software SPSS para realizar minería de datos siempre que la base de datos no se muy extensa, pues este software contiene importantes ventajas para desarrollar modelos predictivos, ya que dentro de sus herramientas se encuentra un amplio abanico de técnicas y tareas para procesos de minería.
89