Características de Validez del Instrumento de Medida

CAPÍTULO III. RESULTADOS

3.1 Características de Validez del Instrumento de Medida

El análisis de las escalas de “Competencias para el uso de TIC” se basa en criterios presentados en la literatura psicométrica tanto bajo el enfoque clásico de los tests (Lord & Novick, 1974) como el moderno (Moss, 1992;

AERA, APA, NCME, 1999). Estas opciones metodológicas respecto al análisis de las pruebas podrían ser seguidas con el uso de la teoría de las respuestas a ítems (TRI). La ventaja de considerar otros enfoques es la oportunidad de estimar mediciones que no pueden ser propiciados por la teoría clásica. Es importante anotar, sin embargo, que el enfoque TRI no contradice ni los supuestos ni las conclusiones fundamentales de la teoría clásica. Son solo enfoques que nos dan información adicional, si es que la metodología empleada y los requisitos adicionales se cumplen. Por ello el carácter de estos modelos TRI es complementario a los de la teoría clásica (Bazán, 2000).

Los modelos de respuesta al ítem entre los que se encuentra el modelo de Rasch surgen para aminorar una serie de deficiencias que surgen en los modelos

de la Teoría clásica del Test, y que pueden resumirse en el hecho de que estos modelos suponen que todas las diferencias en respuestas de los individuos a un test son debidas exclusivamente a la capacidad de los individuos, considerándose constantes todas las demás fuentes potenciales de variación en las respuestas (incluyendo la dificultad).

Estos enfoques atienden al significado ampliado que tiene el concepto de validez y el término asociado de “constructo”⁵. Estos constructos o los conceptos que las escalas se proponen medir, ya no se habla de diferentes tipos de validez (por ejemplo validez de contenido o de constructo) sino de diferentes líneas o formas de evidenciar validez.

Los criterios para la validez de las escalas son: el juicio de expertos, las propiedades psicométricas de las preguntas como son el nivel de dificultad, el punto biserial y grado de discriminación, el análisis de unidimensionalidad de las preguntas que componen las escalas (análisis factorial exploratorio), la confiabilidad de las escalas a través de un análisis de consistencia interna (Alfa de cronbach).

Juicio de expertos. La opinión de los expertos tiene por finalidad analizar la correspondencia entre el contenido de las escalas y los constructos que las escalas intentan medir. El juicio de expertos se basa en el análisis curricular y las especificaciones que generaron los especialistas responsables de las pruebas.

El instrumento que se utilizó para ésta investigación comenzó con la redacción de las preguntas basadas en el estado del arte y para lo cual se solicitó una validación de contenido donde fue evaluado y validado por criterio de jueces, donde un conjunto de especialistas en el área de las TIC en la aplicación educativa, validaron los contenidos a partir de los lineamientos que

5 El término “constructo” se refiere a las características que no pueden ser medidas directamente sino que pueden ser inferidas desde un conjunto de observaciones. Validez es el grado en que la evidencia acumulada (teórica o empírica) soporta las interpretaciones derivadas de los puntajes obtenidos en las escalas (AERA; APA, NCME, 1999).

propone (UNESCO, 2008). Los expertos revisaron redacción, definición de las dimensiones y los reactivos utilizados en el cuestionario que se presentó a los alumnos.

Estas escalas se analizaron con el modelo métrico de Rasch para establecer las propiedades suficientes de criterios de bondad de ajuste, dificultad, correlación y discriminación de reactivos con el fin de describir las características de las escalas que corresponden a la competencia y del dominio en TIC utilizando el software Winsteps (versión 3.75).

Por lo tanto, además de estimar los parámetros antes mencionados es necesario determinar el grado en que los datos obtenidos se ajustan al modelo.

Existen dos medidas de bondad de ajuste en el modelo de Rasch: el INFIT que se interpreta como ajuste interno, es un valor sensible al comportamiento inesperado que afecta a los reactivos cuya dificultad está cerca del nivel de habilidad de una persona y el OUTFIT que se interpreta como ajuste externo, es un valor sensible al comportamiento inesperado que afecta a los reactivos cuya dificultad está lejos del nivel de habilidad de una persona.

De acuerdo a (González-Montesinos, 2008) para reactivos de opinión o percepción que componen una escala deben ajustarse al modelo de contraste con valores de INFIT y OUTFIT en el intervalo de .50 a 1.50 unidades de bondad de ajuste y el criterio de discriminación debe aproximarse a 1.

El valor INFIT o ajuste interno es sensible a los patrones de respuesta irregulares generalmente relacionado a los comportamientos de respuestas no esperados, como las anomalías a los reactivos calibrados cerca del nivel de habilidad del sujeto por lo que el valor de 0.5 a 1.5 se considera un situación productiva (optima cuanto más aproxime 1.0) para el proceso de medición. Los valores por debajo 1.0 son considerados con demasiado determinismo y los valores que sobrepasan el 1.5 se consideran de forma aleatoria, es decir, que el sujeto contesta al azar.

El valor de OUTFIT o ajuste externo identifica patrones de respuesta no esperados lejos de las habilidades calibradas para los respondientes o para las dificultades de los reactivos, por lo que debe mantenerse en un rango de .05 a 1.5.

La discriminación de una pregunta se mide por el grado en que la pregunta ayuda a ampliar las diferencias estimadas entre los que obtuvieron un puntaje total de la prueba relativamente alto de los que obtuvieron un puntaje relativamente bajo. El índice de este indicador, varía entre –1 y 1. Los valores positivos indican que la pregunta discrimina a favor del grupo superior, negativo indica que la pregunta es discriminadora que favorece al grupo inferior.

El valor del punto biserial es un índice de validez interna que nos permite determinar si la pregunta que se realiza está midiendo lo que la escala propone medir, a través de una correlación entre la pregunta y la escala (Bazán, 2000).

El índice de dificultad o medida (Measure) nos indica el grado de dificultad de cada pregunta en las escalas seleccionadas. Si una pregunta tiene un índice de dificultad cercana a 0 ó 1, la pregunta generalmente debería de ser alterada o descartada por no estar dando información acerca de las diferencias entre las habilidades de los sujetos (Bazán, 2000).

Análisis de Unidimensionalidad. El concepto de validez se incluye la evidencia de unicidad, es decir, la propiedad de una escala de medir únicamente un constructo (unicidad de la prueba medible) y así establecer si el conjunto de preguntas dentro de la escala mide una sola dimensión.

Para evaluar la unidimensionalidad, se utilizó la técnica de análisis Rasch y se confirmó la validez por constructo se usó el modelo de Análisis Factorial exploratorio de la teoría clásica de los test, este análisis nos indica el grado de homogeneidad en los conceptos medidos por el conjunto de preguntas que componen la escala. El criterio para determinar la unidimensionalidad es el porcentaje de varianza explicada por el conjunto de preguntas de la escala.

Siguiendo el procedimiento desarrollado por Hair, Anderson, Tatham y Black (2008) se procedió con un análisis factorial exploratorio donde fueron verificados los índices de KMO (Kaiser, Meyer, Olkin) y la prueba de esfericidad de Bartlett indicando que la matriz de la varianza de los datos es apropiada para el análisis factorial por medio del método de extracción máxima verosimilitud⁶.

En la Tabla 3 se muestran los resultados del conjunto de análisis métricos para valorar, la confiabilidad, la unidimensionalidad y la validez por constructo En los resultados se analizaron las propiedades de los ítems utilizando el modelo de crédito parcial de la familia de la teoría de respuesta al ítem utilizando el modelo Rasch. Se realizó una prueba de confiabilidad con alfa de Cronbach a la escala de Manejo de Sistemas Digitales con un valor de .889.

Para esto, la decisión acerca de mantener los reactivos en la escala, se tomó considerando que sus valores INFIT y OUTFIT de los reactivos estuvieran dentro de los márgenes de .5 a 1.5 propuestos como valores aceptables para estos tipos de ítems (González, 2008).

Bajo este criterio se conservaron los reactivos debido a que se encuentran en los límites aceptables. Además, es conveniente señalar que los reactivos que se mantuvieron en la escala tuvieron un índice de discriminación cercano a uno, un índice de dificultad que se aproxima al 50% considerado el punto medio de dificultad y una correlación (punto biserial) con la escala por encima de .20, lo que evidenció su pertenencia a la medición del constructo.

Posteriormente, para un análisis de validez por constructo, se procedió a realizar un análisis factorial utilizando el método de extracción de análisis de máxima verosimilitud extrayéndose solo un factor que explica el 50.57% de la varianza.

6 El método de máxima verosimilitud busca los valores que hacen más probable la obtención de los datos empíricos a partir del modelo. El método de máxima verosimilitud condicional se emplea para estimar la habilidad de los sujetos, conocidos los valores de los parámetros.

También se denomina así al método empleado para estimar los parámetros de los ítems en el modelo de Rasch, condicionando la función de verosimilitud sobre el número de respuestas correctas (Andersen (1972), Rasch, (1960).

Tabla 3. Dimensión Manejo de Sistemas Digitales

Total de reactivos: 9 KMO: .915

Significancia: .000 Peso Factorial + Alto: .822

Varianza explicada %

acumulado: 50.57% Peso Factorial + Bajo: .610

Alfa de Cronbach: .889 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R33 42.74 0.99 1.15 0.62 1

R34 61.40 1.25 1.18 0.60 0.73

R35 51.91 0.98 0.91 0.69 1.03

R36 42.88 0.74 0.62 0.74 1.13

R37 46.05 0.75 0.75 0.76 1.14

R38 53.24 1.05 0.95 0.68 1

R39 42.28 0.94 1.05 0.65 1.03

R40 40.13 0.93 1.02 0.63 1.02

R41 46.50 1.26 1.49 0.60 0.82

En la Tabla 4 se muestran los resultados obtenidos para la escala de Recursos Especializados con una prueba de confiabilidad alfa de Cronbach de .758. Los valores INFIT y OUTFIT de los reactivos estuvieran dentro de los límites aceptables (.5 a 1.5). Además, los reactivos que se mantuvieron en la escala tuvieron un índice de discriminación aproximado a uno, un índice de dificultad que se aproxima al 50% considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, lo que evidenció que los reactivos corresponden a la medición del constructo.

Después, se elaboró un análisis de validez por constructo donde se procedió a realizar un análisis factorial utilizando el método de extracción de análisis de máxima verosimilitud extrayéndose solo un factor que explica el 46.05% de la varianza.

Tabla 4. Dimensión Recursos Especializados

Total de reactivos: 4 KMO: .740

Significancia: .000 Peso Factorial + Alto: .809

Varianza explicada %

acumulado: 46.05% Peso Factorial + Bajo: .571

Alfa de Cronbach: .758 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R42 33.24 1.01 0.98 0.53 1

R43 41.46 0.83 0.82 0.65 1.2

R44 62.92 1.13 1.17 0.50 0.82

R45 39.71 0.96 1.03 0.57 1

Para la tabla 5 definida como dimensión de Manejo de Datos se realizó una prueba de confiabilidad que resultó con un alfa de Cronbach de .868. Para las medidas de bondad de ajuste, los niveles de infit y outfit resultaron en los intervalos permitidos (0.5 a 1.5). Para la medida de dificultad los valores del reactivo en la escala se aproximan al 50% (.5), esto significa que su dificultad es adecuada para la escala. La correlación (punto biserial) entre los reactivos y la escala fueron aceptables, ya que sus valores estuvieron por encima de .2.

Posteriormente, la escala se encontró con un índice de discriminación cercano a 1 con excepción del reactivo 46 que nos habla de cómo el alumno consulta las bases del datos de biblioteca, revistas científicas, de listas y tablas.

Para el análisis de validez por constructo se procedió a realizar un análisis factorial utilizando el método de extracción de máxima verosimilitud, obteniendo como resultado solamente un factor de 63.12% de la varianza explicada.

Tabla 5. Dimensión Manejo de Datos

Total de reactivos: 4 KMO: .815

Significancia: .000 Peso Factorial + Alto: .898

Varianza explicada %

acumulado: 63.12% Peso Factorial + Bajo: .666

Alfa de Cronbach: .868 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R46 45.39 1.36 1.36 0.62 0.58

R47 51.19 0.71 0.72 0.81 1.34

R48 44.30 0.90 0.87 0.73 1.13

R49 56.51 1.01 0.99 0.73 0.99

En la Tabla 6 se muestran los resultados obtenidos para la escala de Entablar Comunicación con una prueba de confiabilidad alfa de Cronbach de .861. Los valores INFIT y OUTFIT de la escala completa estuvieron dentro del rango permitido (.5 a 1.5). Los reactivos de la escala resultaron con un índice de discriminación aproximado a uno, con excepción del reactivo 54. El índice de dificultad se aproxima al 50% considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, lo que significa que los reactivos miden el constructo.

Posteriormente, se elaboró un análisis de validez por constructo donde se procedió a realizar un análisis factorial utilizando el método de extracción de máxima verosimilitud obteniendo como resultado un factor unidimensional que cuenta con una varianza explicada del 57.26%.

Tabla 6. Dimensión Entablar Comunicación

Total de reactivos: 5 KMO: .847

Significancia: .000 Peso Factorial + Alto: .862

Varianza explicada %

acumulado: 57.26% Peso Factorial + Bajo: .632

Alfa de Cronbach: .861 Método/Rotación: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R50 44.33 0.85 0.79 0.73 1.11

R51 42.40 0.76 0.76 0.75 1.15

R52 55.17 1.06 0.99 0.67 0.98

R53 49.12 1.03 0.93 0.69 1.02

R54 52.44 1.30 1.26 0.61 0.66

En la Tabla 7 se exponen los resultados obtenidos para la escala de Manejo de Texto Enriquecido con una prueba de confiabilidad alfa de Cronbach de .897. Los valores INFIT y OUTFIT de los reactivos estuvieran dentro de los límites aceptables (.5 a 1.5). Además, los reactivos de la escala indican una discriminación aproximada a uno, con excepción del reactivo 54 que habla de redactar, editar e imprimir en un procesador de palabras (Word). El índice de dificultad se aproxima al 50% considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, lo que evidenció que los reactivos corresponden a la medición del constructo.

Después, se elaboró un análisis de validez por constructo donde se procedió a realizar un análisis factorial utilizando el método de extracción de análisis de máxima verosimilitud con un factor unidimensional que explica el 63.98% de la varianza.

Tabla 7. Dimensión Manejo de Texto Enriquecido

Total de reactivos: 5 KMO: .868

Significancia: .000 Peso Factorial + Alto: .884

Varianza explicada %

acumulado: 63.98% Peso Factorial + Bajo: .642

Alfa de Cronbach: .897 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R55 54.64 1.48 1.43 0.61 0.43

R56 46.12 0.77 0.74 0.78 1.18

R57 43.02 0.67 0.64 0.81 1.25

R58 50.95 0.92 0.91 0.76 1.09

R59 51.76 1.02 1.02 0.74 0.99

En la Tabla 8 se muestran los resultados obtenidos para la escala de Socializar y Colaborar con una prueba de confiabilidad alfa de Cronbach de .854. Los valores INFIT y OUTFIT de los reactivos estuvieran dentro de los límites aceptables (.5 a 1.5). El índice de discriminación para los reactivos de la escala se aproximan a uno; el índice de dificultad se aproxima al 50%

considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, lo que señalan que los reactivos convergen con la medición del constructo.

Posteriormente se elaboró la validez por constructo donde se procedió a realizar un análisis factorial utilizando el método de extracción máxima verosimilitud el cual arrojó un factor unidimensional con una varianza explicada de 46.05%.

Tabla 8. Dimensión Socializar y Colaborar

Total de reactivos: 5 KMO: .822

Significancia: .000 Peso Factorial + Alto: .810

Varianza explicada %

acumulado: 54.28% Peso Factorial + Bajo: .680

Alfa de Cronbach: .854 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R60 48.79 0.85 0.82 0.73 1.21

R61 49.03 1.05 1.05 0.66 0.94

R62 54.33 1.15 1.14 0.63 0.8

R63 43.19 1.04 0.99 0.64 0.98

R64 50.28 0.95 0.95 0.69 1.05

La Tabla 9 muestra los resultados obtenidos para la escala de Uso Académico con una prueba de confiabilidad alfa de Cronbach de .821. Los valores INFIT y OUTFIT de los reactivos estuvieron dentro de los límites aceptables (.5 a 1.5). El índice de discriminación para los reactivos de la escala se aproximan a uno; el índice de dificultad se aproxima al 50% considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, es decir, que los reactivos miden el constructo.

Posteriormente se elaboró la validez por constructo donde se procedió a realizar un análisis factorial utilizando el método de extracción de análisis de máxima verosimilitud con un factor unidimensional que explica el 63.98% de la varianza.

Tabla 9. Dimensión Uso Académico

Total de reactivos: 6 KMO: .844

Significancia: .000 Peso Factorial + Alto: .721

Varianza explicada %

acumulado: 44.21% Peso Factorial + Bajo: .576

Alfa de Cronbach: .821 Método/Rotación: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R65 41.49 1.01 1.13 0.52 0.98

R66 56.75 1.12 1.12 0.58 0.84

R67 49.12 0.86 0.81 0.64 1.16

R68 44.32 0.96 0.90 0.59 1.07

R69 53.03 1.06 1.08 0.59 0.93

R70 50.80 0.98 1.00 0.63 1.01

La Tabla 10 muestra los resultados obtenidos para la escala de Consumo de Contenido en Internet: Entretenimiento con una prueba de confiabilidad alfa de Cronbach de .702. Los valores INFIT y OUTFIT de los reactivos estuvieron dentro de los límites aceptables (.5 a 1.5). El índice de discriminación para los reactivos de la escala se aproximan a uno; el índice de dificultad se aproxima al 50% considerado el punto medio de dificultad recomendable y una correlación (punto biserial) con la escala por encima de .20, es decir, que los reactivos miden el constructo.

Tabla 10. Consumo de Contenido en Internet: Entretenimiento

Total de reactivos: 5 KMO: .752

Significancia: .000 PESO Factorial +

ALTO: .674

Varianza explicada %

acumulado: 32.70% PESO Factorial +

BAJO: .447

Alfa de Cronbach: .702 Método: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R71 45.74 0.93 0.94 0.48 1.09

R72 60.33 0.91 0.88 0.53 1.14

R73 61.27 1.06 1.08 0.44 0.93

R74 55.28 0.99 0.99 0.48 1.03

R75 43.77 1.13 1.18 0.37 0.83

Para la tabla 11 definida como Consumo de Contenido en Internet:

Académico se realizó una prueba de confiabilidad que resultó con un alfa de Cronbach de .748. Para las medidas de bondad de ajuste, los niveles de infit y outfit resultaron en los intervalos permitidos (0.5 a 1.5). Para la medida de dificultad los valores del reactivo en la escala se aproximan al 50% (.5), esto significa que su dificultad es adecuada para la escala. La correlación (punto biserial) entre los reactivos y la escala fueron aceptables, ya que sus valores estuvieron por encima de .2.

Tabla 11. Consumo de Contenido en Internet Académico

Total de reactivos: 5 KMO: .752

Significancia: .000 Peso Factorial + Alto: .783

Varianza explicada %

acumulado: 38.51% Peso Factorial + Bajo: .413

Alfa de Cronbach: .748 Método/Rotación: Máxima Verosimilitud

# Reactivo Dificultad INFIT OUTFIT Punto Biserial Discriminante

R76 49.84 1.16 1.21 0.45 0.77

R77 57.42 0.91 0.90 0.58 1.13

R78 57.79 0.82 0.81 0.62 1.26

R79 36.28 1.16 1.16 0.39 0.85

R80 45.54 0.94 0.97 0.54 1.06

Posteriormente, la escala se encontró con un índice de discriminación cercano a 1. Para la validez por constructo se procedió a realizar un análisis factorial utilizando el método de extracción de máxima verosimilitud, obteniendo como resultado solamente un factor que responde al 38.51% de la varianza explicada.

In document Capital Cultural (página 36-49)