II Antecedentes: Calibración de los ítems de Hezinet

Este capítulo muestra el trabajo realizado en la calibración mediante juicio de expertos de un banco de 252 ítems de selección múltiple en formato de texto para el TAI de ingreso al sistema Hezinet (Arruabarrena, 2010). Estos ítems de partida fueron elaborados y entregados por los productores de contenidos de la fundación cultural Aurten Bai/Zornotzako Barnetegia, y todos incluían un enunciado corto de tipo texto y cuatro posibles respuestas, de las que sólo una era correcta.

La calibración consistió en realizar un experimento en el que se administraron los ítems a múltiples expertos con el objetivo de estimar para cada ítem dos parámetros: su dificultad y su destreza. En este capítulo se resumen los hitos y conclusiones más relevantes. El proceso completo, así como la enumeración de los datos manejados, se puede encontrar en (Arruabarrena y Pérez, 2005a), (Arruabarrena y Pérez, 2005b) y (Arruabarrena y Armendariz, 2008).

El capítulo se organiza de la siguiente manera: En primer lugar se comenta el diseño del experimento realizado. Después se describe el diseño de los cuestionarios asociado. A continuación se indican las pruebas de campo planificadas, y para terminar, se describe el análisis de datos que se realizó, y que dio lugar a la calibración del banco de ítems.

II 1

Diseño del experimento

El objetivo del experimento es recopilar 7 valoraciones diferentes de cada uno

de los ítems del banco por parte de expertos voluntarios y sin remuneración mediante

encuestas plasmadas en cuestionarios de papel. Esta característica hace que sea crítico el diseño de los cuestionarios, que se decide que no exceda de 45 minutos. Se plantearon dos pruebas de campo: PC1 y PC2.

Los sujetos activos se centraron en 4 roles: una desarrolladora/responsable

principal que se encargó de la coordinación y ejecución del proceso de calibración; un supervisor, que asumió la labor de controlar puntualmente el desarrollo de todo el

proceso realizado; una colaboradora, que se ocupó de la grabación de los cuestionarios completados y de la elaboración de varios entregables; y el responsable del proceso de

calibración estadística de los ítems, con el que hubo que coordinarse en alguna tarea

compartida.

Los sujetos pasivos se enfocan en dos roles: el de revisor y el de experto. Los revisores eran filólogos o lingüistas de la lengua vasca con experiencia en el desarrollo

Parte Primera – Introducción

- 14 -

y estudio académico del euskara en la UPV-EHU y su labor consistió en detectar fallos en los ítems o en los cuestionarios, determinando si el documento que recibiría el experto tenía una estructura y tamaño razonables, si las instrucciones de cumplimentación eran claras, los ejemplos aclaratorios y si el apartado de valoración era cómodo de rellenar. Los expertos fueron profesores de euskera de euskaltegis, normalmente personas que trabajaban con euskera batua y que, posiblemente habían tenido la posibilidad de haber trabajado con el sistema Hezinet. Su cometido fue cumplimentar los cuestionarios diseñados.

El diseño de los cuestionarios de las pruebas incluía una portada en la que se indicaba el número de cuestionario, se presentaba el objetivo de trabajo y agradecía la participación voluntaria en el mismo, detallaba la forma de contacto con los responsables de la calibración y el modo de envío de los cuestionarios. A continuación, se presentaban las instrucciones de cumplimentación del cuestionario ilustradas con ejemplos concretos. En el resto del cuestionario se presentaban los datos que el experto debía cumplimentar. Un primer apartado de datos personales solicitaba datos no identificativos del experto. Posteriormente se presentaban los ítems a valorar: un subconjunto del banco de ítems. En estas pruebas se solicitaron a los expertos tres valoraciones por cada uno de los ítems (Figura 1): la respuesta correcta, la destreza

lingüística a la que pertenecía de entre 8 habilidades lingüísticas y el nivel de dificultad

utilizando la escala de 12 niveles contemplada por el currículo de HABE (1984). La primera sirvió como elemento de control, mientras que las otras dos constituyeron las dimensiones que se pretendían estimar con el experimento. Finalmente se solicitaban

aportaciones propias al participante sobre todo el cuestionario en general.

Figura 1 – Detalle de un ítem del apartado del cuestionario Ítems a valorar.

Para la prueba de campo PC1 se elaboraron 8 cuestionarios pidiendo aportaciones sobre 42 ítems cada uno. En estos cuestionarios se aplicó un diseño de anclaje, que consiste en incluir en todos los cuestionarios un mismo subgrupo de ítems. Así, de los 42 ítems de cada cuestionario, 12 eran comunes a todos y conformaron los

Capítulo II –Antecedentes: Calibración de los ítems de Hezinet

- 15 -

ítems de anclaje para la prueba. Para la prueba de campo PC2 se formaron 6 cuestionarios de 42 ítems todos diferentes, esto es, sin ítems de anclaje.

Los cuestionarios confeccionados se pasaron a los revisores que valoraron positivamente los ejemplos incorporados en las instrucciones y consideraron adecuada la estimación temporal de finalización de 45 minutos. Además, analizaron los ítems de su cuestionario e indicaron algunas sugerencias de corrección que resultaron en que previamente se hiciera una revisión exhaustiva del banco de ítems original (Arruabarrena, 2005).

II 2

Administración de los ítems

En la prueba de campo PC1 se recogieron 74 de los 80 cuestionarios que se precisaban, que contenían 3119 valoraciones de ítems. Durante la prueba de campo

PC2, se recogieron 42 cuestionarios. Toda la información aportada por los cuestionarios

se transcribió y almacenó en una base de datos. El tamaño de la muestra recogida fue de

4887 entradas/aportaciones que corresponden a 116 expertos participantes y todas

realizadas sobre el banco de 252 ítems.

II 3

Análisis de datos y calibración

Para analizar los datos se definieron varios criterios de depuración para aportaciones erróneas y/o anómalas de la muestra recogida en dos sentidos: ítems y

expertos. Estos criterios se aplicarían de forma combinada hasta obtener una muestra

estable (Arruabarrena y Armendariz, 2008).

En primer lugar, se establecieron dos familias de criterios basadas en estas ideas: la familia de criterios C.ex y la familia de criterios C.it. Estos cuatro criterios se enunciaron y detallaron como sigue (Arruabarrena, 2010):

 C.ex-1. Análisis Aportación: Las aportaciones de expertos sobre los ítems se

consideran válidas siempre que indiquen solo un nivel válido de dificultad.

C.ex-1 elimina cada aportación que no tenga estimación de nivel, tenga más de una o no esté dentro de los niveles válidos.

 C.ex-2. Análisis Aciertos: Se eliminan los cuestionarios de expertos que no

superan un porcentaje de respuestas correctas. Se consideró no fiable la

administración de aquellos expertos que no llegaron a un mínimo de acierto del 75% de los ítems válidos respondidos.

 C.it-1. Análisis Aciertos Item: Un ítem se acepta si un porcentaje mínimo de

los expertos responde correctamente al mismo. Este criterio C.it-1 obtiene

para cada ítem su porcentaje de aciertos, y lo considera no fiable si su tasa de acierto es inferior a un umbral dado. Si este es el caso, se rechaza el ítem

Parte Primera – Introducción

- 16 -

junto con todas sus valoraciones. Se consideró no fiable todo ítem que no llegó a un mínimo de acierto del 70% por parte de los expertos.

 C.it-2. Análisis Dispersión Item: Un ítem se mantiene si un porcentaje

mínimo de las valoraciones de nivel dadas por los expertos para ese ítem se encuentran agrupadas en una horquilla determinada de niveles consecutivos de dificultad. Se recomendó que este porcentaje varíe en un rango entre el

70% y el 85% y preferiblemente utilizar la malla más restrictiva, esto es, la eliminación del banco de aquellos ítems que no concentren al menos el 85% de opiniones válidas en un rango continuo correspondiente a un tercio (35%) de la escala numérica de dificultad.

En segundo lugar, para determinar la aplicación combinada de estos cuatro criterios en el experimento de Hezinet se decidió depurar la muestra de partida mediante la aplicación del algoritmo de la Figura 2.

Paso 1. Aplicar el criterio C.ex-1.

Paso 2. Aplicar el criterio C.it-1 con una tasa del 50%.

Paso 3. Aplicar de manera iterativa los otros dos filtros en el orden C.it-2 (con una horquilla de 4 niveles y un mínimo de valoraciones en ella del 75%) y C.ex-2 (con un umbral de acierto del 75%) hasta estabilizar los resultados.

Figura 2 – Algoritmo de aplicación de los filtros en el experimento Hezinet.

Tras este análisis de datos, la muestra final depurada quedó representada por 3315 aportaciones de 192 ítems realizadas por 111 expertos.

Respecto al cálculo de la dificultad final de cada ítem no retirado del banco se tuvo en cuenta que los expertos aportaban información subjetiva que no todos compartían y se fomentó buscar el consenso de sus juicios, para lo cual se ideó un procedimiento estadístico ad-hoc denominado M.dif (Arruabarrena, 2005).

M.dif se define mediante dos reglas que guardan relación con la criba de ítems y

que establecen – a partir de juicios de dificultad emitidos por expertos – el valor más probable entre los pronósticos de dificultad más consensuados. La primera regla M.dif-1 descarta los juicios más extremos de cada ítem, mientras que la segunda M.dif-2 sirve para desambiguar cuando existan ítems comprendidos en dos intervalos contiguos, con el mismo número de niveles y la misma tasa de frecuencias de pronósticos dificultad. El enunciado de estas dos reglas es:

 M.dif-1. Cálculo Dificultad. La dificultad del ítem es el promedio de las frecuencias relativas de las valoraciones contenidas en el intervalo contiguo de X niveles (siendo X un tercio de la escala) con mayor densidad de valoraciones.

 M.dif-2. Cálculo Ambigüedad. Si hubiera más de un intervalo que cumpla la condición anterior, entonces se extenderá el intervalo con un nivel más y se escogerá el intervalo con X+1 niveles consecutivos con más valoraciones y menor desviación.

Capítulo II –Antecedentes: Calibración de los ítems de Hezinet

- 17 -

Estos cálculos redujeron las valoraciones a 2933 de los 192 ítems estudiados realizadas por los 111 expertos con los que se contaba.

La aplicación de M.dif dejó patente que la distribución de las dificultades de los ítems del banco era desigual: la mitad del banco tenía una dificultad intermedia, y el resto estaba en torno a ésta, tendiendo hacia niveles básicos. Igualmente quedó patente la escasez de ítems con estimaciones de dificultad elevada. Esta distribución de las estimaciones calculadas era la esperada, a pesar de no estar distribuidas uniformemente a lo largo de la escala de dificultad [1,12], ya que el banco de ítems se venía empleando en un euskaltegi de gran envergadura para determinar el nivel de entrada de nuevos alumnos, y el gran bloque de alumnos que ingresan lo hacen en los niveles intermedios e iniciales, y en ese orden. Además, los resultados fueron coherentes con los obtenidos

en el proceso de calibración estadística que se realizó en paralelo (López-Cuadrado,

2008).

Finalmente se llevó a cabo un estudio de funcionamiento diferencial de los ítems comparando los resultados de las dos pruebas de campo realizadas con objeto de determinar posibles diferencias significativas entre ambos tipos de pruebas. Para ello, se estudiaron las aportaciones de los expertos desde el punto de vista del cribado de la muestra y de los juicios emitidos por los expertos. Los cálculos se desglosaron por cada prueba de campo con el fin de concluir si hubo o no diferencia funcional entre los pronósticos de los expertos de la PC1, los de la PC2 y todo el conjunto de pronósticos.

Con respecto al cribado de la muestra, con objeto de estudiar la evolución de las

aportaciones recopiladas en la PC1 y en la PC2, se desglosó por prueba de campo y por

ítem el número de aportaciones de la muestra total en tres momentos: al finalizar la recogida de la información, al finalizar el primer cribado de la muestra y al estimar la dificultad de los ítems. En cada uno de estos momentos se consideraron dos variantes: incluir solo las aportaciones con respuesta al ítem acertada e incluir toda respuesta – correcta o no – dada al propio ítem por el experto. Los resultados indicaron que se

mantuvieron invariables tanto las proporciones de descarte de aportaciones como las de respuestas acertadas en los momentos considerados.

Con respecto a los juicios o pronósticos de dificultad emitidos por los expertos, se quiso comprobar si la dificultad estimada con la muestra que contenía tanto aportaciones de la PC1 como de la PC2, – a la que se denominó PC1&2 –, coincidía con las dificultades estimadas únicamente con los valores de la PC1 o con los de la PC2 o con los de ambas, para corroborar en qué medida las dificultades estimadas eran

pronósticos consensuados por los expertos de las diferentes muestras. Se concluyó que hubo concordancia entre los pronósticos emitidos por los expertos de la PC1, los

expertos de la PC2 y todo el conjunto de expertos. Considerando que la dificultad estimada se calculó para concretar el valor de dificultad consensuado más probable, podría decirse que las dificultades estimadas por ítem estaban consensuadas en PC1, PC2 y en PC1&2.

Al estudiar separadamente las aportaciones de las dos pruebas de campo, PC1 y PC2, y a la vista de los resultados obtenidos, en cuanto a evolución de volúmenes de descarte de aportaciones y dificultades estimadas, no hubo diferencia significativa. Esta similitud de resultados puso de manifiesto la corrección de la selección de la muestra

aleatoria de expertos y refrendó la propia acreditación de expertos. Los resultados

también permitieron concluir que no hace falta utilizar un subconjunto de ítems

Parte Primera – Introducción

- 18 -

PC2) y que utilizando 7 valoraciones por ítem (en PC2) se alcanzan resultados

In document Calibración de ítems mediante juicio de expertos utilizando técnicas de ingeniería dirigida por modelos, workflows y sistemas de gestión de aprendizaje (página 33-39)