• No se han encontrado resultados

II. MARCO TEÓRICO

1.3. Evaluación y validez

1.3.2. Modelos de validación: argumentos y evidencias

1.3.2.1. Modelos basados en la acumulación de evidencias

Se describe únicamente el modelo de Weir (2005). Se presenta de modo detallado, debido a su importancia en este trabajo.

Modelo de Weir (2005)

La mayor parte de las investigaciones que se orientan en la validez del examen IELTS emplean, al igual que el resto de los sistemas de certificación de la factoría Cambridge ESOL, y salvo algunas excepciones como Aryadoust (2014), el marco propuesto por Weir (2005). El modelo es componencial y conecta con las facetas tradicionales de la

30

validez, aunque Weir (2005: 17) apela a la interrelación simbiótica entre todas facetas. El fundamento se plantea a partir de las siguientes preguntas:

¿Cómo da respuesta la prueba a las características físicas, fisiológicas y sicológicas y

de experiencia de los candidatos? (Candidato).

¿Son las características de la tarea o tareas de la prueba y de la administración justas

para los candidatos que se presentan a ella? (Validez de contexto).

¿Son apropiados los procesos cognitivos necesarios para realizar las tareas? (Validez

basada en la teoría, más tarde, validez cognitiva).

¿Hasta qué punto nos podemos fiar de los resultados de la prueba? (Validez de la calificación).

¿Qué efectos tiene la prueba sobre sus diversos partícipes? (Validez consecuencial).

¿Qué pruebas externas existen, al margen de las propias puntuaciones del examen, de

que la evaluación está funcionando correctamente? (Validez relacionada con el

criterio).

Weir (2005: 48)

Las características del candidato se presentan en el modelo con arreglo a los siguientes parámetros: características físicas/fisiológicas, psicológicas y experiencia. Las características físicas/fisiológicas se refieren a cómo afectan a las respuestas factores como el estado físico general, es decir, las eventuales enfermedades transitorias (un dolor de cabeza, muelas, etc.), las discapacidades, la edad o el género. La adecuación de los temas puede influir en los resultados. Por consiguiente, es necesario, desde la fase de diseño del examen, así como en el diseño de los procesos de administración, atender a estas cuestiones. Por ejemplo, los sistemas de examen tienen que prever un dispositivo para proporcionar respuesta a los alumnos discapacitados.

Respecto a las características psicológicas, hay diferentes variables que condicionan los resultados. Señala Weir (2005: 51) las siguientes: memoria, personalidad, estilo cognitivo, esquemas afectivos, concentración, motivación y estado emocional. Existe, por ejemplo, la creencia generalizada de las desventajas que presentan los candidatos introvertidos en las pruebas de expresión o interacción orales.

Estos aspectos tienen que ser controlados y transferidos a las pautas que reciben los examinadores durante su formación. Las reacciones emocionales hacia las tareas del examen, por ejemplo, generadas por los temas de los textos de entrada tienen que

31

preverse estableciendo restricciones en las normas de redacción de examen ante aspectos tabú o susceptibles de generar reacciones negativas como las religiones, las enfermedades, etc.

El conocimiento de los temas, debido al interés personal que puedan suscitar en los candidatos, puede favorecer a unos frente a otros. En un orden de naturaleza cognitiva, el tipo de tarea que se presente al candidato puede estar más o menos en consonancia con su estilo cognitivo. Por ejemplo, determinado grupo de usuarios puede responder mejor a estímulos de tipo visual. Se da el caso de que algunos examinandos que presentan cierto tipo de dificultades para, por ejemplo, ordenar ítems en una tarea, según la disposición del formato, por ser más aleatorios o secuenciales. Las tareas excesivamente largas pueden ocasionar efecto fatiga, que afecte a la fiabilidad e introduzca varianza irrelevante del constructo, en especial, en el caso de los textos de entrada de comprensión auditiva. Todas estas cuestiones varían en virtud de la edad o el hábito de los candidatos ante situaciones de alta carga cognitiva, que exija concentración. Muchos de los factores señalados en la lista, como el estado emocional de los candidatos, son difíciles de controlar, pero, en mayor o menor medida, se pueden regular.

Finalmente, la experiencia puede desglosarse en diferentes dimensiones: experiencia de estudios, preparación del examen, experiencia de examen, experiencia comunicativa, experiencia de uso de la lengua. La familiaridad con el formato de las pruebas varía sustancialmente en relación con la cultura de aprendizaje. Por ejemplo, en determinadas áreas geográficas, se puede entender que los examinandos no estén familiarizados con pruebas de interacción oral que requieran la participación de dos o más candidatos. Otro aspecto de la máxima importancia es la correspondencia de las tareas de examen con las que se realizan cotidianamente en la actividad del aula. Weir (2005: 12) hace referencia a dos etapas para la recopilación de evidencias de validez: una previa a la administración del examen, en la que se precisa una minuciosa descripción del constructo, y otra posterior, en la que tiene lugar la validación psicométrica de las pruebas y la validación externa, con el fin de determinar la evidencia referida al criterio (concurrencia). En la primera etapa tiene lugar la recogida de evidencias relacionadas con la validez basada en la teoría y en la validez contextual; en la segunda, la validez de las calificaciones, la validez referida al criterio y la validez consecuencial.

32

La validez basada en la teoría, denominada por Weir en obras posteriores (Khalifa y Weir, 2009; Weir, 2012, etc.) validez cognitiva, está relacionada con el constructo de la evaluación. Como se ha señalado más arriba, la validez de constructo está expuesta a dos tipos de amenaza: la infrarrepresentación y la irrelevancia. Es necesario que se investigue acerca de los procesos cognitivos que subyacen a la realización de las tareas y discriminar en qué medida existen factores ajenos al constructo que pudieran estar interfiriendo en la medición. Todas estas cuestiones están intrínsecamente relacionadas con el contexto de la evaluación. Por ejemplo, en una prueba de comprensión audiovisual, en el contexto académico universitario, será necesario que se atienda la lectura expeditiva, además de la lectura atenta; también a la captación de aspectos literales del texto o a la interpretación del punto de vista del autor. Este enfoque difiere sustancialmente de las pruebas de tipo generalista, en las que la comprensión se suele fundamentar en textos informativos o, por ejemplo, textos de prensa o divulgación, en los que el lector no necesita extraer una estructura del contenido del texto o contrastar su información con la de otras fuentes desde una perspectiva crítica. La descripción del constructo tiene que fundamentarse un modelo de comprensión de lectura previamente definido, que permita indagar en los tipos de procesamiento respecto a los componentes del modelo que los candidatos llevan a cabo en las situaciones reales de comunicación, en contraste con las que se plantean en la situación de examen.

Weir (2005) presenta marcos para la validación basada en la teoría a partir de los tipos de actividades comunicativas de la lengua: comprensión de lectura, comprensión auditiva, expresión escrita y expresión oral. Los marcos se componen de dos áreas: procesos ejecutivos y recursos ejecutivos. La interacción entre ambas se hace posible gracias a la monitorización, que opera en un plano metacognitivo. Los procesos ejecutivos corresponden al componente estratégico. Los recursos ejecutivos, al conocimiento, que Weir diferencia entre el lingüístico y el no lingüístico. En definitiva, por mucho que Weir (2005) presente los esquemas de estos marcos de forma sintética y simplificada, no difieren sustancialmente de la propuesta de Bachman (1990), Bachman y Palmer (1996).

Las evidencias de validez relativas a la dimensión contextual se recaban en la fase de diseño y desarrollo del examen y están fuertemente imbricadas con las más arriba comentadas, referidas a la validez basada en la teoría. Al definir la validez contextual, Weir (2005: 56) se refiere a las conexiones que esta establece con lo que,

33

en la tradición psicométrica y evaluadora, se denomina validez de contenido. Prefiere esta denominación, porque el contexto no se puede desligar del contenido en las tareas de comunicación. La validez contextual se demuestra con arreglo al grado en el que las tareas de examen representan una muestra del universo de tareas que los candidatos necesitan realizar en los contextos reales empleando la lengua como vehículo de comunicación. Tiene que ver con los siguientes aspectos: el contexto situacional en el que se inscribe la tarea de examen, las demandas de la tarea y la administración de las pruebas. Todos ellos están orientados al logro de la autenticidad situacional y se ven restringidos por las exigencias impuestas por la viabilidad.

La situación de la tarea está determinada por los factores siguientes: las instrucciones, el propósito de la tarea, el formato de respuesta, el conocimiento de los criterios de calificación, la ponderación de las pruebas en la calificación final, el orden de los ítems y las restricciones de tiempo para su realización.

Advierte Weir (2005: 57) de la importancia de la claridad de las instrucciones y del control de la dificultad de comprensión, que no debe superar en ningún caso a las de la propia resolución. Los redactores de ítems cuentan habitualmente, en el marco de las normas y pautas de redacción, con listas de control, que ayudan a monitorizar el proceso de elaboración de instrucciones. Estas deben ser claras en cuanto al propósito de la tarea. Los examinandos deben ser plenamente conscientes de para qué leen o cuáles son los destinatarios del texto que escriben, por ejemplo. En este sentido, la finalidad de la lectura o de la escritura debe ser coherente con el tipo de texto de entrada o de salida. Todas estas cuestiones fueron puestas de manifiesto previamente por Bachman y Palmer (1996: 43 y ss.) en su marco de diseño y validación de tareas de examen.

El aspecto más importante de la validez contextual, en relación con el tema que nos ocupa, es el referido a las demandas de las tareas. Las variables independientes, en este caso, son siguientes, en las que nos extenderemos más abajo, pues están involucradas en el foco de esta investigación: el tipo de discurso o género, el canal de comunicación, la extensión del texto de entrada o de salida, la naturaleza de la información del texto, el conocimiento declarativo o sociocultural que tienen los candidatos sobre el tema, la relación entre el material de entrada y el material de salida, además de las variables referidas al interlocutor. Estas variables se analizan, en el modelo de Weir (2005), en relación con las diferentes actividades comunicativas de la lengua.

34

El último aspecto que considera el modelo de Weir (2005) respecto a las evidencias referidas a la dimensión contextual son las que se recogen en relación con la administración de las pruebas. Los sistemas de certificación tienen que hacer explícitas ante los agentes involucrados en este proceso normas claras y medidas para su cumplimiento que garanticen lo siguiente: condiciones ambientales idóneas, condiciones equitativas para todos los candidatos y seguridad. La alteración o el descuido de estos requisitos constituye un cúmulo de amenazas para la fiabilidad de las pruebas y puede introducir varianza irrelevante del constructo; es, en definitiva, una influencia negativa para los resultados, crucial, en los exámenes de alto perfil.

Se describen a continuación los componentes del modelo de validación de exámenes que operan en las fases posteriores al diseño de las pruebas y a su administración: la validez de la calificación, la validez referida al criterio y la validez consecuencial. Weir (2005) da tratamiento conjunto a estos aspectos, con el fin de responder a las preguntas que plantea el modelo. Se refiere, en primer término, a los procedimientos internos de validación de los resultados y, en segundo, a las validaciones externas. En lo referente a la calificación, se refiere Weir al requisito básico de la fiabilidad y los factores que pueden ir en su detrimento en los resultados del examen. El diseño de las tareas y la redacción de los ítems deben correr parejos al desarrollo de un esquema de calificación, en el que los siguientes aspectos deben calcularse con rigor.

― Claridad en las claves de respuesta.

― Máxima reducción del espacio a los juicios subjetivos, e especial, en las tareas

de producción.

― Ponderación equilibrada de los ítems y de las tareas.

― Coherencia con el foco de la evaluación en los criterios de calificación, sobre

todo, en las tareas integradas.

― Interpretación consensuada de los criterios de calificación, explícitos en las

escalas. Función social moderadora y entrenamiento periódico de los examinadores de las pruebas de producción. Monitorización continua de la consistencia interna y externa de los calificadores.

― Estandarización de los ítems de las tareas de comprensión. ― Fijación de los puntos de corte.

― Equilibrio entre el enfoque referenciado a la norma y el enfoque referenciado al

35

Las garantías de validez dependen de que se empleen procedimientos y herramientas adecuados. Además de las pautas y normas de redacción de ítems, con las consiguientes listas de control, que contribuyen a su verificación, es necesario tomar otra serie de medidas.

La calificación de las pruebas de respuesta abierta precisa criterios claros, que se hagan explícitos en escalas, desarrolladas a partir de procedimientos empíricos (North

y Schneider, 1999; North, 2000; Weigle, 2002; Alderson, 2002; Fulcher, 2003). Su

aplicación requiere un entendimiento conjunto y consensuado por parte de la comunidad de examinadores y una monitorización constante de su rendimiento en términos de consistencia interna y externa. Esto precisa, de forma periódica y constante, la convocatoria de los participantes en este proceso, con vistas a la unificación de criterios. Otra medida necesaria para garantizar la consistencia es la doble calificación, en especial, en el caso de las pruebas de expresión e interacción escritas. Los cálculos de las consistencias interna y externa suelen hacerse en términos de coeficientes de correlación. Existen, sin embargo, otros métodos más sólidos. El Manual para Relacionar exámenes con el MCER del Consejo de Europa propone el cálculo del coeficiente Kappa de Cohen, que no está exento de polémicas (Martínez Arias et al, 2006). Alude Weir (2005: 34) a la aplicación del método del modelo matemático multirasgo-multimétodo, que permite identificar los factores que están afectando a la consistencia de las calificaciones: el examinador, la dificultad de la tarea o la habilidad lingüística comunicativa del candidato.

Las calificaciones de los ítems dicotómicos deben ser estimadas en cuanto a su fiabilidad interna. Se han descrito múltiples métodos para preservar sus garantías como la réplica o la comparación entre dos mitades del examen (Alderson et al, 1995). Sin embargo, en la actualidad, se opta por obtener altos índices en coeficientes como el KR-20, el Alpha Crombach y otros similares.

La validación de estos ítems precisa un cálculo de su índice de dificultad y de su capacidad de discriminación, para lo cual se han descrito varios procedimientos. Otra evidencia de validez se obtiene del cálculo del error estándar de medida. La medición de los constructos está necesariamente sujeta a un índice de error de medida, determinado por las circunstancias de la administración o del propio instrumento. En este último caso, se puede calcular mediante los modelos matemáticos que aporta la Teoría Clásica del Test (TCT), que permite, entre otros cálculos, obtener el llamado error típico de medida. Este se obtiene de la diferencia entre la calificación verdadera,

36

es decir, la que correspondería al grado de desarrollo de la habilidad lingüística comunicativa y la calificación observada, a partir de la puntuación de los ítems. Las fórmulas matemáticas capaces de calcularlo, en virtud del índice de fiabilidad y de las desviaciones estándar de las calificaciones.

La más sólida de las evidencias de la validez de las calificaciones se obtiene de la aplicación de los procedimientos que aporta la Teoría de Respuesta al Ítem (TRI). Esta intenta establecer las relaciones que existen entre las puntuaciones obtenidas y el constructo objeto de medición. En términos muy simplificados, se trata de analizar las puntuaciones obtenidas de cada ítem. Este análisis consigue establecer los patrones de respuesta de cada sujeto, lo cual permite establecer su valor, en este caso, su grado de dominio respecto al constructo, en nuestro caso, su habilidad lingüística comunicativa. La aplicación de la TRI permite alinear tanto a los ítems de la batería de la prueba como a los candidatos que la realizan en una misma escala de dificultad respecto al constructo de la habilidad lingüística comunicativa.

La TRI emplea diversos modelos matemáticos. En el ámbito de la evaluación de lenguas, el más extendido es del matemático danés Rasch. Las aplicaciones son múltiples: construcción de pruebas adaptativas, elaboración de bancos de reactivos, cálculo de la función diferencial de los ítems, etc. (Marínez Arias et al, 2006: 127). No obstante, se precisa un alto número de candidatos (entre 500 y 1000) para que los resultados puedan ser tenidos en cuenta.

Las aplicaciones más relevantes del modelo del Weir (2005) son las que aportan evidencias referidas a la validez de criterio, es decir, a la correlación de resultados entre dos pruebas que se supone que miden el mismo constructo. Estas evidencias pueden provenir de resultados entre pruebas estandarizadas o pruebas de autoevaluación, por ejemplo, administradas a los mismos grupos de candidatos, o entre pruebas de dos sistemas de certificación distintos, administrados a diferentes grupos de candidatos. Es necesario aportar asimismo evidencias de las correlaciones de los resultados entre diferentes formas del mismo examen. Es lo que se conoce como comparabilidad de formas paralelas.

El modelo de Weir (2005) se refiere finalmente a la validez consecuencial, que según advierte el propio autor, está adquiriendo cada día más importancia en el ámbito de la psicometría y de la evaluación. Retoma la idea de Messick (1989) para definirla como

37

el rigor en la adecuación y propiedad de la interpretación de los resultados de una prueba y de las acciones derivadas de esta interpretación, basado en la aportación de evidencias y en la fundamentación teórica. Como puede apreciarse, la definición actual del concepto de validez descansa sobre su dimensión consecuencial. Para Weir (2005: 210) esta se asienta sobre las tres ideas siguientes: validez diferencial, impacto y efecto en la sociedad.

La validez diferencial se refiere al sesgo que pueda identificarse en la puntuación de los ítems, debidos a la influencia en su resolución de aspectos como el conocimiento sobre el tema de los textos de entrada, la experiencia con los formatos de respuesta, etc. Otros factores están relacionados con las características del candidato: edad, etnicidad, etc. Se ha comentado más arriba, y se ampliará más abajo, la importancia que tiene, en el ámbito de los fines académicos, la función diferencial de los ítems en relación con el conocimiento del área disciplinar; también se puede considerar dentro de este parámetro el foco central de esta investigación, en la medida en la que el conocimiento consciente y explícito de los elementos del género discursivo por parte del candidato puede repercutir en su rendimiento. En relación con la validez consecuencial, la aportación de evidencias debe orientarse a la demostración de que no existe sesgo en los resultados o bien a que este se halla controlado.

El impacto se refiere, como se ha visto, a las repercusiones que tiene el examen en los sistemas de enseñanza. Si este tiene un efecto positivo, los resultados serán capaces de identificar las áreas susceptibles de mejora. En el caso de un examen en contextos académicos, la repercusión que puede tener demostrar que se necesita un examen específico puede traer consecuencias. El examen repercutirá en que los objetivos de los cursos se centren en prepar a los alumnos para el éxito en las tareas académicas; también, en el establecimiento de estándares de logro y de umbrales de dominio para