• No se han encontrado resultados

II. MARCO TEÓRICO

1.3. Evaluación y validez

1.3.1. Concepción actual de la validez

La tradición psicométrica y evaluadora consideró la validez, durante mucho tiempo, como la característica de los instrumentos que miden constructos, según la cual, la prueba o conjunto de pruebas miden lo que se proponen medir (Alderson et al, 1995: 165, entre otros muchos). A partir de los años noventa del S. XX, esta percepción de la validez pasa a considerarse incompleta y obsoleta.

En los Estados Unidos de América, desde el año 1966, las tres organizaciones siguientes trabajan en el marco de un acuerdo de colaboración para elaborar los denominados Standards for Educational and Psychological Testing (estándares para la evaluación educativa y psicológica): American Educational Research Association (AERA), Amerian Psycological Association (APA) y National Council on Measurement in Education (NCME). Se trata de una serie de líneas directrices y recomendaciones que garantizan el uso de buenas prácticas en el desarrollo, la interpretación y el uso de instrumentos de medición de constructos psicológicos y de evaluación educativa. Los estándares AERA, APA NCME se actualizan cada 15 años aproximadamente y la versión más reciente vio la luz en julio del año 2014. Esta última edición no presenta cambios sustanciales respecto a la anterior en lo que se refiere a la idea de validez: «grado en el que la evidencia y la teoría avalan la interpretación de las puntuaciones de los test, para el propósito con el que estos son utilizados» (AERA, APA, NCME, 2014: 13). Esta visión de la validez se incardina en el paradigma de lo que se conoce como modern validity theory (teoría moderna de la validez), que es deudora de la visión que aporta Samuel Messick (1989) y obras posteriores. Según este autor,

Validity is an integrated evaluative judgment of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores and other modes of assessment.

Messick, S. (1989: 13). La adopción de la teoría moderna de la validez comporta una serie de cambios de perspectiva. En primer lugar, pasa a entenderse como una propiedad de los usos e interpretaciones de las puntuaciones de los exámenes y no del examen o instrumento de medida en sí mismo. De este modo, las notas de un examen pueden servir, es decir, ser válidas para determinados usos y dejar de serlo para otros. Este enfoque

21

enfatiza la dimensión social del impacto de los exámenes, puesto que los concibe como los instrumentos necesarios para arrojar resultados, a partir de los cuales se tomarán decisiones en relación con los candidatos, algunas de ellas de gran calado (estatuto de ciudadanía, acceso a programas de estudios, puestos de trabajo, etc.) (Council of Europe, Milanovic et al, 2011: 16).

La validez se entiende desde esta nueva óptica como un concepto unitario (Perron y Gillespie, 2015: 39). Lo que se entendía con anterioridad como tipos de validez se ve ahora como facetas de este concepto o fuentes de evidencia, que es preciso recoger a lo largo de las diferentes fases del desarrollo del examen y en distintos momentos de su ciclo de vida. Estas evidencias constituyen las bases científicas sobre las que se apoyan las interpretaciones de las notas de los exámenes.

Se supera, en definitiva, la visión tripartita (validez de contenido, validez de criterio y validez de constructo), que dominó el panorama de la psicometría y de la evaluación educativa durante la década de los años setenta (Fulcher y Davidson, 2007: 4). El cambio de orientación considera que estas facetas confluyen en un proceso, que se orienta a comprobar que las consecuencias de las notas de un examen son, en efecto, las que se habían previsto para todos los usuarios de este examen: candidatos, comunidades educativas, padres, patrocinadores, empleadores… y el conjunto de la sociedad.

Messick (1989: 20) distingue dos dimensiones en la validez, cuyas interconexiones se representan en su famosa matriz: las fuentes evidenciales o consecuenciales de la justificación de la prueba, y la función del resultado (interpretación o uso). Para tener bases evidenciales de una prueba de examen de certificación del grado de dominio de una lengua con fines académicos, por ejemplo, de comprensión de lectura, es necesario recoger evidencias de que esta prueba mide realmente la capacidad del candidato para comprender textos académicos (validación del constructo). De esta forma, existirán garantías de que las notas que obtengan los candidatos serán realmente un reflejo de la aplicación de su habilidad lingüística comunicativa a la comprensión de este tipo de texto. Por consiguiente, será necesario recoger datos empíricos como las correlaciones de los resultados de esta prueba con otras relacionadas con el mismo constructo como, por ejemplo, los de una prueba de comprensión auditiva (validez convergente). Contribuirán asimismo a la demostración de validez las bajas o nulas correlaciones con los resultados de pruebas que no midan

22

el mismo constructo como, por ejemplo, una prueba de conocimientos socioculturales de tipo declarativo (validez discriminante).

El análisis de las bases consecuenciales para la interpretación de las notas consiste en determinar las implicaciones que tiene el constructo, en el contexto del examen. En el caso del ejemplo, los resultados podrían llevar a discriminar a los candidatos que pueden o no entrar en un programa de estudios. Habría que demostrar que los aspectos de la comprensión de lectura que se pretenden medir (extraer las ideas principales, sintetizar información de varias fuentes, etc.) son relevantes en el contexto de uso de la lengua y tienen sentido. Por lo tanto, los alumnos que entran en el programa son aquellos que están realmente capacitados para seguirlo con éxito. Es necesario probar, además, qué consecuencias tiene el hecho de establecer este tipo de pruebas en los alumnos que aspiran a participar en los programas y las consecuencias en la política de las universidades. Por ejemplo, en qué medida pasarían a considerarse, en España, en el marco de estas políticas, como requisito básico del acceso a los programas, la capacidad de conferir sentido a los textos académicos especializados. Habría que determinar cuál sería el impacto, tanto en los programas de preparación para el acceso a las universidades como en los cursos de apoyo lingüístico. Este tipo de exámenes precisan garantías de que no se introducen sesgos y que no cuentan con ventaja los alumnos que tienen, por ejemplo, conocimientos declarativos de la materia más elevados y de que los resultados son justos y equitativos.

Los resultados de un examen de grado de dominio del español de tipo generalista como, por ejemplo, los del sistema DELE (Diploma de Español como Lengua Extranjera), o el en ciernes SIELE (Sistema Internacional de Evaluación del Español como Lengua Extranjera), pueden utilizarse con diferentes fines: admisión de aspirantes en el sistema español de médicos residentes, acceso a las oposiciones para puestos en la función pública, certificación del grado de dominio tras una experiencia de aprendizaje en un curso general de un determinado centro, etc. El examen podría considerarse válido para estos usos y podría no serlo, por ejemplo, para discriminar a los candidatos que necesitan emplear la lengua en un puesto de la función pública ejerciendo de personal administrativo, que implique el manejo de documentos oficiales. La demostración de todas estas cuestiones precisa análisis basados en las evidencias, que actualmente no se realizan en ninguno de los sistemas

23

de certificación del grado de dominio del español o, al menos, no se difunden públicamente.

Este enfoque precisa que las evidencias de validez comiencen por hacer explícitos los usos que se van a hacer de los resultados del examen y por definir con claridad el constructo de la evaluación, es decir, los aspectos que se van a medir y que van a estar representados en este constructo. Por ejemplo, el diseño de una prueba de expresión escrita en un contexto académico universitario debería comenzar por describir los aspectos de la capacidad de uso de la lengua en la expresión escrita que se pretenden medir y la forma en la que serán valorados: estructuración del texto, uso de recursos de cohesión, corrección gramatical, alcance del vocabulario, etc. Una prueba que pretendiera medir la expresión escrita a través de la construcción de oraciones aisladas del contexto no abarca la dimensión del discurso. Por consiguiente, estaríamos ante un caso de infrarrepresentación del constructo. Si los resultados de la prueba dependen de la capacidad del candidato para interpretar los datos de una gráfica, este factor estaría introduciendo lo que se denomina varianza irrelevante al constructo (Martínez et al, 2006: 24). La validación requiere una atención sistemática a la representación del constructo y a otros aspectos que pueden influir en los resultados como las condiciones de la administración, el formato de las pruebas, la edición de las formas del examen, las instrucciones de las tareas, etc.

Messick (1989: 20) aporta un modelo general para aplicar su matriz y presentar una conceptualización de la validez a partir de seis aspectos diferenciados, lo cual no contraviene la concepción unitaria: contenido, sustantiva, estructural, generabilidad, externa y consecuencial. La validez de contenido se refiere a la demostración del grado en el que las tareas que se proponen en las pruebas proporcionan cobertura a lo que se pretende medir (Alderson et al, 1995; Fulcher, y Davidson, 2007; Fulcher, 2010, entre otros). Las evidencias deben mostrar cuáles de los aspectos anteriores son relevantes para los usos de los usos de los resultados en el contexto del examen. En el contexto académico universitario, la validez de contenido de una prueba de comprensión audiovisual puede argumentarse a partir de bases evidenciales, aportadas por jueces expertos, como el grado en el que los textos de entrada son representativos de los que procesan los alumnos (Fulcher y Davidson, 2007: 12). Además, debería poder demostrarse en qué medida las tareas de la prueba son reflejo de las que realizan los alumnos en el contexto académico: identificar ideas importantes, tomar notas para utilizarlas posteriormente, etc.

24

La sustantividad, en el modelo de Messick, se entiende como el grado en el que las tareas reflejan los procesos cognitivos que subyacen a su ejecución en las condiciones reales hacia las cuales se orienta la interpretación de los resultados. En el caso de la comprensión auditiva, es necesario indagar para obtener las evidencias en el proceso interno que guía a los candidatos en la ejecución de las tareas. Se necesitaría, en primer término, contar con un modelo teórico que describa los procesos de comprensión y, después, investigar sobre cuáles del los procesos descritos utilizan los candidatos en cada una de las actividades implicadas en las tareas.

Por su parte, la estructuralidad vendría a demostrar la correspondencia de las tareas de las pruebas con los aspectos estructurales que configuran la dimensionalidad del constructo. Se trataría de justificar que las tareas de la prueba reflejan los componentes del modelo de comprensión auditiva en que se fundamenta el constructo.

Finalmente, la generabilidad se basa en la medida en la que los resultados de las pruebas se pueden extrapolar a otros grupos de población de las mismas características. También abarca otros aspectos como la demostración de que las puntuaciones obtenidas en las pruebas son representativas de lo que los candidatos hacen mediante el uso de la lengua en otras tareas que se fundamentan en el mismo constructo, tanto en situación de examen como en la «vida real».

La dimensión externa se relaciona con las cuestiones, más arriba comentadas, relativas a la validez convergente y a la validez discriminante. En un examen que conste de varias pruebas, las correlaciones positivas entre la prueba de comprensión de lectura y, por ejemplo, una prueba de gramática y vocabulario, vendrían a justificar el grado en el que la prueba evalúa el mismo constructo. Del mismo modo, se podría demostrar que un índice bajo o negativo de correlación entre ambas pruebas evidenciaría que se han introducido factores que afectan a la varianza irrelevante como, por ejemplo, el conocimiento del tema del que versa el texto, lo cual estaría sesgando los resultados de la prueba, en caso de que este no se considerara parte del constructo (Alderson, 2002: 44).

25

Finalmente, en el modelo de Messick (1996), el componente consecuencial se refiere al modo en que los resultados se interpretan para la toma de decisiones y estos son relevantes. La justificación de medidas de seguridad o de control del sesgo erradicaría amenazas a la validez como la injusticia o la falta de equidad.

Esta visión contemporánea de la validez tardó mucho tiempo en ser aplicada a los exámenes de idiomas (ALTE, 2005: 19). Bachman (1990: 243) es el primero que toma el concepto unitario de la validez como base para justificar la garantía de los resultados de los exámenes de lenguas.

Bachman y Palmer (1996: 17 y ss.) proporcionan una interpretación de esta idea de la validez, en términos de lo que llaman utilidad de los resultados del examen. Parten de la base de que, si lo que se pretende hacer es obtener inferencias acerca del grado de dominio de los candidatos a partir de las calificaciones ―y, en virtud de estas

inferencias, tomar decisiones―, es necesario demostrar en qué medida la actuación

de los candidatos guarda relación con el uso de la lengua en las situaciones que se dan fuera del examen. Por esta razón, se necesita un marco que permita evidenciar los principales rasgos característicos de las situaciones de uso de la lengua y ponerlos en conexión con los que se utilizan en el examen. En la obra, se plantea un procedimiento de análisis de las tareas que se dan en las situaciones meta de uso de la lengua (Target Language Use Situations), con el fin de poder compararlas con las que se proponen en la situación de examen. Lo que interesa en este punto, sin embargo, es la relación de los requisitos que se precisan para garantizar el mantenimiento del principio de utilidad y que se constituyen en los focos de la argumentación de la validez: validez del constructo, fiabilidad, viabilidad, impacto, autenticidad e interactividad. El cumplimiento de estos requisitos puede entrar, en ocasiones, como se verá a continuación, en conflicto con el resto. La argumentación de la validez supondrá, por consiguiente, un continuo balance entre ellos.

La validez del constructo se refiere a la interpretación significativa y apropiada que se realice de las calificaciones de los exámenes, como indicadores del grado de desarrollo de la habilidad lingüística comunicativa. La validez del constructo está relacionada con el ámbito al que se pretende generalizar la interpretación de las calificaciones. El ámbito de generalización es el conjunto de las tareas de la «vida real» al cual se pretende extender la interpretación de los resultados. El proceso de validación relacionado con este requisito comienza con la especificación del contenido y la comprobación de la cobertura; continúa con el proceso de desarrollo de las

26

pruebas y con la comprobación de la concurrencia del criterio y de la validez predictiva, es decir, la comprobación del grado en el que los candidatos tienen mayor o menor éxito, en relación con las calificaciones, cuando se desenvuelven en las situaciones reales de comunicación.

La fiabilidad suele definirse como la consistencia de las mediciones. Es necesario que se constate en las diferentes formas y entre las diferentes tareas de un mismo examen. Según Bachman y Palmer (1996: 20), no es posible erradicar del todo las inconsistencias, sino minimizar el efecto de los factores que las originan.

La viabilidad depende del equilibrio entre los recursos que se precisan para administrar el examen y aquellos que están disponibles. Afecta a la administración y al proceso de desarrollo de las pruebas.

El impacto recae sobre la sociedad en general, sobre los sistemas de enseñanza y sobre los agentes implicados en la situación de examen, en particular. Está en relación con las consecuencias del examen en sentido amplio. Según Bachman y Palmer (1996: 23), el redactor de pruebas debe guiarse por el objetivo de obtener el mayor grado de rendimiento por parte de los candidatos. Por consiguiente, debe maximizarse el impacto positivo. El impacto afecta a las tres áreas siguientes: la experiencia en la preparación de los exámenes, las calificaciones o retroalimentación que reciben los candidatos, las consecuencias que estas calificaciones tienen para la vida de los candidatos.

La justificación del uso de los resultados del examen requiere demostrar que el comportamiento de los candidatos se corresponde con el uso de la lengua que hacen en situaciones de comunicación en un determinado ámbito. Una forma de hacerlo es analizar la correspondencia sistemática de los factores de la situación de examen con las de la «vida real». De esta forma se conecta con la validez de constructo. Otra argumento de validez relacionado con la autenticidad es la reacción de los candidatos ante las tareas de examen y su percepción de lo que supone la correspondencia con el uso de la lengua que hacen en las situaciones reales de comunicación. Es lo que tradicionalmente venía denominándose validez aparente.

Finalmente, la interactividad, que Bachman (1990: 86) había llamado dimensión interactiva de la autenticidad, se define como el grado y el tipo del candidato en la

27

ejecución de la tarea, en relación con sus características: su conocimiento lingüístico, sus estrategias, su conocimiento del mundo y sus esquemas afectivos. Se refiere al modo en el que el candidato pone en juego todas estas variables durante la ejecución de la tarea y este mecanismo se corresponde con el que pone en marcha en las tareas que ejecuta en las tareas de la «vida real». Este requisito se relaciona con la sustantividad del modelo de Messick (1989).

Spolski (1976), citado en Fulcher (2000: 483), declara que la historia de la evaluación de lenguas extranjeras y segundas, se puede dividir en tres etapas: la etapa precientífica, en la que los resultados de la evaluación no se apoyaban en evidencias de validez, la etapa psicométrica, en la que las evidencias se circunscribían a resultados de análisis psicométricos y, finalmente, la psicolingüística sociolingüística, en la que se requiere otro tipo de evidencias.

Morrow (1979: 144) interpreta metafóricamente esta descripción del modo siguiente: El

Jardín del Edén, el Valle de lágrimas y la Tierra prometida, que se corresponde con la etapa en la que comienzan a desarrollarse los exámenes comunicativos. Weir (2005: 5) recoge esta ilustrativa reflexión para presentar de su modelo de validación de exámenes, uno de los muchos que suceden a la adaptación de la concepción unitaria de la validez de Bachman (1990: 243). Estos modelos se describen en el epígrafe siguiente.

La etapa estructuralista se caracteriza por la forma en la que se gestiona la tensión entre la validez referida al contenido y al criterio, y la fiabilidad. El logro de la máxima fiabilidad, que se había alcanzado con los exámenes estandarizados de respuesta preseleccionada, va en detrimento de la autenticidad de las tareas. Los resultados de una prueba pueden ser altamente fiables y, sin embargo, no ser válidos. Esta relación no se da, sin embargo, en sentido inverso, ya que la fiabilidad es un requisito básico para que los resultados se puedan emplear con garantías.

La fiabilidad se entiende, dentro del paradigma en el que nos situamos, como una evidencia más de la validez de los resultados. Los exámenes de opción múltiple, que presentan garantías de fiabilidad y que pueden ser administrados a gran escala,