Pruebas y registros de ejecución - DISEÑO DE INSTRUMENTOS Y MATERIALES DE EVALUACIÓN

Capítulo 4. Criterios e instrumentos de evaluación

4. DISEÑO DE INSTRUMENTOS Y MATERIALES DE EVALUACIÓN

4.7. Pruebas y registros de ejecución

Las pruebas prácticas de ejecución son situaciones de observación directa, controlada e intensa, de rasgos de conductas o habilidades que los estudiantes ejercitan durante un periodo más o menos breve. El profesor o los propios compañeros pueden registrar y valorar dichas observaciones, conforme a criterios previamente conocidos. Se puede analizar el proceso o el producto que se obtiene, aunque no siempre es posible hacer esta separación en la práctica. Normalmente ambos se dan simultáneamente y requieren una observación directa e inmediata.

Entre las pruebas prácticas más habituales en Primaria se encuentran las pruebas físicas (por ejemplo las habilidades deportivas), la construcción mecánica y plástica (artefactos, murales o productos artísticos), manejar aparatos (musicales, de laboratorio, informáticos); ciertas producciones orales (participación en debates y dramatizaciones, relatos); etc.

Ventajas y limitaciones

La principal ventaja de esta prueba es su potencialidad para evaluar habilidades en situaciones prácticas, análogas a la realidad. El reto de evaluar otras competencias relevantes para el desarrollo personal y social de los alumnos de Primaria exige, como ya hemos dicho, ir más allá de la concepción tradicional de la evaluación, como una actividad reducida a valorar los conocimientos que los alumnos reflejan en un papel, al final de un proceso de aprendizaje. Los anteriores instrumentos, basados en el análisis de productos de conducta, permiten evaluar el conocimiento que los estudiantes han asimilado, pero no siempre si lo utilizan competentemente en una variedad de situaciones específicas. Ayudan a valorar algunas habilidades cognitivas y lingüísticas, pero no tanto habilidades sociales, físicas y psicomotrices. Sobre todo son muy limitadas para acceder a los aspectos actitudinales asociados a las competencias clave.

La observación directa y continua del aprendizaje de cada alumno es, en definitiva, la mejor alternativa para evaluar competencias en la Educación Primaria. Sin embargo, una observación poco planificada o meramente intuitiva puede ser insuficiente, sobre todo cuando se trabaja con grupos grandes. La evaluación formativa de competencias necesita de una información suficientemente precisa y fiable, que no se consigue simplemente estando presente en el aula. Es fundamental diseñar situaciones de desempeño práctico, en tareas genuinas, donde podamos observar las habilidades aprendidas. Muchas de las actividades prácticas que los profesores llevan a cabo en las aulas son susceptibles de convertirse en una prueba de ejecución, siempre que se diseñen de modo que puedan evaluarse con cierta profundidad.

Aunque algunas pruebas de ejecución pueden generar un producto de conducta (ya sea en papel u otro formato), lo que interesa sobre todo es analizar las habilidades mostradas por el sujeto durante la ejecución de la tarea. Esto plantea el evidente riesgo de que el observador no tenga tiempo suficiente o no sepa analizar dichas habilidades; riesgo que se multiplica en las situaciones de evaluación entre iguales. Además de diseñar y estructurar bien la tarea que se demanda, es aconsejable diseñar previamente instrumentos adecuados de registro, como las listas de control, las escalas de apreciación o las rúbricas.

Diseño de listas de control

Este instrumento, también conocido como lista de cotejo (o en inglés checklist), consiste en un catálogo de conductas, rasgos o habilidades, en los que el evaluador puede registrar dicotómicamente su presencia/ausencia (sí o no). Los aspectos que van a ser observados deberían concretarse de manera clara y concisa. Las listas de control simplifican mucho la evaluación, por lo que es más adecuada para tareas más o menos cerradas,

como resolver un problema aritmético. Pueden ser también muy útiles cuando el profesor o los propios alumnos tienen que hacer una evaluación rápida de una tarea, para confirmar que contiene los requisitos que se pedían, especialmente cuando esta no genera un producto que pueda revisarse después con más tranquilidad. Como contrapartida, al reducir la evaluación a dos opciones (sí o no) las listas no permiten discriminar niveles intermedios de ejecución de una habilidad y otorgan la misma importancia a todos los criterios.

La elaboración de una buena lista de control requiere discriminar y enunciar con precisión los indicadores más relevantes de la calidad de una ejecución o producto. Imaginemos, por ejemplo, que queremos evaluar en Primaria la construcción clara y ordenada de relatos orales sencillos, de tipo narrativo, sobre hechos reales y ficticios. En diferentes días podemos pedir a cada estudiante que narre lo que hizo el fin de semana, un suceso divertido que le ocurriera en vacaciones o la última película que ha visto, al tiempo que utiliza determinado vocabulario o estructuras gramaticales. La lista de control contendría preguntas acerca de si el relato emplea dichas construcciones o diferentes formas de un determinado verbo. Cuando la competencia o habilidad conlleva una secuencia de acciones concreta, como en este caso, el listado debería además reflejar un orden similar. En la lista de control podrían enunciarse los siguientes criterios: a.- Sitúa los hechos en el tiempo y en el espacio e identifica los personajes relevantes.;

b.- Describe el suceso inicial o crítico, cómo se sintió el protagonista (y, en su caso, otros personajes) y qué se propusieron hacer; c.- La trama y la resolución del relato es clara y coherente; d.- Las oraciones están bien construidas y puntuadas; e.- Utiliza un vocabulario adecuado y variado; f.- Respeta las normas ortográficas. g.- El relato es creativo y ameno. Durante la exposición el profesor o los propios estudiantes irían marcando con una cruz cada uno de los criterios correctamente realizados.

Diseño de escalas de apreciación numérica y cualitativa

Esta segunda alternativa consiste en un listado de criterios cuantificables que facilitan la observación y valoración graduada (rating scale) de la calidad de productos de conducta o de la ejecución de una habilidad en una situación concreta. Cada criterio puede valorarse numéricamente o con una escala ordinal (como por ejemplo, mal-regular- bien-muy bien). En el caso de las escalas numéricas, la calificación global suele obtenerse con una estrategia acumulativa, es decir, sumando la calificación de cada uno de los criterios.

Las escalas cuantitativas permiten valorar con más precisión que las listas de control el grado en que se realiza un determinado criterio, pero plantean el inconveniente de otorgar mucha importancia a la calificación.

Otro riesgo es que el alumno no sepa interpretar el significado de la misma, de cara a mejorar su trabajo o habilidad. Este obstáculo se vuelve más acusado cuando las escalas se aplican muy retrospectivamente⁹; así como en las actividades de coevaluación, en la que los alumnos pueden interpretar de manera muy diversa el significado de una nota numérica determinada. En consecuencia, es importante introducir en estos instrumentos apartados de valoración cualitativa, donde el profesor o los propios estudiantes precisen y justifiquen los errores detectados y argumenten sugerencias de mejora. También puede ser recomendable ponderar el peso de la cuantificación de cada criterio en la calificación final, en función de su importancia.

Esto último puede hacerse calculando la media ponderada de la calificación de cada uno de los criterios. Por ejemplo, el criterio (e) de la lista anterior podría ser evaluado de 0 a 10 y tener un peso de 2 en 4º

9 A veces las escalas de apreciación no se aplican en situaciones estructuradas de observación directa, sino diferida, en la que el evaluador valora retrospectivamente los criterios, recordando las competencias, habilidades, actitudes o conductas que ha observado durante un periodo de tiempo anterior. Este es el caso, por ejemplo, de la mayoría de las escalas de competencia curricular que se utilizan en la evaluación psicopedagógica de alumnos con necesidades especiales en Primaria. Se trata de instrumentos fáciles de aplicar y útiles para evaluaciones globales de competencias básicas. Sin embargo, tienen menos objetividad y fiabilidad, sobre todo, si el evaluador no ha tenido la oportunidad de observar durante suficiente tiempo las competencias que se evalúan.

de Primaria. Eso quiere decir que cuando se calculara la media de las calificaciones de todos los criterios relativos a la competencia “narrar oralmente hechos reales o ficticios”, la calificación del criterio “utiliza un vocabulario adecuado y variado” valdría el doble que la calificación obtenida en otro criterio que tuviera asignado un peso 1. Esta ponderación podría cambiar en cursos superiores, cuando otros criterios adquieren más relevancia.

Diseño de escalas de apreciación descriptiva-ordinal (rúbricas)

Una escala con un enfoque diferente es la que se conoce como rúbrica (del inglés rubric). Aunque la aplicación de una rúbrica puede traducirse fácilmente a una calificación numérica, su principal valor no es ese. Por cada criterio o categoría, esta alternativa contempla normalmente 4 niveles de ejecución, que son enunciados con cierta precisión. Cuando se cumplen ciertas condiciones, esta estrategias ofrece ciertas ventajas respecto a otros tipos de escala (Panadero y Jonsson, 2013). Principalmente facilita que los estudiantes interpreten mejor el significado de los criterios de evaluación, sobre todo cuando participan en una actividad de coevaluación.

Como contrapartida, convierte a este tipo de escalas en instrumentos más laboriosos de confeccionar.

Según Stiggins et al. (2007) la elaboración de una buena rúbrica debería contemplar los siguientes pasos: (1) delimitar los objetivos de aprendizaje y el nivel previo de los alumnos; (2) reunir muestras de la actuación de los niños y clasificarlas por nivel de calidad; (3) enunciar descriptores observables de cada nivel; (4) preparar ejemplos de actuación de cada nivel. Además, los enunciados de una rúbrica no deberían simplemente

expresar una valoración global, basadas en adverbios de cantidad (mucho, bastante, poco, nada). Los niveles de logro aluden a los diversos procesos y estrategias implicadas en la ejecución de la tarea, de acuerdo con los objetivos de aprendizaje y la madurez del alumnado. De este modo, pueden servir de guía al alumno sobre aquello que debe mejorar.

Volviendo al ejemplo anterior, la categoría “trama” (correspondiente al criterio c de evaluación de relatos), podría concretarse en los siguientes niveles: (1) En la historia no pasa nada o no se entiende nada de lo que pasa; (2) La historia es un poco confusa o no del todo coherente; (3) La historia es sencilla, se explica con suficiente claridad lo que pasó después y al final; (4) Aunque la historia es larga, se explica muy bien todo lo que pasó después (en varios episodios claramente diferenciados), y cómo quedaron al final los personajes (véase Fernández, Montanero y Lucero, 2018).

In document de la enseñanza primaria (página 84-87)