MANUAL PARA LA CONSTRUCCION DE PRUEBAS O

(1)

Facultad de Medicina, Sede Talca Universidad Autónoma de Chile

MANUAL PARA LA CONSTRUCCIÓN DE PRUEBAS OBJETIVAS

1

_:

ÍTEMS DE SELECCIÓN MÚLTIPLE Y VERDADERO-FALSO.

Prof. Ricardo S. Puebla Wuth Se denominan clásicamente pruebas objetivas2 (o de tipo test) a los instrumentos de medida elaborados rigurosamente, que permiten evaluar conocimientos, capacidades, destrezas, rendimiento, aptitudes, actitudes, desempeño de procesos mentales, etc. Se caracterizan por: respuestas breves, muy concretas, que no puedan dar lugar a cuestionarse su corrección o incorreción, tener una única solución correcta; favorecer la objetividad en la corrección, presentar respuestas cerradas en las que el estudiante deba escoger o señalar con elementos muy concretos su decisión. Caben en este tipo de instrumentos desde la completación de oraciones hasta las preguntas de respuesta breve o corta34.

Características de una Prueba Objetiva:

Se determina previamente la estructura de la prueba, en la que hay que considerar: el objeto de la evaluación (que va a ser evaluado (formativa; sumativa; examen final); la dimensión disciplinar que abarcará (contenidos, saberes, y conocimientos a ser indagados todos organizados en áreas o componentes); las dimensiones cognitivas a evaluar (competencias, aptitudes, habilidades, conocimientos, etc.) que serán evaluados y el tipo de preguntas que utilizará para estos propósitos.

Este tipo de instrumentos, miden el grado en el cual una persona posee una determinada cualidad o atributo de manera cuantitativa. Tal medición no depende de factores subjetivos de la persona que califica la prueba (estado de ánimo, relación con los evaluados, criterios personales del evaluador, etc.). Esto se logra, gracias a que los criterios de calificación están establecidos previamente, sobre los cuales ha habido acuerdo desde el momento mismo de la construcción de la prueba.

Los ítems (preguntas de la prueba) se acompañan de un número reducido y limitado de opciones de respuesta (alternativas u opciones), entre las cuales el examinado debe escoger aquella que mejor responda al ítem. En las secciones de respuesta corta los ítems son

1

Preparado en base a: ICFES, (2009): Manual para la construcción de ítems tipo selección de respuesta. Bogotá, Colombia; Morales Vallejos, P. (2006): Las pruebas objetivas: normas, modalidades y cuestiones discutidas. Universidad Pontificia de Comillas, Madrid, España.

2

El término Pruebas Objetivas, fue utilizado durante muchos años en Educación; y, aún -hoy en día-, pertenece al léxico común del “idioma educativo”. Sin embargo, se subentiende que la objetividad es una característica de todo tipo de pruebas diseñadas para medir capacidades. Actualmente, se les denomina Pruebas de Respuesta Fija o Estructurada ya que el estudiante no elabora la respuesta sino que elige una de las que propone el autor de la prueba.

3

Definición: Morales Vallejos, P. (2006): Las pruebas objetivas: normas, modalidades y cuestiones discutidas. En: http://www.fagro.edu.uy/docs/uensenia/Univ.%20Comillas_Pruebas%20objetivas.pdf; y,

Las Pruebas Objetivas http://campus.centrojovellanos.com/campus/ff/arm/recursos/prueba_obj.htm;

4

(2)

Universidad Autónoma de Chile

abiertos, se espera que el mismo estudiante construya la respuesta; y, su corrección se establece en base a la consideración del evaluador de una pauta de respuesta esperada.

Todos los examinados son sometidos al mismo instrumento de evaluación, aplicado bajo condiciones estandarizadas (de espacio, ambiente, tiempo, etc.), es decir las mismas pruebas y los mismos ítems para todos. Las instrucciones y opciones de respuesta son iguales para todos los evaluados y están estructuradas con antelación a la aplicación.

Este tipo de instrumentos, posibilita evaluar grandes grupos de personas de forma masiva y simultánea debido a la facilidad de ser calificadas por medio de máquinas y sistemas computacionales (al menos los ítems correspondientes a alternativas y verdadero-falso).

Cabe mencionar la importancia de que las pruebas objetivas que evalúan aprendizajes tengan, siempre, una intención de instrumento pedagógico. Esto es, que enseñe a quien lo responde y enriquezca a quienes lo construyen. La evaluación aprendizajes, es siempre un punto de partida (no de llegada) que retroalimenta el proceso de enseñanza y aprendizaje, suscitando reflexiones en la comunidad académica.

CARACTERÍSTICAS O ATRIBUTOS DE UNA PRUEBA OBJETIVA.

Los instrumentos de evaluación de aprendizajes tipo pruebas escritas, deben cumplir con una serie de atributos considerados valiosos para rescatar la idoneidad de juicio de los docentes, respecto del aprendizaje de los estudiantes. Estos atributos, son considerados por la

Edumetría una especialidad de la Evaluación de aprendizajes que –como la Psicometría-, se preocupa de verificar la calidad y pertinencia de los instrumentos utilizados. Los atributos verificados por las acciones edumétricas, son:

CONFIABILIDAD.

La definición más sencilla de la confiablidad o fiabilidad es: que la característica o cualidad a ser evaluada en aplicaciones sucesivas de la prueba debe ser similar. Es decir, si aplicamos la prueba en diferentes momentos se deben obtener los mismos resultados bajo condiciones idénticas. Se refiere, entonces, a la constancia con que un instrumento (la prueba) mide un aprendizaje determinado. Si una prueba es confiable, significa que en diferentes ocasiones, el mismo instrumento puede ser utilizado para medir el mismo aprendizaje. Es como tirar dardos a un tiro al blanco, esperando que todas las ejecuciones estén cercanas las unas de las otras.

VALIDEZ.

(3)

Aunque la Confiabilidad y la Validez son atributos independientes de los instrumentos de medición, suelen estar acompañándose como puede verse en la figura 1, en la que un instrumento puede carecer de estos dos atributos o tener a ambos por separado.

Figura 1: La confiabilidad y validez de los instrumentos de medición suelen estimarse de manera individual, aunque en conjunto determinan grandemente la calidad de un instrumento de evaluación. Un instrumento que carece de ambos atributos es muy impreciso y los juicios que de él se estimen no pueden ser dados para estimar atributos de la población o de los individuos que son evaluados. Asimismo, un instrumento puede ser muy confiable (mediciones cercanas repetitivas) pero poco válido (es decir, lo evaluado poco tiene que ver con lo que se espera medir); o, puede ser válido pero poco confiable (situación que se da en mucho con pruebas interpretativas, que dependen más que nada del evaluador). Los mejores instrumentos de evaluación, son aquellos en los que la confiabilidad y la validez sí parecen apuntar certeramente al blanco estimado a ser medido.

Las siguientes situaciones afectan negativamente la validez de un instrumento:

 La tarea a la cual se enfoca el ítem no es relevante para la evaluación del objeto definido en el marco de la fundamentación de la prueba.

 En el ítem 8pregunta) se incluye información que facilita o dificulta su interpretación y, por ende, su resolución.

 La confidencialidad en el proceso de elaboración del instrumento es crucial, y es un compromiso esencial de quienes participan en su elaboración. Si las preguntas son conocidas por todos o algunos miembros de la población objetivo antes de su aplicación, los resultados carecen de validez para el grupo.

EQUILIBRIO.

Para poder hacer una adecuada discriminación del desempeño en el grupo a evaluar, y que todos tengan posibilidad de exhibir sus habilidades de desempeño, es necesario mantener un adecuado equilibrio en la cantidad de preguntas por dimensión disciplinar (componentes de conocimiento), dimensión cognitiva (competencias, aptitudes, saberes, etc.) y complejidad (baja, media, alta). Se utiliza mayormente, un criterio de concordancia (equidad) entre la proporción de preguntas construidas y el énfasis dado a cada objetivo (o aprendizaje esperado) declarado en la unidad a ser evaluada (en esto, resulta muy útil aprender a desarrollar un syllabus de la asignatura), tomando en cuenta un orden creciente de dificultad en la confección y ponderación.

EQUIDAD.

(4)

Universidad Autónoma de Chile CONGRUENCIA.

Cualidad que implica una relación estrecha entre los objetivos (o aprendizajes esperados) del proceso de aprendizaje y los objetivos de la prueba establecidos al desarrollar la estructura de la evaluación.

OBJETIVIDAD.

Este principio tiene relación con los resultados obtenidos por distintos evaluadores; es decir que, u instrumento revisado por dos o más profesores debe entregar los mismos resultados.

Las pruebas objetivas deben cumplir en los apartados que sancionan: ítems de alternativas con respuesta única, ítems de alternativas con más de una respuesta e ítems de verdadero-falso con características edumétricas suficientes de: confiabilidad, validez, equilibrio, equidad, congruencia y objetividad. A su vez, los apartados o secciones de respuesta corta en estos tipos de pruebas, no suelen tener estimaciones de confiabilidad dado que la respuesta es construida por los evaluados; pero, si tienen estimaciones de validez (principalmente juicio de expertos y concurrente), congruencia (entre lo solicitado y lo aprendido por los estudiantes), equidad (relación de concordancia entre lo pedido y lo aprendido), equilibrio (cantidad de preguntas por dimensión disciplinar y cognitiva) y, de objetividad (validez ante la apreciación de dos o más evaluadores).

ELABORACIÓN DE ÍTEMS DE RESPUESTA FIJA O ESTRUCTURADA (Preguntas de alternativas; y, Verdadero-Falso).

Las generaciones actuales de docentes universitarios, han crecido en torno a la evaluación de los aprendizajes hecha con las llamadas pruebas objetivas. Es tanto el manejo que tienen de este tipo de instrumentos que, sin darse cuenta, la mayoría –a nivel nacional e internacional- han internalizado en su propia estructura cognitiva muchos de los errores que se cometen cuando se confecciona este tipo de instrumentos. La investigación educacional en torno a la Evaluación de los Aprendizajes, ha demostrado que la correcta confección de este tipo de instrumentos requiere el ajustarse a seguir una serie de normas y procedimientos que aseguran la probidad y calidad del juicio evaluativo buscado. Así, entonces, si todos y todas conocemos y utilizamos estas evaluaciones lo que necesitamos es indagar en lo que ya se sabe que NO FUNCIONA cuando evaluamos utilizando secciones con ítems de respuesta fija o estructurada.

Lo que sabemos, y lo que no sabemos.

Se conocen como evaluaciones con ítems de respuesta única fija o estructurada (Pruebas Objetivas de respuesta única), a un tipo de instrumento en que el estudiante DEBE encontrar y seleccionar por escrito la respuesta correcta, entre varias que se le proporcionan. Por tanto, no hay elaboración del estudiante en la respuesta; ya que, este elige una respuesta de las que uno o varios autores del instrumento han propuesto al redactarlo.

(5)

A mayor número de posibles respuestas a una pregunta, será más difícil adivinar la respuesta correcta sin conocerla; pero, ¿Existe alguna recomendación fundada en datos experimentales sobre el número óptimo de alternativas o posibles respuestas en un ítem? Igualmente, mientras más ítems (preguntas) construyamos acerca de un tema, más finamente podremos señalar la ubicación exacta en la población muestreada de las personas respecto del dominio que tengan del objeto a ser evaluado (Información, conocimientos, aptitudes, actitudes, etc.); pero, ¿Hay demostraciones experimentales que indiquen si existe una cantidad adecuada de preguntas que permita distribuir adecuada y confiablemente los resultados de una evaluación en la población que es evaluada?

Todos los que hemos crecido en el mundo del conocimiento en la segunda década del siglo XX y en lo que va corrido del actual, sabemos que hacer cuando uno contesta ítems de respuesta fija con respuesta única. Pero, así como aprendimos que hacer con este tipo de preguntas de prueba cuando sabemos las respuestas correctas, ¿Aprendimos también que hacer, con aquellas preguntas de prueba que no sabíamos cómo contestar correctamente? ¿Existen trucos para contestar correctamente este tipo de preguntas, sin saber la respuesta correcta? ¿Son distintos los trucos en la Universidad que en el Colegio? ¿Hay evidencias al respecto? Al corregir este tipo de ítems, siempre está la sospecha de que los estudiantes pudieran haberse “copiado” entre ellos las respuestas. De igual manera, existe siempre la sospecha de que uno o más de los estudiantes pueden contestar este tipo de preguntas utilizando la simple adivinación, ¿Realmente lo hacen? Si contestan adivinando, pudieran estar pensando en un diseño de probabilidades respecto a apuntar a la respuesta correcta. ¿Qué hay que hacer para evitar la simple posibilidad de responder adivinando la respuesta?

Al corregir este tipo de ítems, se tiene la sensación de que la forma más utilizada es asignando un puntaje fijo a cada pregunta, ¿Es esto correcto, o debo puntuar las respuestas de acuerdo a la calidad de los procesos cognitivos que han debido permitir la respuesta del estudiante? ¿Es razonable elaborar una escala de puntuación diferenciada por el “peso” cognitivo del ítem confeccionado?

Responderemos ahora, a este tipo de cuestiones:

Estructura de los ítems de respuesta fija con una única alternativa correcta.

(6)

Figura 2. Estructura de un ítem de respuesta fija con alternativas.

ENUNCIADO: Es el planteamiento de la problemática que se espera sea resuelta por el evaluado. En el enunciado se expone la tarea de evaluación elegida (instrucciones), para dar cuenta del objeto evaluado y por tanto dirige el esfuerzo del evaluado para generar o seleccionar una respuesta. En algunos ítems el enunciado está contenido dentro del contexto y en otros el enunciado hace referencia a información que aparece –como contexto- de manera independiente en el instrumento. El enunciado, debe proveer una idea completa y clara de la tarea de evaluación solicitada, que contenga la información necesaria y suficiente para contestar el ítem.

CONTEXTO: Es la información necesaria para la resolución de una problemática. En algunas ocasiones el contexto no se explicita porque corresponde al marco de referencia del objeto de evaluación. En otras ocasiones el contexto puede ser un texto –por ejemplo, en ítems de comprensión de lectura-, una gráfica un dibujo, una tabla o cualquier otra forma de presentación de la información a partir de la cual se deriva el enunciado.

INSTRUCCIONES: Es la parte del Enunciado que contiene la tarea a ser desarrollada o resuelta por el evaluado. Debe ser clara, evitando la ambigüedad en la elección del proceder para que la intención de la respuesta escogida no esté contaminada con la poca claridad en la solicitud presentada para ser ejecutada por al evaluado.

(7)

El esquema muestra la vegetación

existente en diferentes elevaciones de una montaña Andina. De este esquema se puede concluir que:

A. La altitud depende de las características de la vegetación

B. Las características de la vegetación son independientes de las condiciones climáticas

C. Al variar las condiciones climáticas y la altitud, varían las características de la vegetación

D. La altitud y la vegetación no están relacionadas

Figura 3. Un ítem de Respuesta Fija con única respuesta.

Construcción de Ítems de Respuesta Fija tipo Elección Múltiple, con una única respuesta.

Las preguntas que se han hecho más arriba, pueden contestarse adecuadamente si nos atenemos a las reglas que se expresan a continuación. Interpretaremos adecuadamente estas reglas, para poder contestarnos las preguntas referidas.

Existe vasta experiencia en torno a la construcción y administración de este tipo de evaluaciones, en pos del desarrollo de ítems de alta calidad evaluativa5. Esta experiencia va desde el establecimiento de algunas reglas generales, hasta las que se expresan situaciones específicas referidas a cada parte de un ítem dado (Figura 3).

Reglas generales.

- El tipo de pregunta o examen esperado condiciona el cómo estudia el alumno; por tanto, el que construye la evaluación es el que finalmente muestra al estudiante el tipo de aprendizaje que tiene que ser adquirido6. Lo que hay que tomar en cuenta, es el

5

Cheung, D. Y Bucat, R. (2002): How can we construct good multiple choice ítems? Hong Kong: Sciences and Technology Education conference.

Haladyna, T. y Downing, S (1989): A taxonomy of multiple choice ítem writing rules. En Apply Measurement in Education. Vol. 1.

Haladyna, T. (1994). Development and validation of multiple choice test items. NJ: Lawrence Earlbaum Associates. Haladyna, T; Downing, S y Rodríguez, M. (2002): A Review of Multiple-Choice Item-Writing Guidelines for Classroom

Assessment. Applied Measurement in Education, 15(3): 309-334.

ICFES. (2009): Manual para la construcción de ítems tipo selección de respuesta. Bogotá: ICFES.

Cohen, A. y Woollack, J. (2004). Helpful tips for creating reliable and valid classroom test. En Handbook on Test Development. U. Wisconsin.

6_{Es un error, probablemente derivado de los tiempos en que nos estábamos formando como futuros}

profesionales o académicos que consideráramos un atributo del saber el poseer también una gran

Contexto Enunciado

(8)

nivel de procesamiento cognitivo exigido al estudiante de acuerdo al nivel de aprendizajes esperados por la Universidad (Ver referencia de Marzano, R.)

- Establecer claramente las condiciones de la evaluación, los requisitos exigidos, los niveles de Aprendizajes Esperados.

- Verificar que en todo el instrumento (portada, textos, instrucciones, ítems, etc.) no existan errores gramaticales, de puntuación, de ortografía o de abreviaturas.

- Utilizar un lenguaje claro, preciso y directo que permita reducir al mínimo el tiempo invertido por el estudiante en leer cada ítem y la prueba en general.

- Balancear la dificultad de los ítems para que el instrumento cubra los niveles de habilidad de la población evaluada satisfactoriamente. Un instrumento en el que todos o la gran mayoría de los evaluados se encuentran mayoritariamente en los niveles de alta o baja puntuación, tiene un problema de construcción evaluativa. La prueba debe incluir preguntas de dificultad alta, media y baja para que toda la población pueda estar debidamente representada en la distribución.

- Planear la construcción de ítems contemplando el tiempo suficiente para la dedicación y las revisiones establecidas.

- Proponemos el construir instrumentos de evaluación que contenga un número suficiente de ítems, tales que permitan establecer una distribución normal de la población a ser evaluada. Diversas investigaciones señalan que un número reducido de ítems, no permiten discriminar finamente el rango medio de la población evaluada. Asimismo, un exceso de ítems construidos determina una tendencia al aplanamiento de la curva normal limitando al discriminación fina de los extremos de la curva; y, además, posibilita un aumento de puntaje en quienes menos dominio tienen del tema al comenzar a redundar los ítems sobre aspectos que ya han sido evaluados en el instrumento (aumentan la capacidad de respuesta acertada a los que no dominan el conocimiento solicitado). Todas estas razones, nos han indicado que el número de ítems a considerar en pruebas de respuesta fija con una única alternativa correcta no sea menor a 30 ni mayo de 40 ítems construidos. Cuando el instrumento posee otras secciones, tales como Verdadero-Falso y Respuesta Corta el número de ítems de respuesta fija puede disminuir a 20.

(9)

adivinación, esperando provocar un alerta en los estudiantes previniendo que estas conductas aparezcan. De igual manera, el utilizar 5 en vez de 4 o 3 alternativas de respuesta en los ítems, tiene que ver con el poder discriminar mejor a los que no saben realmente lo que está siendo evaluado preferentemente en el rango medio dela curva normal. Sin embargo, las investigaciones demuestran que la “copia” no es un recurso recurrente en universitarios, que depende en gran medida de la construcción del enunciado y claridad de las opciones de respuesta; y, el utilizar 5 en vez de 4 alternativas provoca más problemas de fiabilidad del instrumento que de evitación de la adivinación por parte de los estudiantes, los cuales se ven favorecidos con la aparición de un mayor número de alternativas por ítem (Rogers y Yang, 1996).

Nivel de complejidad o Complejidad de los ítems.

El objetivo principal de un instrumento de Evaluación de Aprendizajes no es el de identificar a los mejores estudiantes, dado que para eso solo tendríamos que diseñar un instrumento de alto nivel de dificultad; sino, evaluar a todos los estudiantes para caracterizar su nivel de aprendizaje y evaluar indirectamente el programa académico desarrollado. Por esta razón, es que las pruebas deben tener diferentes niveles de complejidad o dificultad en la construcción de sus ítems, para así dar la oportunidad a toda la población evaluada de poder llegar a ser caracterizada en cuanto al Aprendizaje que cada quien ha logrado. Se estima oportuno, construir las pruebas elaborando –al menos-, 3 niveles de dificultad en un mismo instrumento de evaluación educativa: bajo, medio y alto. Esta estimación del nivel de dificultad, está dado por el nivel de habilidad requerido por el participante para responder acertadamente a un ítem.

El nivel de habilidad requerido determinará el nivel de complejidad del ítem; es decir que a mayor habilidad mayor dificultad del ítem; en este sentido se podrían establecer tres niveles de complejidad nivel de dificultad alto, dificultad media y dificultad baja.

 Nivel de Dificultad Bajo, implica una aplicación sencilla de las competencias comunicativas y funcionales en la respuesta a la pregunta. Clasificarán todos aquellos ítems que cumplan con las siguientes características:

 El problema implica considerar solamente una variable

 El problema solamente tiene en cuenta una disciplina

 El problema es altamente común en el quehacer profesional

Se estima que el tipo de ítems lo responderían acertadamente entre el 70% y el 100% de los evaluados.

 Nivel de Dificultad Medio, implica una aplicación intermedia de las competencias comunicativas y funcionales en la respuesta a la pregunta. En este nivel se clasificarán todos aquellos ítems que tengan una o varias de las siguientes características:

 El problema implica considerar dos variables

 El problema implica un análisis multidisciplinario o interdisciplinario

(10)

Se estima que el tipo de ítems lo responderían acertadamente entre el 30% y el 70% de los evaluados.

 Nivel de Dificultad Alto, implica una aplicación compleja de las competencias comunicativas y funcionales en la respuesta a la pregunta. En este nivel se clasificarán todos aquellos ítems que tengan una o varias de las siguientes características:

 El problema requiere considerar el análisis de más de dos variables al mismo tiempo

 El problema requiere para su solución un análisis transdisciplinario

 El problema se encuentra con poca frecuencia en el quehacer profesional Se estima que el tipo de ítems lo responderían acertadamente entre el 10% y el 30% de los evaluados.

Nivel de Exigencia Cognitiva.

De manera subyacente al nivel de complejidad encontrado para responder acertadamente a cada ítem, se encuentra el nivel de exigencia cognitiva requerida por la persona para llegar a encontrar la respuesta correcta. Este nivel de exigencia cognitivo inferido (solicitado indirectamente al estudiante) en la evaluación, radica en la instrucción demandada para responder al ítem; y, lo referimos, al aporte hecho por Robert Marzano (2001) y colaboradores (Véase la tabla siguiente).

(11)

(12)

Reglas sobre la construcción del contenido de los ítems.

 Evitar la construcción de ítems que confundan al evaluado. Algunos estudios han encontrado situaciones en las cuales los evaluados perciben que los ítems son confusos, por alguna de las situaciones que se mencionan seguidamente:

- Tienen un contenido trivial, por lo que cuesta acertar a la idea principal. - Presentan información que es irrelevante, y distrae de la idea principal. - Presentan información ambigua en las opciones de respuesta.

- El ítem presenta una discriminación muy fina entre las opciones de respuesta.

- Los ítems presentan información o principios que son presentados en formas distintas a como han sido aprendidos por la población evaluada, en el proceso de aprendizaje.

 Verificar que cada ítem corresponda a una tarea de evaluación definida en la estructura de la prueba.

 Evitar la evaluación del mismo aspecto específico repetidamente, con varios ítems.

 Plantear una sola problemática en cada ítem.

 Evitar ítems que incluyan posiciones ideológicas o prejuicios.

 El ítem fue construido con un vocabulario poco adecuado para la población objetivo.

 Debe verificarse que cada ítem sea independiente, en cuanto a información, y no provea información para responder a otros ítems.

 Evitar, o derechamente NO utilizar ítems que aparezcan en las redes digitales, libros, revistas u otros documentos como base para construir los ítems de la evaluación. Construir textos originales.

 Evitar ítems sobre conocimientos muy específicos, que excedan el ámbito de lo que debe ser aprendido por el evaluado.

 Evitar los ítems donde se indague por las opiniones personales de los evaluados.

 Evitar ítems cuya respuesta válida se determine según la opinión de quien construyo la pregunta.

Reglas para construir el Enunciado de los ítems.

 Verificar que lo que es preguntado se puede reconocer claramente en el enunciado. Esto es, que el evaluado puede recurrir sin ambigüedades al contexto en que se asienta la tarea solicitada a cumplir; y, que la tarea propuesta se desprende claramente de lo expuesto en el enunciado.

 Evitar textos excesivamente largos. Diversas investigaciones demuestran que uno de los más importantes distractores de respuesta a ítems, son posibles de ser encontrados en la extensión del texto del enunciado de la pregunta que distrae de la tarea a ser cumplida por el evaluado.

 Redactar el enunciado en forma positiva, evitando al máximo las negaciones. De ser necesaria la negación (NO, EXCEPTO, NINGUNA, NADA, etc.) esta debe registrarse en mayúsculas y en “negrita”.

 Evitar la utilización de nombres y apellidos que identifiquen claramente a personas.

(13)

Como principio fundamental, hemos de tener en cuenta que en las preguntas mal formuladas suele haber pistas sobre cuál es la respuesta correcta o al menos indicaciones para descartar algunas alternativas incorrectas. Hay estudiantes que tienen una habilidad especial para descubrir pistas, es más, esta habilidad puede ser enseñada y aprendida incluso por los niños. Esta habilidad, reconocida por la capacidad responder bien a los ítems sin tener conocimiento suficiente tiene nombre propio (en inglés se denomina test-wiseness), y consiste en saber ver (intuir) que alternativas son probablemente correctas o incorrectas. Más genéricamente, lo que se ha comprobado es que las personas que la utilizan son capaces de descubrir pistas en las características y formato del test (incluso en la situación de ser evaluado: evaluador, ambiente, silencios,…) para mejorar su resultado. Esta habilidad es independiente de los conocimientos que pueda tener el que responde el test7.

Las investigaciones demuestran además, que no todas las normas de construcción de ítems son igualmente eficaces para todas las edades. Para universitarios, las normas más eficaces parecen ser estas cuatro:

1) Evitar falta de concordancia gramatical con la proposición del enunciado 2) Evitar que la respuesta correcta sea más larga, o más elaborada

3) Evitar emplear alternativas absurdas o ilógicas para el sentido común 4) Evitar el uso de determinantes muy específicos (siempre, nunca, etc.)

Rogers y Harley (1999)8 demuestran también que al aumentar la cantidad de alternativas en un ítem, aumentan también las pistas indebidas para rechazar alternativas falsas. Estas investigaciones con coherentes con otras que indican que cuando se eliminan las alternativas menos funcionales (las que no atraen ni a los que menos saben), aumenta la fiabilidad del test. Por otra parte, las investigaciones señalan que la calidad de discriminación de un ítem de respuesta única se establece en un número de alternativas no superior a 4 ni inferior a 3. De aquí, plantearemos la primera regla de la construcción de opciones de respuesta:

 Utilice preferentemente 4 alternativas por cada ítem construido. Esto le permitirá desarrollar más ítems (preguntas) para abarcar lo que pretende medir; y, aumentará la fiabilidad del instrumento construido. No utilice menos de 3 alternativas (lo que en muchas investigaciones se da como suficiente para discriminar el que sabe del que no sabe), dado que con solo 2 alternativas la probabilidad de acertar aumenta a un 50%, lo que reconocido casi de inmediato por los evaluados.

 Si la prueba tiene opciones de respuesta numérica, que están se presenten en orden de mayor a menos o de menor a mayor en toda la prueba.

 Tenga en cuenta que todas las opciones deben referirse al mismo contenido.

 Que las opciones de respuesta tengan una longitud similar, por lo menos que haya pares de opciones de longitud similar.

 No utilice como opción de respuesta: o Todas las anteriores

7

Rogers, T. y Yang, P. (1996): Test-Wiseness: Its Nature and Application. European Journal of Psychological Assessment. 12(3):247-259.

8

(14)

o Ninguna de las anteriores

o A y B son correctas (o cualquier combinación de alternativas)

Ya que este tipo de respuesta pertenece a los llamados Ítems de Respuesta Fija con Opciones Múltiples, y tienen otra forma de verificar su confiabilidad.

 No repetir en las opciones frases o palabras significativas contenidas en el enunciado.

 Equilibrar la posición de las opciones válidas o claves (respuesta correcta) de los diferentes ítems del instrumento, de manera que estén proporcionalmente distribuidas en toda la evaluación. (Haga un listado de los ítems y la posición de la respuesta clave y, después distribúyalas equilibradamente en el instrumento)

 Evite que la opción válida pueda ser identificada fácilmente, por contraste con las demás opciones. Evite que:

o La respuesta correcta tenga mayor longitud que las otras o Sea la proposición de mayor precisión o imprecisión

o Estar redactada en u tipo de lenguaje diferente (técnico o común) o Tener mayor nivel de generalización o de particularización

o Tener las mismas palabras que el enunciado

 Sea capaz de justificar adecuada y suficientemente cada una de las opciones de respuesta construidas (la respuesta válida y las respuestas erróneas), para garantizar que solo la opción válida es la que existe y que las otras son plausibles para quienes no dominan completamente la tarea de evaluación, pero, que las opciones erróneas no son la respuesta válida solicitada.

Ítems de Respuesta Fija tipo Elección Múltiple, con múltiples respuesta.

Este tipo de Ítems consta de un enunciado –y su contexto- y cuatro opciones de respuesta identificadas con numerales (1, 2, 3, 4). Una o varias de estas opciones pueden completar correctamente el enunciado. Este tipo de ítems responde a las siguientes características:

a) Una situación en la que es necesario considerar varias consecuencias posibles

b) Una situación en la que es necesario especificar una o más condiciones para definirla adecuadamente

c) Dos situaciones semejantes o disímiles con respecto a uno o más puntos de comparación

d) Un principio que puede aplicarse a más de una situación

e) Varias consideraciones que pueden conducir al mismo resultado.

(15)

A continuación encontrará preguntas que constan de un enunciado y cuatro opciones de respuesta. Una o varias opciones pueden completar correctamente el enunciado. Usted debe marcar su hoja de respuestas según el cuadro siguiente:

Marque A si las opciones 1,2 3 son correctas

Marque B si las opciones 1 y 3 son correctas Marque C si las opciones 2 y 4 son correctas Marque D si sólo la opción 4 es correcta

Marque E si todas las opciones son correctas

Aquí está la pregunta:

La investigación empírica ha encontrado que:

1. Las personas toman menos tiempo en el aprendizaje de un concepto cuando hay muchos atributos irrelevantes

2. En el aprendizaje de un concepto son mejores los ejemplos negativos que los positivos 3. En el aprendizaje de un concepto la velocidad de aprendizaje es una función directa del

número de atributos

4. Las personas toman más tiempo en el aprendizaje de un concepto cuando hay muchos atributos relevantes

Respuesta: A B C D E

No incluya distractores mutuamente excluyentes; y, no incluya las expresiones: “Todas las anteriores” o “ninguna de las anteriores”.

Construcción de Ítems de respuesta fija tipo Verdadero-Falso.

La literatura señala que estas preguntas son tan frecuentes como discutidas en la Evaluación de los Aprendizajes. Se les juzga de menor calidad que los ítems de más posibles respuestas. Sus críticas más acentuadas son: a) que la adivinación tiene mucho peso en estos ítems; b) que comprueban sobre todo conocimientos de memoria (información retenida); y, c) que con frecuencia son ambiguas, porque si se formula la afirmación con mucha claridad y matiz, se puede convertir claramente en falsa o verdadera.

(16)

Para disuadir el adivinar, puede utilizarse el mismo método de justificación de respuesta señalado en el punto anterior, que es una variante de lo utilizado por Gardner-Medwin (1995)9 quien solicitaba argumentar su grado de seguridad por la decisión tomada en la respuesta a los evaluados. Así la puntuación obtenida, no depende de la respuesta dad en sí; sino, más bien, de la forma en que justifica la decisión tomada. Haciendo de estos ítems, preguntas de media a alta complejidad de respuesta.

El que estas preguntas comprueben preferentemente conocimientos de pura retención de memoria también es discutible, porque depende de cómo se formule el ítem en cuestión. Aunque, es verdad que son más fáciles de construir para comprobar conocimientos de retención de memoria. Para autores especialistas en este tipo de ítems (por ejemplo Ebel, 197710) estas preguntas pueden ser útiles, discriminantes y pueden además estimular la capacidad de pensar del estudiantes (thought provoking); y, el que no sean buenas preguntas, solo parece depender de la forma como han sido redactadas o de la real intención buscada al formularlas.

Por otra parte, el que sean ambiguas es un llamado de atención al cómo hay que construirlas pues, no parece ser tan fácil el construirlas bien. Hay, más que nada, un problema de cuidado en la elaboración de estas preguntas. Su dificultad de construcción depende de dos factores, a saber:

1) Que la respuesta correcta sea en realidad verdadero o falso. 2) Que el ítem esté formulado positivamente o negativamente.

Varios estudios experimentales examinan la dificultad relativa de los ítems según estos dos factores, y es frecuente encontrar que:

Formulación del ítem Más fácil cuando la respuesta correcta es

Más difícil cuando la respuesta correcta es

Positiva Verdadero Falso

Negativa Falso Verdadero

De estos resultados y otros, parece ser que los ítems con formulación negativa son de hecho más difíciles cuando la respuesta correcta es verdadera.

En este tipo de ítems se consideran más discriminantes, y tienen por tanto mayor fiabilidad, aquellos cuya respuesta correcta es Falso que los que tienen como respuesta correcta Verdadero. La respuesta la han encontrado connotados psicometristas, quienes indican que es mayor la probabilidad de optar por la opción Verdadero cuando la opción de respuesta se juega al 50% de acierto (Cronbach; Larkins y Swint; Grosse y Wright), y cuesta más a las personas optar por la opción de Falso. Textos importantes de medición educacional

9

GARDNER-MEDWIN, A.R. (1995). Confidence Assessment in the Teaching of Basic Science. Association for Learning Technology Journal. 3: 80-85. Disponible en http://www.ucl.ac.uk/~ucgbarg/tea/altj.htm

10

(17)

recomiendan por este motivo incluir más preguntas (hasta un 67%) cuya respuesta sea Falso (Ebel, 1977. Pg. 231)

Comparación entre ítems de Verdadero-Falso con los de selección múltiple. Los ítems de V-F, tienden a ser:

a) Más fáciles (se acierta más adivinando) b) Manos discriminantes

c) La fiabilidad de todo el test es menor, manteniendo constante el número de ítems de comparación.

La menor fiabilidad es reconocida ampliamente en la literatura científica del tema, y tiene que ver con la probabilidad de acierto en preguntas con dos alternativas de respuesta con respecto a las que tienen tres o más (manteniendo constante el número de preguntas). Esto, se encuentra muy comprobado experimentalmente11. Para conseguir una fiabilidad suficiente, y reducir el influjo de la adivinación hacen falta más ítems (se sugieren 5 ítems de V-F por cada 3 de selección múltiple, para obtener una fiabilidad comparable). Con solo dos alternativas (test completo de V-F) se han sugerido hasta 150 ítems para conseguir una fiabilidad adecuada que permita tomar decisiones sobre los examinados (Downing, 199212).

Los ítems de V-F, se responden usualmente en un tiempo menor; estimándose, una medida de 3 ítems de V-F por cada dos ítems de selección múltiple (Frisbie, 1977; Downing, 1992).

La recomendación es, utilizar este tipo de ítems en sus evaluaciones no solo para comprobar evocaciones de la memoria; sino, apostar por ítems que permitan al estudiante tomar decisiones respecto a lo que se le pregunta.

Evaluación primaria de Niveles de Competencia y Aprendizaje Esperados (Acciones

competenciales).

La calidad de las evaluaciones del aprendizaje en la Educación Superior hoy en día, se

establece –en muchas instituciones-, de acuerdo a la forma como los Aprendizajes Esperados satisfacen la adquisición de logros educativos referidos a las Competencias que definen al

11

FRISBIE, DAVID A. (1973): Multiple Choice versus True-False: a Comparison of Reliabilities and Concurrent Validities. Journal of Educational Measurement. 10: 297-304.

EBEL, ROBERT L. (1975): Can Teachers Write Good True-False Items? Educational and Psychological Measurement.

12: 31-35.

LORD, FREDERIC M. (1977a). Optimal Number of Choices per Item: A Comparison of Four Approaches, Journal of Educational Measurement. 14: 33-38.

STRATON, R.G. and CATTS, R.M. (1980). A Comparison of Two, Three and Four-Choice Items Tests Given a Fixed Total Number of Choices. Educational and Psychological Measurement. 40: 357-365.

GROSSE, M.E. and WRIGHT, B.D. (1985): Validity and Reliability of True-False Items. Educational and Psychological Measurement. 45: 1-13.

12

(18)

Profesional y al egresado de la Institución. Cualquiera que sea la forma de como Ud. define el término Competencia, esta tendrá que referirse a realizaciones o actuaciones en las que podrá destacarse y diferenciarse (o no, de acuerdo a la apropiación de la estandarización buscada) la persona al desempeñarse ante tareas requeridas para su ámbito profesional que ha buscado conseguir.

De esta forma, las competencias profesionales universitarias se caracterizan más que nada por realizaciones que rescatan procesos cognitivos que se estimulan en la preparación

universitaria. De estos, se reconoce en el pregrado:

Las acciones Interpretativas: Que hacen referencia al fenómeno de la comprensión del sentido de un texto, una proposición, un problema, una gráfica, un mapa, o un esquema, los

argumentos en pro o en contra de una teoría o una propuesta, entre otras. Se funda en la reconstrucción local y global de un texto, y el reconocimiento de situaciones problemáticas relacionadas o implicadas en los diversos sentidos que circulan en distintos contextos. Las preguntas que hacen referencia a esta competencia se caracterizan por contener

conectores del tipo: de lo anterior se infiere, permite inferir que, el autor quiso decir, el texto quiere decir, se puede deducir que, lo anterior significa que. Y, responden a realizaciones del tipo: Recuerdo, Comprensión y Aplicación.

El evaluado debe realizar las siguientes acciones:  Comprender el mensaje global de un texto.

 Entender el sentido de un enunciado dentro de un contexto.

 Identificar un problema o situación.

 Reconocer los diferentes elementos de un problema.

 Establecer relaciones entre procesos, conceptos o situaciones

 Establecer información relevante para resolver un problema.

 Clasificar en grupos o clases las cosas o fenómenos estudiados.

 Inducir aplicación de lo observado a situaciones análogas no observadas.

 Derivar de lo particular a lo general

 Sustituir un objeto de estudio por símbolos

 Entender secuencias a partir de datos o proposiciones iniciales.

Las acciones Argumentativas: Esta capacidad, tiene como finalidad defender con razones o argumentos una tesis, es decir, una idea que se quiere probar o sustentar una hipótesis; es organizar juicios para persuadir o disuadir. Presenta tres momentos fundamentales: Introducción a la idea que se pretende defender; Desarrollo o argumentación global, y, Conclusión en la que se afirma la tesis.

(19)

Las opciones de respuesta pueden ser justificaciones de lo planteado en el enunciado, para que el aspirante identifique el argumento que más se ajuste con el planteamiento.

En el desarrollo de una prueba de competencias funcionales, o para evaluar desempeño competente, el evaluado o aspirante debe ejecutar las siguientes acciones:

 Sustentar una idea.

 Razonar analógicamente basado en la comparación.

 Razonar de manera deductiva sacando conclusiones particulares de hechos o situaciones globales.

 Razonar de manera inductiva desde los hechos concretos hasta constituir situaciones generales.

 Organizar las razones a favor o en contra del problema o tesis que se defiende.

 Explicar unos conocimientos por medio de otros.

 Comprobar racionalmente con fundamento en afirmaciones o negaciones, falseadas o verificadas.

 Proceder a través de operaciones que den a conocer si son determinadas cualidades del objeto del estudio.

 Emitir juicios de valor sobre algo.

 Cuestionar dos o más conceptos, mostrando sus diferencias.

 Ratificar algo dándose por cierto con juicios validados

Las acciones Propositivas: Acciones de generación de hipótesis, de resolución de problemas, de establecimiento de regularidades y generalizaciones, de elaboración de alternativas de explicación a un evento, a un conjunto de eventos, o a una confrontación de perspectivas presentadas en un texto, entre otras. La característica esencial de la competencia propositiva es la generación o producción de un sentido nuevo que no es evidente en el texto sino que es producto de la confrontación, la argumentación y la interpretación y de las alternativas

planteadas para la resolución del problema en cuestión o a una confrontación de perspectivas presentadas en un texto, entre otras.

Las preguntas de este tipo de competencia contiene conectores del tipo: una alternativa frente a lo anterior es, una solución es, una propuesta a lo anterior, una alternativa para solucionar esta situación es, la mejor opción, la mejor alternativa, un primer mecanismo puede ser. Y, responden a realizaciones del tipo: Evaluación y Juicio.

Para evidenciar esta competencia se requiere desarrollar las siguientes acciones por parte del estudiante cuando presente la prueba:

 Plantear procedimientos para resolver problemas y hallar la solución más adecuada de acuerdo con el contexto.

 Establecer regularidades y generalizaciones.

 Evaluar la relación CAUSA – EFECTO en un determinado problema.

(20)

Universidad Autónoma de Chile Análisis de la Estructura de la Prueba.

En las evaluaciones actuales, referidas a este tipo de pruebas suele llevarse el análisis de la Estructura de la Prueba a una tabla de múltiples entradas, en la cual se establece el nivel de dificultad de cada ítem versus el tipo de Acción competencial planteada, en términos de una perspectiva basada en la adquisición progresiva de competencias para la vida universitaria. La Matriz de Análisis se muestra a continuación:

TEMAS Estadística Descriptiva Estadística Inferencial TOTAL

Subtemas Dificultad Competencia Tipo

Dispersión A M B

Med. Tend. Central A M B

Variabilidad A M B

Correlación A M B

Interpretativa Única RTA Múltiple RTA

Argumentativa Única RTA

Múltiple RTA

Propositiva Única RTA

Múltiple RTA

(21)

Facultad de Medicina, Sede Talca Universidad Autónoma de Chile DESPUÉS DE CONSTRUIR LOS ÍTEMS.

Revisión sistemática y Montaje de la Prueba.

Aun cuando una prueba no es simplemente un conjunto de ítems, desde la aproximación que se maneja en este documento, su eficacia, confiabilidad y validez están primordialmente determinadas por la bondad de los ítems que la componen. La literatura especializada resalta cinco (5) aspectos que deben revisarse de cada pregunta previo ensamblaje y aplicación de la prueba ((Wesman; 1971), (Mehrens & Lehman, 1982)), (Dirección Nacional de Administración Judicial, 1991) y (Thorndike, 1995), entre muchos otros). Algunos de ellos resultan de mayor o menor interés dependiendo del tipo y objetivo de la prueba. Estos son:

1. Aspectos Formales: Como la redacción, la precisión de las instrucciones, la claridad en la presentación de la tarea, adecuación del lenguaje al nivel de la población y otros dependiendo del tipo de prueba.

2. Pertinencia: Entendida como la relación del ítem con lo que la prueba pretende medir, se considera que un ítem es pertinente si está en armonía con el plan general de la prueba. Evaluar la pertinencia de un ítem es establecer si pertenece o no al dominio definido o si, de acuerdo con la teoría, es o no una manifestación del atributo que mide la prueba.

3. Importancia o Relevancia: Hace referencia al contenido específico de la pregunta en relación con la estructura de prueba; se asimila a significancia en contraste con detalles superficiales, observaciones incidentales o comentarios tangenciales de acuerdo con la definición del dominio o atributo. La estructura de prueba indica los aspectos generales que se consideran importantes dentro de la misma pero es el constructor de los ítems quien tiene la responsabilidad de seleccionar aquellos aspectos específicos que considere importantes, de acuerdo con el dominio o atributo que se pretenda medir.

4. Dificultad: Entendida como una apreciación subjetiva y a priori del nivel de maestría o magnitud del atributo necesario para responder el ítem, obviamente esta apreciación de dificultad está en estrecha relación con las características de la población a la que va dirigida la prueba. Aunque existen procedimientos estadísticos para hacer estimaciones de la dificultad después de aplicado el instrumento, esta apreciación subjetiva puede resultar útil sobre todo si se tiene en cuenta que quienes construyen los ítems son expertos en los contenidos de la prueba.