Los inicios de la evaluación en Estados Unidos Primeros usos y abusos de las pruebas en Estados Unidos
DURANTE LA PRIMERA GUERRA MUNDIAL
7. analogías, y 8 información La figura 2.1 presenta
algunos reactivos característicos del examen Alfa del Ejército.
La Beta del Ejército era una prueba grupal no verbal, diseñada para aplicarse a analfabetos y reclutas cuya pri- mera lengua no era el inglés. Constaba de varias pruebas visuales-perceptuales y motrices, como trazar un camino a través de laberintos y visualizar el número correcto de cubos presentados en un dibujo tridimensional. La figu- ra 2.2 describe la pizarra de demostraciones de las ocho partes del examen Beta.
Para tener en cuenta a los sujetos analfabetos y a los inmigrantes recién llegados que no comprendían el in- glés, Yerkes indicó a los examinadores que usaran méto- dos principalmente pictóricos y gestuales para explicar las pruebas a los posibles reclutas del ejército. El exami- nador y un asistente se ponían de pie sobre un estrado frente al grupo y recurrían a la pantomima para explicar cada una de las ocho pruebas.
La evaluación del ejército pretendía contribuir a aislar y eliminar a quienes fueran mentalmente incompetentes, clasificar a los hombres según su capacidad mental y ayudar en la ubicación de los hombres competentes en puestos de responsabilidad (Yerkes, 1921). Sin embargo, no queda claro si el ejército en realidad utilizó las grandes cantida- des de datos proporcionados por Yerkes y sus entusiastas ayudantes. La lectura cuidadosa de sus memorias revela que Yerkes hizo poco más que producir testimonios fa- vorables de los oficiales de alto rango. En general, en sus memorias afirma que si el ejército hubiera utilizado los datos de la evaluación, se habría ahorrado millones de dólares y habría incrementado su eficiencia.
Hasta cierto punto, la gran cantidad de datos de las pruebas tuvo poco efecto práctico sobre la eficiencia del ejército debido a la resistencia de la mentalidad militar a la innovación científica. Sin embargo, también es cierto que los mandos militares tenían buenas razones para dudar de la validez de los resultados de las pruebas. Por ejemplo, un memorando interno describía el uso de la pantomima para dar las instrucciones del examen no verbal Beta:
En aras de hacer comparables los resultados de los distintos campamentos, se ordenó a los examinadores seguir una determinada serie detallada y específica de numeritos de ballet, los cuales no solo tenían el mérito de ser perfectamente incomprensibles y de no estar relacionados con la evaluación mental, sino que también daban una atmósfera mística sumamente confusa y distractora a todo el desempeño, lo cual impedía cualquier aproximación a la actitud que debería tener el sujeto mientras era examinado. (citado en Samelson, 1977)
Además, las condiciones de examen dejaban mucho que desear, ya que oleada tras oleada de reclutas entraban por una puerta, eran examinados y prácticamente se les sacaba a empujones por el otro lado. Decenas de miles de reclutas recibían un cero literal en muchas de las sub- pruebas, no porque fueran retardados, sino porque no
SEGUIMIENTO DE INSTRUCCIONES ORALES
Marque una cruz en el primer círculo y también en el tercero
{ { { { {
RAZONAMIENTO ARITMÉTICO Resuelva cada problema:
¿Cuántos hombres son cinco hombres y 10 hombres? Respuesta ( )
Si tres toneladas y media de carbón cuestan $21, ¿cuánto costarán cinco toneladas y media? Respuesta ( ) JUICIO PRÁCTICO
¿Por qué están cubiertas de nieve las montañas altas? Porque están cerca de las nubes.
Porque es raro que el sol brille sobre ellas. Porque ahí el aire es frío.
PARES DE SINÓNIMOS-ANTÓNIMOS ¿Las siguientes palabras son iguales u opuestas?
obsequio-donación ¿iguales u opuestas?
acumular-dilapidar ¿iguales u opuestas?
ORACIONES DESORDENADAS
¿Es posible reordenar estas palabras para formar una oración?
envidia malos malicia rasgos son y ¿verdadero o falso?
COMPLETAMIENTO DE SERIES DE NÚMEROS Complete la serie: 3 6 8 16 18 36 … … ANALOGÍAS
¿Qué opción completa la analogía?
lágrimas-pesar :: risas— alegría sonreír niñas sonrisa
granero-trigo :: biblioteca— escritorio libros papel bibliotecario
INFORMACIÓN Elija la mejor alternativa:
El páncreas se localiza en el/la abdomen cabeza hombro cuello
La batalla de Gettysburg se libró en 1863 1813 1778 1812
Nota: Los examinados recibían instrucciones verbales para cada subprueba.
● F I G U R A 2 . 1 Reactivos de muestra del Examen Alfa del Ejército.
Fuente: Reimpreso de Yerkes, R. M. (ed.) (1921). Psychological examining in the United States Army. Memoirs of the National Academy of Sciences, volumen 15. Reproducido con autorización de la Academia Nacional de Ciencias, Washington, DC.
● F I G U R A 2 . 2 La pizarra de demostraciones para las ocho partes del examen Beta.
Fuente: Reproducido de Yerkes, R. M. (ed.) (1921) Psychological examining in the United States Army. Memoirs of the National Academy of Sciences, volumen 15. Reproducido con autorización de la Academia Nacional de Ciencias,
podían comprender las instrucciones para responder a esos nuevos y enigmáticos instrumentos. Muchos de los reclutas se quedaban dormidos mientras los examinado- res daban instrucciones esotéricas y misteriosas por me- dio de la pantomima.
Por el lado positivo, las pruebas del ejército dieron a los psicólogos una enorme experiencia en la psicometría de la elaboración de pruebas. Se calcularon miles de coeficientes de correlación, incluyendo el uso destacado de correlaciones múltiples en el análisis de los datos de las pruebas. En muy pocos años la elaboración de pruebas dejó de ser un arte para convertirse en una ciencia.
● EVALUACIÓN EDUCATIVA TEMPRANA
Para bien o para mal, el grandioso esquema de Yerkes para evaluar a los reclutas del ejército contribuyó al ini- cio de la era de las pruebas grupales. Después de la Pri- mera Guerra Mundial, la industria, las escuelas públicas y las universidades se apresuraron a indagar acerca de las aplicaciones potenciales de esos sencillos instrumen- tos que casi cualquiera podía aplicar y calificar (Yerkes, 1921). Los psicólogos que habían trabajado con Yerkes pronto abandonaron el servicio y llevaron consigo a la industria y la educación su nueva idea de las pruebas es- critas de inteligencia.
Las pruebas Alfa y Beta del Ejército también se pu- sieron a la venta para uso general; en muy poco tiempo se convirtieron en los prototipos de una gran familia de pruebas grupales e influyeron en la naturaleza de las prue- bas de inteligencia, los exámenes de admisión a la univer- sidad, las pruebas de desempeño escolar y las pruebas de aptitud. Para mencionar solo una consecuencia específica de los exámenes del ejército, el National Research Council (Consejo Nacional de Investigación), una organización gubernamental de científicos, elaboró la Prueba Nacional de Inteligencia (National Intelligence Test) que a la larga se aplicó a siete millones de niños estadounidenses durante la década de 1920. En consecuencia, pruebas bien conoci- das como las escalas de Wechsler, las Pruebas de Aptitud Académica y el Examen de Registro de Graduados en rea- lidad tienen raíces que se remontan a Yerkes, Otis y las pruebas masivas de los reclutas del ejército durante la Pri- mera Guerra Mundial.
A comienzos del siglo XX se estableció el College En-
trance Examination Board (CEEB, Consejo de Exáme- nes de Admisión a la Universidad) con la finalidad de
contribuir a evitar la duplicación en la evaluación de los aspirantes a ingresar a las universidades estadouniden- ses. El formato de los primeros exámenes fue el ensayo de respuesta corta, pero esto cambió muy pronto cuan- do C. C. Brigham, un discípulo de Yerkes, se convirtió en secretario del consejo después de la Primera Guerra Mundial. En 1925 el Consejo de Universidades decidió desarrollar una prueba de aptitud académica que se emplearía en las admisiones a la universidad (Goslin, 1963). Los nuevos instrumentos reflejaron el formato objetivo, ahora familiar, en el que había que ordenar oraciones, completar analogías y colocar el siguiente número en una secuencia. En la década de 1930 se introdujo una máquina calificadora, lo que hizo las pruebas objetivas de grupo incluso más eficientes que antes. Esas pruebas evolucionaron luego en los exámenes actuales del Con- sejo de Universidades, en particular, las Pruebas de Aptitud Académica, que actualmente se conocen como Pruebas de Evaluación Académica.
Las funciones del CEEB más tarde fueron absorbidas por el Educational Testing Service (ETS, Servicio de Eva- luación Educativa), una organización sin fines de lucro que dirigió el desarrollo, la estandarización y la valida- ción de pruebas tan conocidas como el Examen de Regis- tro de Graduados, la Prueba de Admisión a la Escuela de Derecho y las Pruebas de Admisión a los Cuerpos de Paz.
Mientras tanto, Terman y sus colaboradores en Stanford estaban ocupados en el desarrollo de pruebas estandarizadas de logro. La Prueba de Logro de Stanford (Stanford Achievement Test, SAchT) se publicó por pri- mera vez en 1923 y en la actualidad todavía se utiliza una versión moderna de dicha prueba. Desde el inicio, la Prueba de Logro de Stanford incorporó principios psi- cométricos modernos, como el establecimiento de normas para las subpruebas que permitieran evaluar la variabili- dad intrasujeto y la elección de una muestra de estanda- rización muy grande y representativa.
● DESARROLLO DE LAS PRUEBAS
DE APTITUD
Las pruebas de aptitud miden capacidades más específi- cas y delimitadas que las pruebas de inteligencia. Por tradición, las pruebas de inteligencia evalúan un cons- tructo más global, como la inteligencia general, aunque existen excepciones a esta tendencia que se revisarán más adelante. En contraste, una única prueba de aptitud solo mide un dominio de capacidad, mientras que una
batería de múltiples pruebas de aptitud permite obtener puntuaciones en diversas áreas distintivas de capacidad.
El desarrollo de las pruebas de aptitud se quedó reza- gado respecto a las pruebas de inteligencia por dos razo- nes, una estadística y la otra social. El problema estadístico fue que a menudo se necesitaba una nueva técnica, el análisis factorial, para discernir qué aptitudes eran pri- marias y, por ende, distintas entre sí. Spearman (1904) inició la investigación sobre esta cuestión muy pronto, pero no se perfeccionó sino hasta la década de 1930 (Spearman, 1927; Kelley, 1928; Thurstone, 1938). Esta nueva familia de técnicas, el análisis factorial, permitió a Thurstone concluir que existen factores específicos de capacidad mental principal como la comprensión ver- bal, la fluidez de palabra, la facilidad con los números, la capacidad espacial, la memoria asociativa, la velocidad perceptual y el razonamiento general (Thurstone, 1938; Thurstone y Thurstone, 1941). En capítulos posteriores sobre la inteligencia y la evaluación de la capacidad se hablará más de este tema. Aquí, el asunto importante es que Thurstone y sus seguidores pensaban que las prue- bas globales de inteligencia no podían, por así decirlo, “desmenuzar la naturaleza”, por lo que se pensaba que instrumentos como la Stanford-Binet no eran tan útiles como las baterías de pruebas múltiples de aptitud para identificar las fortalezas y debilidades intelectuales de una persona.
La segunda razón del lento desarrollo de las baterías de aptitud fue la ausencia de una aplicación práctica para dichos instrumentos perfeccionados. No fue sino hasta la Segunda Guerra Mundial que surgió la necesidad apremiante de elegir candidatos altamente calificados para tareas muy difíciles y especializadas. Los requisitos para el trabajo de pilotos, ingenieros de vuelo y navegadores eran muy específicos y exigentes. Una estimación general de la capacidad intelectual, como la que efectuaban las prue- bas grupales de inteligencia empleadas durante la Prime- ra Guerra Mundial, no era suficiente para elegir buenos candidatos para la escuela de pilotos. Las fuerzas arma- das resolvieron este problema mediante el desarrollo de una batería especializada de aptitud conformada por 20 pruebas, que se aplicaban a los hombres que aprobaban las pruebas preliminares de selección. Esos instrumentos demostraron ser invaluables en la selección de pilotos, navegadores y artilleros, como se reflejó en las tasas mu- cho menores de fracasos de los hombres seleccionados por la batería de pruebas en comparación con los selec- cionados por medio de los antiguos métodos (Goslin, 1963). Dichas pruebas todavía se emplean con frecuen- cia en las fuerzas armadas.
● LA EVALUACIÓN VOCACIONAL Y DE LA PERSONALIDAD DESPUÉS DE LA PRIMERA GUERRA MUNDIAL
Si bien Galton, Kraepelin y otros habían utilizado méto- dos rudimentarios de evaluación como la técnica de aso- ciación libre antes de empezar el siglo XX, no fue sino
hasta la Primera Guerra Mundial que aparecieron las pruebas de personalidad con una forma parecida a su aspecto contemporáneo. Como sucede a menudo en la historia de la evaluación, fue de nuevo una necesidad práctica lo que impulsó este nuevo avance. La evaluación moderna de la personalidad empezó cuando Woodworth trató de desarrollar un instrumento para detectar a los reclutas susceptibles a la psiconeurosis. Prácticamente to- dos los programas, cuestionarios e inventarios modernos de personalidad están en deuda con la Hoja de Datos Per- sonales (Personal Data Sheet) de Woodworth (1919).
La Hoja de Datos Personales constaba de 116 pre- guntas que el sujeto debía responder subrayando Sí o
No. Las preguntas eran exclusivamente de la variedad
“evidente” y, en su mayoría, se relacionaban con sinto- matología bastante grave. Los siguientes son algunos reactivos representativos:
● ¿Las ideas corren por su cabeza de modo que no pue- de dormir?
● ¿Durante su niñez se le consideraba un mal muchacho? ● ¿Le molesta la sensación de que las cosas no son reales? ● ¿Siente un fuerte deseo de cometer suicidio?
Los lectores familiarizados con el Inventario Multifásico de Personalidad de Minnesota (Minnesota Multiphasic Per-
sonality Inventory, MMPI) seguramente reconocerán la
deuda que tiene ese inventario más reciente con el instru- mento de Woodworth.
El siguiente avance importante fue un inventario de neurosis, el Inventario de Personalidad de Thurstone (Thurstone Personality Schedule; Thurstone y Thurstone, 1930). Después de elegir cientos de reactivos que podían responderse en el formato de sí o no tanto del inventario de Woodworth como de otras fuentes, Thurstone los adaptó de manera racional en términos de cómo sería la respuesta típica del neurótico. Como reflejo de la incli- nación de Thurstone hacia el perfeccionamiento estadís- tico, este inventario fue uno de los primeros en usar el método de consistencia interna en el que cada posible reactivo se correlacionaba con la puntuación total en la escala identificada tentativamente para determinar si pertenecía a dicha escala.
De la prueba de Thurstone surgió el Inventario de Personalidad de Bernreuter (Bernreuter, 1931), el cual hacía una medición un poco más fina que su predeceso ra de cuatro dimensiones de la personalidad: tendencia neurótica, autosuficiencia, introversión-extroversión y dominio-sumisión. Una innovación importante en la ela- boración de la prueba fue el hecho de que un solo reactivo del instrumento podía contribuir a más de una escala.
Cualquier cronología de los inventarios de autoin- forme por fuerza debe incluir al Inventario Multifásico de Personalidad de Minnesota o MMPI (Hathaway y McKinley, 1940). Más adelante se revisan en detalle esta prueba y su revisión, el MMPI-2. Por ahora, bastará se- ñalar que las escalas del MMPI fueron elaboradas median- te el método iniciado por Woodworth, que comparaba las respuestas de sujetos normales y sujetos con proble- mas psiquiátricos. Además, el MMPI introdujo el uso de escalas de validez para identificar patrones de respuesta aleatorios o patrones falseados por el sujeto para dar una mala o una buena imagen de sí mismo.
● ORÍGENES DE LAS PRUEBAS PROYECTIVAS
El enfoque proyectivo se originó con el método de aso- ciación de palabras utilizado inicialmente por Francis Galton a finales del siglo XIX. Galton se concedía cuatro
segundos para proponer tantas asociaciones como fuera posible a una palabra estímulo y luego las categorizaba como representaciones recitadas como un loro, media- das por imágenes o representaciones histriónicas. Esta última categoría lo convenció de que las operaciones mentales estaban “completamente sumergidas por deba- jo del nivel de la conciencia”. Algunos historiadores han especulado incluso que la aplicación que hizo Freud de la asociación libre como herramienta terapéutica en el psi- coanálisis surgió del trabajo de Galton publicado en Bra-
in en 1879 (Forrest, 1974).
Wundt y Kraepelin continuaron el trabajo de Galton en Alemania y, finalmente, Jung (1910) se encargó de llevarlo a buen término. La prueba de Jung constaba de 100 palabras estímulo, ante cada una de las cuales el sujeto debía responder tan rápido como pudiera con la prime- ra palabra que le viniera a la mente. Kent y Rosanoff (1910) dieron al método de asociación un carácter dis- tintivamente estadounidense al tabular las reacciones de 1,000 sujetos normales a una lista de 100 palabras es- tímulo. Esas tablas fueron diseñadas con la finalidad de
conformar una base para comparar las reacciones de los sujetos normales y los “dementes”.
Mientras los estadounidenses seguían el enfoque empírico para la evaluación objetiva de la personalidad, un joven psiquiatra suizo, Hermann Rorschach (1884- 1922), desarrollaba un medio completamente distinto para el estudio de la personalidad. Rorschach recibió una fuerte influencia del pensamiento junguiano y psi- coanalítico, por lo que era natural que su método se en- focara en la tendencia de los pacientes a revelar de manera inconsciente sus conflictos más íntimos cuando respon- dían a estímulos ambiguos. La prueba de Rorschach y otras pruebas proyectivas que se analizan más adelante se basaron en la hipótesis proyectiva: cuando se respon- de a estímulos ambiguos o no estructurados, de manera inadvertida revelamos nuestras necesidades, fantasías y conflictos más recónditos.
Rorschach estaba convencido de que la gente revela- ba dimensiones importantes de la personalidad en sus respuestas al ver manchas de tinta. Dedicó años al desa- rrollo del conjunto correcto de 10 manchas de tinta y analizó de manera sistemática las respuestas de amigos personales y distintos grupos de pacientes (Rorschach, 1921). Por desgracia, murió apenas un año después de que se publicó su monografía y la tarea de concluir su trabajo quedó en manos de otros. Más adelante en el tex- to se revisan los avances en la prueba de Rorschach.
Mientras la prueba de Rorschach se desarrolló ori- ginalmente para revelar los mecanismos más recónditos del sujeto anormal, la Prueba de Apercepción Temáti - ca o TAT (por las siglas de Thematic Apperception
Test) (Morgan y Murray, 1935) se desarrolló como un
instrumento para estudiar la personalidad normal. Por supuesto, desde entonces ambas pruebas han sido am- pliadas para examinar todo el espectro de la conducta humana.
La TAT consta de una serie de imágenes ambiguas que muestran a una o más personas que participan en una interacción. Se muestra una imagen a la vez al sujeto y se le pide que relate una historia acerca de ella; se le indica que sea tan teatral como pueda, que analice pen- samientos y sentimientos y que describa el pasado, pre- sente y futuro de lo que se muestra en la imagen.
Murray (1938) creía que las necesidades subyacentes de la personalidad, como la necesidad de logro, serían reveladas por los contenidos de los relatos. Aunque se desarrollaron numerosos sistemas de calificación, los clínicos por lo general han confiado en un análisis im- presionista para dar sentido a los protocolos de la TAT.
Las aplicaciones modernas de la TAT se analizan en un capítulo posterior.
La técnica de completamiento de frases también comenzó por esa época, con el trabajo de Payne (1928). Han existido numerosas extensiones y variaciones de la técnica, la cual consiste en dar a los sujetos una frase como “Me aburro cuando ________”, y pedirles que com - pleten la oración. Más adelante se revisan algunas aplica- ciones modernas; por ahora baste mencionar que aún sigue vigente el problema de calificación e interpreta- ción que exasperó a los primeros encargados del desa-