PRUEBAS
DE INTELIGENCIA
Y APTITUDES
PRUEBAS
DE INTELIGENCIA
Y APTITUDES
Primera edición: junio de 1996
MANUAL DE PRUEBAS DE
INTELIGENCIA Y APTITUDES
© Universidad Iberoamericana
© Kathia Maria Costa Neiva
© Plaza y Valdés, S.A. de C.V.
Derechos exclusivos de edición reservados para
todos los países de habla española. Prohibida la reproducción
total o parcial por cualquier medio, sin autorización
escrita por los editores.
Este libro es una coedición entre
la Editorial Plaza y Valdés y la
Universidad Iberoamericana
Editado en México por Plaza y Valdés editores
Manuel María Contreras No. 73 Col. San Rafael
México D.F. Tel. 705-00-30
ISBN: 968-856-466-4
HECHO EN MEXICO
A mi madre
de quien heredé el ser emprendedora y
perseverante
A Edi, Tais y Tiago
quienes siempre me han apoyado en mis
proyectos profesionales
Prólogo
9
Introducción
11
Agradecimientos
13
PRIMERA PARTE: Aspectos métricos de las
pruebas psicológicas
15
Capítulo I Las pruebas psicológicas
17
Capítulo II Construcción y evaluación de las
pruebas psicológicas
27
Capítulo III Unidades de calificación de las pruebas
psicológicas
47
SEGUNDA PARTE: Inteligencia
59
Capítulo IV La inteligencia
61
Capítulo V Escala de Inteligencia Stanford-Binet 67
Capítulo VI Escala de Inteligencia para adultos
de Wechsler (WAIS)
75
Capítulo VII Escala de Inteligencia para el nivel
escolar de Wechsler (WISC)
105
Capítulo VI
II Escala de Inteligencia para los niveles
preescolar y primario de Wechsler (WPPSI) 127
Capítulo IX Beta II-R
137
Capítulo X Test de Matrices Progresivas (Raven) 145
Capítulo XI Test de Dominós
153
Capítulo XII Test de Goodenough
159
TERCERA PARTE: Aptitudes
171
Capítulo XIII Las Aptitudes
173
Con el propósito de que los estudiantes de psicología pongan en práctica los conocimientos teóricos adquiridos previamente sin ambigüedades ni contradicciones, el presente manual de pruebas de inteligencia y aptitudes, pretende organizar y aclarar dos de las variables más investigadas dentro de la psicología.
Cabe señalar que los tests psicólogicos son de las herramientas más utilizadas en el quehacer profesional, por lo que resulta imprescindible conocer el orden y desarrollo de las pruebas, aplicar los aspectos metodológicos implicados en la medida, aplicar, interpretar e integrar a una batería de pruebas y desarrollar una posición ética con respecto a su utilización.
Deseo felicitar a la Dra. Kathia Ma. Costa Neiva, ya que ha podido transmitirnos su experiencia acumulada como profesora de psicometría por 4 años y medio en esta Universidad.
Estoy seguro que el presente manual facilitará la comunicación entre maestros y alumnos y promoverá un aprendizaje significativo a todo aquel que lo consulte.
La idea de construir un manual sobre pruebas psicológicas surgió de mi experiencia como profesora de Psicometría de la Universidad Iberoamericana - México D.F. La necesidad de textos claros, organizados y resumidos que facilitaran la tarea de los profesores me llevó a la elaboración de este primer manual sobre Pruebas de Inteligencia y Aptitudes. Mi interés es que éste sea el primer manual de una serie sobre Pruebas Psicológicas.
Los tests psicológicos constituyen uno de los instrumentos básicos de trabajo del Psicólogo. Son utilizados en las distintas áreas de la Psicología: Clínica, Educativa, Industrial, Comunitaria. Son necesarios en tareas como: psicodiagnóstico, orientación vocacional, selección de personal, investigación, entre otras. Por ello, conocerlos, saber aplicarlos, evaluarlos, interpretarlos, y criticarlos es imprescindible.
El objetivo del presente manual es proveer a los Psicólogos y alumnos de Psicología una fuente de consulta, clara, sucinta y organizada sobre algunas de las pruebas de inteligencia y aptitudes más utilizadas. No se pretende, de manera alguna, que éste sustituya a los manuales de las pruebas. La intención es que sirva como una primera aproximación al conocimiento de éstas y que facilite la tarea de los psicólogos, en los momentos en que necesiten decidir sobre la utilización de una u otra prueba psicológica, proporcionando la información esencial para la toma de una decisión.
Este manual está dividido en tres partes. La primera parte —Aspectos métricos de las pruebas psicológicas— tiene como objetivo introducir al tema proveyendo la información básica sobre los tipos de pruebas y los procedimientos de construcción, evaluación y calificación de las mismas. Estas
informaciones son de gran importancia para la comprensión y análisis de las distintas pruebas que serán presentadas en las dos otras partes del manual.
La segunda parte —Inteligencia — provee una introducción al concepto de inteligencia y la información básica sobre varias de las pruebas de inteligencia frecuentemente utilizadas por los psicólogos.
La tercera parte —Aptitudes — esclarece sobre el concepto de aptitud y proporciona la información básica sobre algunas de las baterías de aptitudes múltiples más utilizadas.
Se espera que la presente obra, sea de gran utilidad a todos los profesionistas interesados en el campo de la Psicometría y que facilite su quehacer profesional.
Kathia Maria Costa Neiva Noviembre 1995
Deseo
manifestar mi agradecimiento a la Universidad
Iberoamericana y en especial al Dr. José Gómez del Campo,
director del Departamento de Psicología, por apoyar la
publicación de este manual; al Mtro. Antonio Tena Suck,
coordinador del Departamento de Psicología, por animarme
a escribirlo, por revisar cuidadosamente el manuscrito
origi-nal y aportar sugerencias interesantes y al Arq. Alejandro
Robles Oyarzun, subdirector de Difusión Universitaria, por
agilizar la publicación del mismo.
Deseo también agradecer a la Dirección General de
Orientación Vocacional de la UNAM y muy especialmente
a su director, Dr. Ramón Alberto Ruiz Tapia, por permitir
el acceso al material sobre la Prueba Diferencial de
Apti-tudes "PROUNAM" y autorizar la mención de dicha prueba
en este manual. Asimismo, agradezco al Dr. Lucio Cárdenas,
Jefe del Proyecto del PROUNAM, por su disponibilidad en
proveerme la información necesaria y revisar la parte del
manuscrito relacionada a esta prueba.
Por último, quisiera manifestar mi profundo agradecimiento
a todos mis alumnos de Psicometría que con sus comentarios,
dudas y cuestionamientos me motivaron e incentivaron a
escribir este manual.
ASPECTOS METRICOS DE
LAS PRUEBAS
LAS PRUEBAS PSICOLÓGICAS
Son muchas las definiciones propuestas para el término "prueba psicológica". Sintetizándolas, puede considerarse que una prueba psicológica es un instrumento de medición psicológica que posee tres características fundamentales:1. Sirve de estímulo para extraer un segmento de la conducta de un sujeto.
2. Es rigurosamente estandarizado, o sea se construye, se administra y se califica según reglas preestablecidas.
3. Permite comparar estadísticamente la conducta de un sujeto con un grupo de sujetos de una población definida y clasificarla cuantitativa, cualitativa y/o tipológicamente. Así, la medición de una conducta implica " l a utilización de determinados procedimientos (operaciones), según reglas especificadas, para obtener como resultado la asignación de valores numéricos a la ejecución de una persona" (Brown,
1980, p.8)
La función básica de las pruebas psicológicas es medir diferencias de conducta entre los individuos o diferencias en la conducta de un mismo individuo en distintos momentos (Anastasi, 1978). A. ORÍGENES
Aunque puede considerarse que Platón y Aristóteles fueron los pioneros de la medición psicológica, ésta adquirió importancia en el siglo XIX, con el aumento de la preocupación por la identificación y clasificación de retrasados mentales.
sobre retraso mental, sus procedimientos para constituir algún sistema de clasificación de los diferentes grados de retraso y las técnicas de adiestramiento muscular y de los sentidos propuestos por Seguin en 1866, constituyeron los primeros pasos para la elaboración de una medida de la inteligencia.
Sin embargo, fue Galton, en Inglaterra, quién, interesado en estudiar la herencia humana, ideó las primeras pruebas, para que fueran utilizadas en el laboratorio antropométrico que estableció en la Exposición Internacional de 1884. Estas, eran pruebas sensomotoras que medían básicamente agudeza visual y auditiva, energía muscular, tiempo de reacción, etc. El creía que las mismas podían servir para medir la capacidad intelectual. Galton contribuyó aun al desarrollo de métodos estadísticos para análisis de datos sobre las diferencias individuales y estuvo entre los primeros a aplicar las escalas de estimación (rating scales), los métodos de cuestionario y la técnica de asociación libre. En sus libros El genio Heredado e Investigación del desarrollo de las facultades humanas relató sus ideas sobre las diferencias individuales y sus primeros intentos por medirlas.
La expresión test mental apareció por primera vez en un artículo escrito por el psicólogo americano Cattell en 1890, donde describía las pruebas aplicadas a estudiantes universitarios para evaluar su nivel intelectual. Estas pruebas medían capacidades sensoriales y otras funciones simples como: velocidad de movimiento, sensibilidad al dolor, energía muscular, agudeza de la vista y del oído, discriminación de pesos, tiempo de reacción, memoria, etc.
En este mismo período, el psicólogo experimental Alfred Binet, investigó activamente, junto con sus colaboradores, métodos de evaluación de la capacidad intelectual. Pero fue en 1905 que, comisionado por la Secretaria de Educación Pública del gobierno francés para estudiar la educación de
niños retrasados mentales, elaboró junto con Simon la primera escala Binet-Simon. Esta escala contenía 30 problemas en orden creciente de dificultad que medían, entre otras, funciones como: razonamiento, juicio y comprensión. En la segunda escala (1908), se aumentó el número de tests, aunque se eliminaron algunos de la primera versión considerados no satisfactorios. Además, se agruparon los tests en niveles de edad, lo que permitió que la puntuación obtenida por un niño pudiera ser expresada como una edad mental (edad de los niños normales cuya ejecución se igualaba). La 3a versión
(1911) presentó cambios menores: se añadieron tests en varios niveles de edad y la escala se extendió hasta el nivel adulto. El Binet-Simon obtuvo gran éxito, habiendo sido traducido y adaptado a varios idiomas. La revisión más conocida fue realizada en E. U. A. por Terman en la Universidad de Stanford y se llamó Stanford-Binet (1916). En esta última fue utilizada por primera vez la noción de cociente de inteligencia (C.I.) obtenido por la fórmula: C.I.= Edad Mental/ Edad cronológica x 100. Otra revisión fue hecha en 1912 por Kuhlmann, quién extendió la escala hasta el nivel de edad de 3 meses.
Con el desarrollo de los tests surgieron las primeras oficinas de Orientación Vocacional: Munich (1902), Francia (1906), E.U.A. (1908), Bélgica (1914), España (1916), Inglaterra (1920), etc.
Los tests colectivos de inteligencia aparecieron en 1917, cuando los E. U. A. decidieron participar en la primera guerra mundial y necesitaron clasificar intelectualmente millón y medio de reclutas. Los más utilizados fueron el Alfa y Beta, el primero se destinaba a la población general y el segundo era empleado con analfabetos y extranjeros que no dominaban el inglés. La segunda revisión del Beta (Beta II-R) es utilizada actualmente.
experimentaron un gran avance. Además de los tests de inteligencia, que eran principalmente v e r b a l e s , se desarrollaron tests de aptitudes específicas, de rendimiento y de personalidad.
Los tests de aptitudes específicas fueron construidos sobre todo para la orientación y selección profesional. Los más utilizados medían aptitudes mecánicas, burocráticas, musicales y artísticas. Los avances metodológicos, principalmente el análisis factorial, aportaron mucho a la elaboración de tests y en especial al desarrollo de las baterías de aptitud múltiple, que aparecieron a partir de 1945. Otra vez la labor de los psicólogos militares en la segunda guerra mundial fue determinante para la evolución de las pruebas psicológicas.
B. TIPOS DE PRUEBAS
Las pruebas psicológicas pueden clasificarse desde diversos puntos de vista. Compilando las ideas de algunos autores (Morales, 1973; Anastasi, 1978; Brown, 1980) se proponen las siguientes dimensiones de clasificación:
1) Según la conducta que miden: • Pruebas de inteligencia • Pruebas de aptitudes/habilidades • Pruebas de personalidad/temperamento • Pruebas de intereses/preferencias • Pruebas de valores • Pruebas de actitudes • Pruebas de rendimiento • Pruebas psicomotoras • Pruebas situacionales 2) Según el objetivo:
examinado su máximo rendimiento en las distintas tareas que componen la prueba. Este es el caso de las pruebas de inteligencia, habilidades, aptitudes específicas o múltiples y de rendimiento.
Pruebas de ejecución o rasgos (ejecución típica) -Estas también son llamadas pruebas de clasificación tipológica o cualitativa. En esta clasificación se sitúan las escalas o inventarios de personalidad, tests de ajuste, de temperamento, de intereses o preferencias, de valores, de actitudes, técnicas proyectivas, pruebas situacionales, etc.
3) Según la forma o el tipo de respuesta exigida: • Pruebas objetivas - Son aquellas en que el examinado elige una respuesta entre varias alternativas (reactivos de comparación, verdadero/falso o elección múltiple). Este es el caso de las pruebas de inteligencia y aptitudes.
- Pruebas subjetivas - Son aquellas en que el sujeto proporciona libremente la respuesta, como en las pruebas de personalidad, especialmente en las proyectivas como Rorschach, TAT (Prueba de Apercepción Temática), Frases Incompletas de Sacks, etc.
4) Según la forma de administración: • Pruebas de aplicación individual • Pruebas de aplicación colectiva • Pruebas autoadministrables 5) Según la libertad de ejecución:
• Pruebas de poder - Son aquellas que exigen que el sujeto emplee toda su capacidad, realice lo más que pueda. El tiempo límite a veces es controlado, pero cuando esto sucede, se considera que éste es suficiente para que el sujeto demuestre su máxima capacidad.
ejecute la tarea asignada, lo más rápido posible. La duración de la prueba es rigurosamente controlada, existe un tiempo límite estricto.
6) Según el material utilizado en la prueba: • Prueba de lápiz-papel
• Prueba completamente verbal
• Prueba de ejecución (material visomotor)
• Pruebas mixtas (combinación de diferentes materiales) 7) Según la forma de dar las instrucciones:
• Orales • Escritas
8) Según la forma de calificación: • Manual
• Informatizada
9) Según la población a la que se destina: • Pruebas para bebés (baby-tests)
• Pruebas para niños preescolares • Pruebas para niños escolares • Pruebas para adolescentes • Pruebas para adultos
• Pruebas que se aplican a dos o más etapas del desarrollo Una prueba psicológica combina varias de estas dimensiones (de inteligencia, para adultos, de poder, verbal, etc.) o diferentes aspectos de una misma dimensión (prueba verbal y de ejecución, para adolescentes y adultos, etc.)
C. USOS DE LAS PRUEBAS
• Evaluación: por ejemplo en el caso de evaluarse el
rendimiento académico de alumnos.
• Clasificación: cuando, por ejemplo, se clasifica
intelectualmente a los niños de un determinado grado escolar.
• Selección: cuando se seleccionan candidatos para un
puesto o alumnos para la universidad.
• Diagnóstico: cuando se busca estudiar áreas del
comportamiento de un sujeto para detectar o no dificultades
específicas.
• Investigación: cuando se busca verificar hipótesis, como
por ejemplo, si el nivel de ansiedad de jóvenes drogadictos
es más alto que el de jóvenes no drogadictos.
Se constata pues, que las pruebas psicológicas pueden
ser utilizadas en las distintas áreas de la Psicología: clínica,
educacional, industrial y social. Algunas son específicas de
una sola área, otras pueden servir a cualquiera de ellas.
En el área clínica, las pruebas no solo son utilizadas
bási-camente para diagnosticar aspectos del comportamiento
normal y patológico, sino también para evaluar intervenciones
terapéuticas.
En el área escolar, son muchos los empleos: clasificación
de alumnos (nivel intelectual, rendimiento escolar),
homogeneidad de los grupos, detección de problemas de
aprendizaje, orientación vocacional, evaluación psicomotora,
etc.
En el área industrial son utilizadas para selección,
clasificación y promoción de personal, evaluación de
capacitación, evaluación de productividad y calidad del
trabajo, evaluación de la propia organización, etc.
En el área social son empleadas sobre todo para comprender
y evaluar los procesos grupales y los patrones culturales y sociales.
Finalmente, en cualquiera de estas áreas las pruebas
psicológicas pueden ser utilizadas con fines de investigación
científica.
D. ASPECTOS ÉTICOS
Son muchas las medidas adoptadas para controlar el uso inadecuado de las pruebas psicológicas. El Código de Etica Profesional del Psicólogo Ethical Principles of Psycholo-gists and Code of Conduct y el Standards for Educational and Psychological Testing, ambos editados por la A.P.A. (American Psychological Association), contienen varios principios que reglamentan la publicación, distribución y utilización de las pruebas psicológicas. Todo psicólogo debe tener conocimiento de estos principios y cuidar que los mismos sean rigurosamente cumplidos, puesto que, son éstos los que permiten conservar la credibilidad en las pruebas. En seguida se mencionan algunos puntos éticos importantes apuntados por Anastasi (1978):
• La venta, distribución y utilización de los tests debe restringirse a personas calificadas para ello.
• No debe venderse un test en el mercado sin que éste esté suficientemente validado a través de investigaciones.
• No deben publicarse en periódico, revista o libro popular, ni tests ni parte de ellos.
• No deben realizarse tests por correo, ni tampoco enviar resultados de los mismos.
• La a p l i c a c i ó n , calificación, i n t e r p r e t a c i ó n y comunicación de los resultados de tests debe ser realizada por persona debidamente calificada y entrenada.
• Todo test debe disponer de un manual que contenga informaciones detalladas sobre su aplicación, calificación e interpretación, datos precisos de confiabilidad y validez, además de tablas de normas con información sobre el número y naturaleza de los sujetos a partir de los cuales las mismas se establecieron. El manual debe ser una exposición objetiva sobre el test y no un instrumento de publicidad que busque presentarlo de manera más favorable.
• Es imprescindible aclarar al examinado sobre el objetivo del test y la forma en que serán utilizados sus resultados.
• Los resultados obtenidos en un test solo pueden ponerse a disposición de terceros bajo dos condiciones: a) el examinado debe consentir que se proporcione la información; b) la persona a la que se transmite debe tener una necesidad legítima de la información (por ejemplo, profesores o futuros patrones). Sin embargo, hay algunos casos especiales, como: a) en circunstancias que puedan implicar peligro para un individuo o sociedad, el psicólogo tiene obligación de revelar la información a profesionales o autoridades públicas; b) el psicólogo está obligado a revelar la información de un test a los padres o guardianes de un menor o a las autoridades de su escuela.
Los puntos arriba mencionados no agotan las medidas propuestas en el Código de Etica Profesional del Psicólogo. Además, cada uno de ellos implica discusiones éticas importantes y debe ser sujeto de reflexión por parte de todo psicólogo o estudiante de Psicología. Proteger la intimidad de sus clientes y la credibilidad de su material de trabajo es parte del quehacer profesional del psicólogo.
Referencias bibliográficas
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)
Madrid: Editorial Aguilar.
Brown, F.G. (1980). Principios de medición en Psicología y Educación. México D.F.: Editorial El Manual Moderno. Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a
CONSTRUCCIÓN Y EVALUACIÓN DE LAS
PRUEBAS PSICOLÓGICAS
Toda
prueba psicológica es construida de tal manera que
represente o pueda predecir una determinada conducta. Según
Brown (1980) una prueba psicológica es una representación cuando
sus reactivos son similares a la conducta que desea medir y es
predictiva cuando sus reactivos, aunque no son similares a la
conducta, pueden predecirla.
Por lo tanto, la construcción de los reactivos de una prueba es
fundamental, así como su análisis y comprobación. Conocer
exactamente lo que se quiere medir es muy importante para la
construcción de "buenos reactivos". Al elaborarse una prueba,
se proponen inicialmente una buena cantidad de reactivos, de los
cuales solo se quedan aquellos que realmente miden lo que se
pretende medir. Bacher (1981) advierte sobre los errores sistemáticos
queocurren en la construcción de reactivos y hace varias sugerencias,
entre ellas: (a) el vocabulario debe ser simple, accesible a todos,
(b) se deben evitar los términos técnicos y palabras cuyo sentido
varíe según la región o el grupo social, (c) se deben evitar formulaciones
muy abstractas pues pueden ser mal comprendidas, (d) se deben
evitar reactivos muy largos, sobre todo cuando son formulados en
la forma interrogativa o cuando contengan negaciones, (d) en la
formulación de los reactivos, se debe evitar favorecer determinadas
respuestas volviendo las demás menos probables, (e) no debe
figurar en la formulación de un reactivo más de una idea pues,
es imposible saber a cuál de ellas contesta el sujeto.
No es el propósito de este manual proveer mayores detalles sobre la construcción de las pruebas sino informar sobre los diferentes procedimientos de evaluación y comprobación de las mismas, para que se puedan analizar los límites de éstas.
A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS El primer procedimiento para analizar los reactivos de una prueba consiste en aplicársela a una muestra de personas, similares a las que se pretenden examinar con la misma, para verificar la reacción de éstas ante el instrumento. Con esta aplicación puede verificarse el nivel de dificultad de la prueba, el poder de discriminación de sus reactivos así como ambigüedades en éstos.
El nivel de dificultad de la prueba depende de sus reactivos y de su distribución en la prueba (Anastasi, 1978). Este puede ser verificado a través de la distribución de las puntuaciones totales de una muestra de sujetos. Un nivel de dificultad normal proporciona una curva de distribución de las puntuaciones semejante a la curva normal (figura 2.1), donde hay una acumulación de sujetos en el centro (puntuaciones medianas) y una disminución gradual de sujetos al acercarse de los extremos de la curva (puntuaciones altas o bajas).
Figura 2.1: Curva de distribución normal
Si la prueba es muy difícil, la curva de distribución de las
puntuaciones de los sujetos presenta una acumulación en el extremo
inferior o sea gran número de sujetos con puntuaciones bajas (figura
2.2). Esto indica que faltan a la prueba suficientes reactivos fáciles.
Sin embargo, cuando la prueba es muy fácil, la acumulación de
puntuaciones se da en el extremo superior (puntuaciones altas) y
por lo tanto le faltan reactivos difíciles (figura 2.3).
Figura 2.2 Figura 2.3
Distribución desviada Distribución desviada
(a la izquierda) (a la Derecha)
Cuando sucede uno de los dos casos arriba mencionados suele
modificarse el nivel de dificultad de la prueba hasta que la gráfica
de distribución de las puntuaciones se aproxime a la curva normal.
Para tal, se pueden añadir reactivos más fáciles o más difíciles,
cambiar la posición de reactivos, eliminar o modificar reactivos,
revisar pesos o ponderaciones de las puntuaciones asignadas a
determinadas respuestas, etc. (Anastasi, 1978).
La verificación del poder discriminative de los reactivos es
hecha a través de un análisis estadístico que "indica la amplitud
con la que el reactivo mide lo que debe medir" (Brown, 1980,
p. 31). El procedimiento más común es el que, utilizando la calificación
de la prueba como medida de criterio, correlaciona las respuestas
a los reactivos individuales con las calificaciones totales obtenidas
en la prueba. Se supone que las personas que obtuvieron calificaciones
totales altas respondieron a un reactivo en forma correcta con mayor
frecuencia que aquellas que obtuvieron calificaciones totales bajas.
Si esto ocurre, el reactivo es considerado "bueno", o sea que
discrimina relativamente bien lo que se desea medir.
Un tercer procedimiento en el que se verifica el porcentaje de personas que seleccionan cada una de las respuestas alternativas de un reactivo. Las respuestas que son muy poco o nunca escogidas deberán ser revisadas, pues indican que no contribuyen al poder discriminativo del reactivo (Brown, 1980).
Algunos otros procedimientos también son útiles dependiendo del objetivo y tipo de prueba como: interrelaciones entre reactivos; interrelaciones entre reactivos y las diferentes subescalas de una prueba; efectos de diferentes límites de tiempo, etc.
En general, estos procedimientos son realizados en dos muestras independientes (validación cruzada) para eliminar variaciones provenientes de errores en el muestreo.
B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA El análisis de laprueba, como un todo, supone distintos procedimientos, que objetivan la minimización de los efectos de variables que pudieron intervenir en la medición. En otras palabras supone el control de los errores.
1. Estandarización
Este proceso, también llamado por algunos autores tipificación, implica la utilización del mismo material de prueba (o equivalente) bajo un procedimiento uniforme de aplicación y puntuación (Anastasi,
1978). Solo así pueden compararse los resultados obtenidos por distintos sujetos en una misma ocasión o por un mismo sujeto en distintas ocasiones.
En primer lugar, el material de la prueba debe ser siempre el mismo, o comprobadamente equivalente.
En segundo lugar, las condiciones de aplicación deben también ser, en la medida de lo posible idénticas. Para tal, las instrucciones de aplicación, las demostraciones previas, los límites de tiempo, las formas de resolver dudas, la disposición del material, etc. deben
ser rigurosamente las mismas para todos los sujetos. Por ello, el
manual de una prueba debe proveer estas informaciones con el
máximo de detalles. Además, el aplicador debe cuidar aspectos
como: tono e inflexión de voz, expresión facial, reacciones verbales
del tipo "sí" o "bien" quepueden dar la connotación de "correcto",
entre otros. El ambiente de la aplicación debe proporcionar las
condiciones físicas adecuadas para que el resultado del sujeto no
se vea afectado por variables extrañas como: falta o exceso de luz,
ruidos, intervenciones, etc.
Finalmente, el procedimiento de calificación debe ser lo más
uniforme posible. Se necesita para tal un alto grado de objetividad
en la puntuación y calificación de las respuestas de los sujetos.
En pruebas que utilizan reactivos de elección múltiple es más fácil
garantizar esta objetividad. Sin embargo, los reactivos que suponen
una respuesta libre del sujeto son más vulnerables. En este caso,
es importante que el manual de la prueba proporcione indicaciones
detalladas para la asignación de calificaciones y que los calificadores
sean debidamente entrenados para esta tarea.
Otro aspecto importante de la estandarización del procedimiento
de puntuación es el establecimiento de normas. "Una norma es
la actuación media o normal" (Anastasi, 1978, p. 24) de un grupo
de personas similar al que se destina la prueba. Al aplicarse la
prueba a este grupo llamado norma de estandarización, muestra
de tipicación o grupo normativo, se obtiene el promedio de actuación
del grupo, así como los grados de desviación por arriba y por abajo
del promedio. La comparación del resultado de un sujeto con la
norma, permite determinar la posición del mismo con respecto a
este grupo. Muchas veces se necesita comparar el resultado de un
sujeto con diferentes grupos (según el sexo, la edad, el nivel de
escolaridad, la ocupación, etc.) y por lo tanto son necesarios varios
grupos normativos. Además, las normas pueden estar expresadas
en diferentes unidades de calificación: CI de desviación, percentil,
estanina, puntuación T, puntuación Z, etc. El próximo capítulo
tratará con detalles las distintas unidades de calificación.
2. Validez
La validez de una prueba es el grado en que ésta mide lo que se quiere medir y solo lo que se quiere medir (Anastasi, 1978). Existen tres procedimientos que permiten verificar la validez de una prueba.
La utilización de uno u otro depende del objetivo y tipo de prueba. 2.1. Validez de contenido
Este tipo de validez es utilizado sobre todo en pruebas de rendimiento/ aprovechamiento, aunque también se aplica a otros tipos de pruebas psicológicas (Brown, 1980). A través de la validez de contenido se verifica si los reactivos de la prueba realmente constituyen "una muestra representativa del universo de las conductas o de los contenidos" (idem, p. 154) que se quiere medir. El procedimiento utilizado para verificar la validez de contenido de una prueba consiste en:
1) Precisar las habilidades, conocimientos y comprensiones que corresponden al contenido enseñado y que ha sido el objetivo de un curso o entrenamiento.
2) Examinar cuidadosamente la prueba (muestra de tareas) para ver qué conocimientos, habilidades y comprensiones requiere.
3) Verificar qué tanto contenido de la prueba representa el contenido y los objetivos del curso o entrenamiento.
Una prueba válida debe estar compuesta de tareas que representen al máximo los contenidos y metas de la enseñanza. Este procedimiento no utiliza ningún índice cuantitativo para verificar la adecuación de la muestra de tareas; la evaluación se da a través de un examen detallado y cuidadoso de la misma y por lo tanto implica un proceso de juicio y razonamiento por parte del evaluador. Brown (1980) presenta algunos de los inconvenientes que puede presentar este tipo de validez: a) no poder utilizar un índice cuantitativo para verificar el grado de relación, b) distintos evaluadores pueden no estar de acuerdo en cuanto a la validez del contenido de la prueba y c) la falta de claridad en la precisión del dominio dificultará los juicios
de validez de contenido. Murphy y Davidshofer (1994) hacen además
hincapié en el hecho de que "los estudios de validez de contenido no
pueden, por ellos mismos, garantizar la validez de la medida"(p. 113).
2.2. Validez de criterio
Este tipo de validez está relacionado con la predicción de un
resultado específico futuro por ejemplo, el éxito en una futura
ocupación o en un futuro programa de capacitación. Por ello, se
aplica a pruebas utilizadas para pronosticar resultados por medidas
de criterios muy claras y definidas (e .g. tests de selección y clasificación
de personal). Se elige así una medida como criterio (e.g. desempeño
en el empleo) y se verifica cuánto la medida en la prueba (e.g. prueba
de habilidad numérica) se relaciona con la medida del criterio.
Existen varios métodos para verificar la validez de criterio. El más
utilizado supone el siguiente procedimiento:
1) Aplicar la prueba a un grupo, antes de iniciar el desempeño
en un trabajo o de ingresar en un programa de capacitación o curso.
2) Definir un criterio que sirva de valoración del éxito en el
empleo, programa de capacitación o curso y obtener más tarde,
junto al mismo grupo, una medida de este criterio.
3) Calcular la correlación entre la calificación en la prueba y
la calificación en el criterio de valoración del éxito. El coeficiente
de correlación puede variar de -1 a +1. Cuando el valor es cercano
a 0 indica que no existe correlación entre las dos medidas. Tanto
un coeficiente positivo cuanto un coeficiente negativo indican una
relación entre las medidas. Un coeficiente positivo indica que ambas
medidas varían en la misma dirección (ambas altas o ambas bajas),
mientras que un coeficiente negativo indica que si una medida es
alta, la otra es baja o viceversa. Tanto mayor es esta correlación,
más efectiva será la prueba para predecir este criterio y
consecuentemente más válida.
La gran dificultad de este procedimiento está en la elección de
un criterio adecuado de valoración. Thorndike (1975) propone
cuatro cualidades que debe tener un criterio de valoración:
• Adecuación - Un criterio es adecuado cuando la calificación de éste está determinada por los mismos factores que determinan el éxito en el trabajo/curso/tarea. No hay ninguna prueba que permita verificar la adecuación o no del criterio. Hay que confiar en el juicio del profesional para elegirlo.
• Exención de prejuicios - la medida del criterio debe proporcionar, a cada persona, la misma oportunidad de obtener una buena calificación. Por ello, debe ser exenta de prejuicios del evaluador.
• Conflabilidad - La medida del criterio debe ser estable y reproducible para que una prueba cualquiera pueda predecirla. Si la medida del criterio varía de una situación a otra o de tiempo en tiempo, ésta no podrá relacionarse con otras medidas y por lo tanto no habrá prueba que la pueda predecir.
• Disponibilidad - En la elección del criterio debe tomarse en cuenta los problemas prácticos de su utilización: disponibilidad, tiempo, costo, etc.
Un segundo método para determinar la validez de criterio es ' 'ver si las calificaciones predictoras diferencian a los grupos específicos por su ejecución en el criterio" (Brown, 1980, p. 133). Por ejemplo, para determinar si una prueba de habilidad numérica es un buen predictor del éxito de alumnos en un curso de álgebra, se debe proceder de la siguiente manera:
1) Dividir los alumnos en dos grupos: los aprobados y reprobados en el curso de álgebra
2) Comparar las calificaciones, de esos dos grupos, en la prueba de Habilidad Numérica para verificar si hay una diferencia estadísticamente significativa entre sus calificaciones. El procedimiento generalmente utilizado para verificar si la diferencia es significativa es la obtención de la estadística t. Esta estadística "compara la diferencia en las medias con la medida del error de muestreo" (Brown, 1980,p. 132). Si el valor/obtenido es significativo (según las tablas), quiere decir que los dos grupos tienen calificaciones significativamente diferentes en la prueba. Un valor t no significativo indica que las calificaciones de la prueba no discriminan entre los
grupos definidos según el criterio y consecuentemente, que la prueba no es válida.
Un tercer método es la utilización de índices de exactitud en la toma de decisiones (Brown, 1980). El procedimiento, en este caso, consiste en:
1) Clasificar las calificaciones de la prueba en dos o más categorías independientes (ejemplo: fracaso VÍ éxito o aceptable vs inaceptable)
2) Clasificar, según las mismas categorías, las calificaciones del criterio
3) Comparar el conjunto de datos
4) Obtener la proporción de decisiones correctas (Pdc)
Por ejemplo, el cuadro 2.1 indica las predicciones correctas (aciertos) e incorrectas (fallas). Se consideran en el cuadro cuatro grupos formados a través de la comparación de dos categorías de criterio y dos categorías de la prueba predictiva (éxito vs fracaso).
CUADRO 2.1
Predicciones en las decisiones Predicción de la Prueba Psicológica
ÉXITO FRACASO
Ejecución del criterio ÉXITO Aciertos (A) Falla (C) FRACASO Falla (B) Aciertos (D) Cuando los grupos obtienen éxito o fracaso en ambas medidas, la de la prueba y la del criterio, se considera una predicción o decisión correcta o sea un acierto (grupos A y D). Los demás casos son considerados una falla (grupos B y C). Un índice importante en la toma de decisiones es la proporción de decisiones correctas(P¿.) en el total de decisiones. Esta proporción se obtiene a través de la siguiente fórmula:
Los valores A, B, C y D corresponden al número de sujetos de cada uno de los cuatro grupos y N al total de sujetos. La proporción de decisiones correctas (Pdc) indica la exactitud de las
decisiones y puede ser utilizada como índice de validez de la prueba.
Brown (1980) comenta sobre las variaciones en este procedimiento, como la que supone la determinación de la calificación límite óptima, calificación que separa a los grupos para producir el número máximo de decisiones correctas.
2.3. Validez de construcción (o validez interna o estructural) Este tipo de validez verifica el grado en que una prueba mide un constructo o rasgo teórico. En realidad, no existe un índice cuantitativo único o sólo un procedimiento de validez de construcción. La validez se evalúa mediante un conjunto de evidencias y métodos. Brown (1980) agrupa en cinco categorías la variedad de técnicas y procedimientos utilizados para establecer la validez de construcción: a) Métodos intrapruebas
En esta categoría se encuentran las técnicas utilizadas para estudiar la estructura interna de una prueba: su contenido, los procesos utilizados para contestar a las preguntas, la relación entre sus reactivos, la relación entre las subescalas. Se incluyen en esta categoría desde procedimientos de validez de contenido hasta estudios de homogeneidad de la prueba (coeficiente alfa, coeficiente Kuder-Richardson), que serán examinados más adelante. Estos índices indican si la prueba mide un solo o varios rasgos.
b) Métodos interpruebas
Estos métodos están diseñados para verificar las relaciones entre varias pruebas o sea, si éstas miden o no el mismo rasgo. Algunos de los procedimientos utilizados son:
• Validez congruente - En este caso se verifica la correlación
entre las calificaciones de una nueva prueba y las obtenidas en una
otra, ya validada, que mida el mismo rasgo. Si la correlación es
alta significa que ambas pruebas miden el mismo rasgo y que pueden
interpretarse los resultados de la nueva prueba como los de aquella
ya validada.
• Validez factorial - Este es considerado uno de los tipos más
importantes de validez. Es verificada a través de un procedimiento
estadístico—el análisis factorial—que permite determinar "cuantos
factores (construcciones) se necesitan para explicar las
intercorrelaciones entre un conjunto de calificaciones de varias
pruebas" (Brown, 1980, p. 165). El análisis factorial permite
obtener: 1) el número de factores que explican las intercorrelaciones
entre las pruebas, 2) los factores que componen cada prueba y 3)
la cantidad de varianza en las calificaciones de las pruebas que
explican los factores. Así, pueden determinarse las pruebas que
comparten una varianza común y que por lo tanto miden el mismo
factor o sea la misma construcción. Además, la proporción de
varianza total en las calificaciones de la prueba que es atribuida
al factor, puede ser utilizada como índice de validez de construcción.
• Validez discriminante - En este caso el objetivo es verificar
que las calificaciones de una nueva prueba no se correlacionen con
las obtenidas en otras pruebas que miden otros rasgos distintos.
Se demuestra así que la medida de esta nueva prueba es independiente
de la medida de otras construcciones o rasgos.
c) Estudios relacionados con criterios
Este método se basa en la predicción acerca de diferencias entre
grupos, naturalmente separados o diseñados experimentalmente.
Por ejemplo, una teoría sugiere que algunas clases de grupos deben
obtener puntuaciones elevadas o bajas respecto al rasgo medido
por una nueva prueba. Al aplicársela se verificará cuanto las
calificaciones en esta prueba separan a estos grupos, o sea pueden
predecir las diferencias entre ellos.
d) Manipulación experimental
En este procedimiento se manipula experimentalmente una variable y se observa sus efectos sobre las calificaciones de la prueba o la relación de éstas con algún criterio. Por ejemplo, una teoría puede sugerir que la expresión de un rasgo o conducta se modificará a consecuencia de algunas condiciones o tratamientos experimentales. Se aplica entonces la nueva prueba en la condición experimental para verificar si las modificaciones previstas ocurren. Sería el caso de aplicarse una prueba de ansiedad a personas que están por someterse una operación quirúrgica para verificar si esta prueba puede detectar el nivel de ansiedad que supuestamente debe encontrarse aumentado por la inminencia de la cirugía.
e) Estudios de capacidad de generalización
Según Brown (1980) se encuentran en esta categoría los estudios que "analizan sistemáticamente la prueba sobre una gama de condiciones o dimensiones —por ejemplo— en una variedad de poblaciones (transferibilidad) o con diferentes condiciones de administración"(p. 167). El explica con detalles el método propuesto por Campbell y Fiske llamado Matriz de Multirasgo y Multimétodo. Este procedimiento consiste básicamente en examinar las correlaciones entre los mismos rasgos medidos por diferentes métodos (validez convergente) y las correlaciones entre diferentes rasgos, medidos por un mismo método (validez discriminante).
3. Confiabilidad
La confiabilidad es el " g r a d o de consistencia de las mediciones "(Brown, 1980, p.80). Es la consistencia de las puntuaciones obtenidas por los mismos sujetos cuando son examinados con la misma prueba o una forma paralela de ésta, en diferentes ocasiones.
Toda medida implica un cierto error. El objetivo de una prueba psicológica es reducir, al mínimo, el error de medición. Al reducirlo se eleva el nivel de confíabilidad de la prueba.
Thorndike (1975) apunta cuatro fuentes principales de error que resultan de:
1) Variaciones surgidas dentro del procedimiento mismo de medición, que pueden estar relacionadas con las condiciones de aplicación de la prueba, tales como: la situación física, las instrucciones, los errores en el registro de tiempo, los factores de distracción, etc.
2) Variaciones en el sujeto mismo, a corto plazo (salud, atención, motivación, ansiedad, experiencia con la prueba, etc.) o a largo plazo (maduración, aprendizaje, cambios en su ambiente, etc.).
3) Variaciones procedentes de la muestra específica de tareas (reactivos) elegidas para representar el área de la conducta que mide la prueba.
4) Variaciones en la velocidad de trabajo del sujeto.
Existen diferentes procedimientos para examinar la cantidad de error en la medición, o sea, estimar el grado de consistencia de la misma. Brown (1980) diferencia dos tipos de consistencia, que aunque están relacionados, considera útil separar para fines didácticos. La confiabilidad verifica la consistencia de la medida a través del tiempo (estabilidad) y a lo largo de formas equivalentes de la prueba (equivalencia). La homogeneidad o consistencia interna verifica si todos los reactivos de la prueba miden o no el mismo rasgo. Serán analizados, por separado, los distintos procedimientos. 3.1. Procedimientos para verificar la confiabilidad de una prueba psicológica
Existen diferentes procedimientos que permiten verificar el nivel de confiabilidad de una prueba psicológica:
a) Repetición de la misma prueba (Test/Retest)
La medida de confiabilidad es la correlación entre las calificaciones obtenidas en la primera aplicación y en la reaplicación. Esta medida se denomina coeficiente de estabilidad. Este procedimiento puede ser realizado de dos maneras distintas:
• Sin intervalo de tiempo entre las dos mediciones, o sea, la reaplicación es realizada en seguida de la aplicación. En este caso son controlados dos tipos de errores provenientes de: (a) variaciones en el procedimiento mismo de medición y (b) variaciones en la velocidad de trabajo del sujeto.
• Con intervalo de tiempo entre las dos mediciones, o sea, la reaplicación se hace después de cierto tiempo, que puede ser de días o de años. Tres errores son controlados en este procedimiento, que resultan de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en el sujeto de una vez a otra y (c) variaciones en la velocidad de trabajo del sujeto.
Este tipo de procedimiento no debe ser utilizado en el caso de rasgos que sean, por principio, inestables o cuando se produzca algún tipo de aprendizaje diferencial entre las dos aplicaciones (por ejemplo un programa de estudios o entrenamiento). Otro problema es el del efecto de la práctica, sobre todo cuando la aplicación y reaplicación son realizadas sin intervalo de tiempo o con un intervalo muy corto entre las dos. En este caso "algunas personas pueden recordar sus respuestas o aprender algo sobre la técnica de pasar una prueba" (Brown, 1980, p. 85).
b) Aplicación de formas paralelas (o equivalentes) de la prueba Para este procedimiento hay que disponer de formas equivalentes de la prueba, que sigan la misma especificación pero que sean compuestas de muestras separadas de la conducta que se pretende medir. Las formas paralelas deben por tanto cubrir el mismo contenido, utilizar el mismo número de reactivos y poseer el mismo grado de dificultad. La medida de confiabilidad es la correlación entre las puntuaciones obtenidas en las dos formas de la prueba.
Este procedimiento también puede ser realizado de dos maneras: • Sin intervalo de tiempo entre la aplicación de las dos formas equivalentes de la prueba. En este caso la correlación entre las dos medidas ofrece un coeficiente de equivalencia. Los tipos de errores tomados en cuenta son los que provienen de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en la velocidad de trabajo del sujeto y (c) variaciones procedentes de la muestra de tareas. • Con intervalo de tiempo entre la aplicación de las dos formas paralelas de la prueba. La correlación entre las dos medidas ofrece, en este caso, un coeficiente de estabilidad y equivalencia. Con este procedimiento puede controlarse los cuatro tipo de errores mencionados anteriormente, que provienen de: (a) variaciones en el procedimiento mismo de medición, (b) variaciones en el sujeto de una vez a otra, (c) variaciones en la velocidad de trabajo y (d) variaciones procedentes de la muestra de tareas.
El procedimiento que utiliza la aplicación de formas paralelas con intervalo de tiempo es el que proporciona el coeficiente de confiabilidad más preciso y riguroso pues permite controlar las distintas fuentes de error. Por esta misma razón el provee el coeficiente de confiabilidad más bajo. Sin embargo, él plantea problemas prácticos importantes, puesto que exige que se disponga de dos formas paralelas de la prueba y del tiempo necesario para aplicárselas por separado.
c) Confiabilidad por mitades
Este procedimiento, también llamado de test subdivide (split half), es el más ampliamente utilizado para estimar la confiabilidad a partir de una sola administración de la prueba (Thorndike, 1975). Según Murphy y Davidshofer (1994), este procedimiento soluciona los dos problemas prácticos del método de formas paralelas: la dificultad de desarrollar formas paralelas y la necesidad de tiempo para las aplicaciones.
Para realizarlo se aplica la prueba y después se divide en dos mitades supuestamente equivalentes y equilibradas en relación al contenido y nivel de dificultad. Para la división puede precederse de distintas maneras. La más común es la que utiliza los reactivos pares, en una de las formas, y los impares en la otra. Sin embargo, este tipo de división no puede ser manejada cuando existe alguna desviación sistemática en la prueba como por ejemplo, los tipos alternativos de reactivos o reactivos en que la respuesta depende de la anterior (Brown, 1980).
La correlación entre las calificaciones de las dos mitades de la prueba proporciona una estimación de la confiabilidad. Mientras tanto, como cada conjunto de calificaciones está basado en la mitad de los reactivos de la prueba original completa y la confiabilidad de una prueba depende de su longitud, la correlación entre las dos mitades proporciona una estimación de la confiabilidad inferior a la que podría esperarse de la prueba original. Para estimar la confiabilidad de la prueba original completa se utiliza la siguiente fórmula, propuesta por Spearman-Brown:
en d o n d e c o n f i a b i l i d a d de la prueba original completa correlación entre las mitades de la prueba Este procedimiento toma en cuenta solamente dos tipos de errores provenientes de variaciones en el procedimiento mismo de medición y variaciones procedentes de la muestra de tareas. Además, presenta algunas limitaciones como: (a) dos medias pruebas pueden ser más semejantes que dos formas paralelas separadas; por ejemplo, cuando los reactivos están basados en un mismo material de referencia — texto, experimento— pueden provocar distorsiones en el coeficiente de confiabilidad y (b) este tipo de coeficiente no tiene significado en pruebas de tiempo limitado donde influya la rapidez; el factor
velocidad tenderá a inflar el coeficiente de confiabilidad (Brown,
1980).
Sin embargo, la utilización de este procedimiento presenta ventajas
prácticas importantes relacionadas a la aplicación de un mismo
material de prueba, sólo una vez. Hay que tomarse también en cuenta
que cuanto mayor sea la muestra de conducta de la persona, tanto
más confiable será la medida. Además, entre mayor sea la muestra
de conducta registrada menos dependerá la medida de elementos
fortuitos en la conducta del sujeto o en la muestra específica de
tareas. Por ello, la utilización de un gran número de reactivos es
un medio utilizado para garantizar la confiabilidad de una prueba.
3.2. Interpretación de coeficientes de confiabilidad
Brown (1980) propone tres modos de interpretación de los coeficientes
de confiabilidad:
• Correlación entre calificaciones reales y obtenidas - Se
puede interpretar un coeficiente de confiabilidad tomando como
base que la proporción de la variancia en las calificaciones obtenidas
representa la variación de las calificaciones reales. Por ejemplo
si r = 0.80, entonces 80% de la variabilidad en las calificaciones
obtenidas se debe a diferencias en las calificaciones reales y 20%
se debe a errores de medición.
• Comparación con la confiabilidad de otras pruebas - Este
es un criterio muy utilizado para decidir si la prueba puede o no
ser considerada confiable. En este caso se compara el coeficiente
de confiabilidad de la prueba con el nivel de confiabilidad de pruebas
similares ya existentes.
• Errores en las calificaciones individuales - Puede interpretarse
el coeficiente de confiabilidad evaluando el cambio que podrá pasar
en la calificación de un sujeto al volver a contestar la prueba. Para
eso hay que verificar cuál es el error estándar de la medición.
Thorndike (1975, p. 204) presenta un cuadro del error estándar
de medición para diferentes valores del coeficiente de confiabilidad.
Es importante en la interpretación de un coeficiente de confiabilidad tener en mente que éste es específico de la muestra utilizada, de la situación de prueba y del método utilizado para su cálculo. Por eso hay que verificar la confiabilidad de una prueba en una gran variedad de situaciones y con diferentes muestras y procedimientos. 3.3. Procedimientos para verificar la homogeneidad de una prueba psicológica
Los procedimientos para verificar la homogeneidad o consistencia interna de una prueba buscan determinar el grado de las relaciones recíprocas entre los reactivos que la componen. Brown (1980, p. 102) afirma que "se puede definir la homogeneidad como la consistencia en la ejecución de todos los reactivos de una prueba psicológica". Una correlación positiva entre las calificaciones de los distintos reactivos de una prueba indica que ésta es homogénea. Si la prueba está compuesta de subpruebas heterogéneas, se procede al estudio de la homogeneidad de cada subprueba, cuyos reactivos deben por tanto ser homogéneos.
Los procedimientos más comunes para verificar la homogeneidad o consistencia interna de una prueba son:
a) Coeficiente alfa
Este coeficiente, propuesto por Cronbach (1951), es utilizado con bastante frecuencia . Su utilización es limitada a las pruebas cuyos reactivos no son calificados de forma dicótoma (correcto o incorrecto). Su fórmula es:
en d o n d e : n ú m e r o de reactivos de la prueba sumatoria
desviación estándar de cada reactivo desviación estándar de la prueba b) Fórmula de Kuder - Richardson (KR-20)
Esta fórmula, propuesta por Kuder y Richardson en 1937, es utilizada cuando se califican los reactivos de la prueba de forma dicótoma y suele ser considerada como un caso especial del coeficiente alfa:
en donde:
número de reactivos de la prueba desviación estándar de la prueba sumatoria
proporción de individuos que contestan bien un reactivo 1- p= proporción de individuos que fallan en este reactivo Esta fórmula no se aplica a pruebas psicológicas de velocidad pues, para el cálculo del componente Σ pq, es necesario que cada reactivo sea probado por todas las personas, lo que no siempre ocurre en las pruebas de velocidad.
Estos mismos autores propusieron una segunda fórmula (KR-21) que supone que todos los reactivos de la prueba tienen el mismo grado de dificultad. Esta fórmula es menos utilizada puesto que tal situación raramente ocurre.
c) Análisis factorial
Este procedimiento es uno de los más utilizados y en general es considerado como el mejor por varios autores (Brown, 1980).
Mientras tanto, es un proceso complejo que supone la utilización de varios métodos de cálculo. Estos métodos utilizan la matriz de intercorrelaciones entre los reactivos de la prueba y permiten verificar si existe un único factor o varios que expliquen estas intercorrelaciones. Si existe un sólo factor la prueba es considerada homogénea. Si son varios factores que explican las intercorrelaciones significa que, aunque la prueba es heterogénea, existen subpruebas compuestas por conjuntos de reactivos homogéneos. Este procedimiento permite también detectar los reactivos que no tienen relación con el factor principal, ni con ninguno de los factores que componen la prueba.
Finalmente, todos los puntos discutidos en este capítulo deben ser examinados cuando se pretende utilizar una determinada prueba psicológica para estar seguro, no sólo de sus cualidades métricas, sino también de sus límites. Todo manual de prueba debe proveer información suficiente sobre estos aspectos y todo psicólogo debe saber cómo interpretarlos.
Referencias bibliográficas
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)
Madrid: Editorial Aguilar.
Bacher, F. (1981). Les etiquetes en Psychologie. Tesis inédita de Doctorado en Psicología, Université de París V, París Brown, F.G. (1980). Principios de medición en Psicología y
Educación. México D.F.: Editorial El Manual Moderno. Cronbach, L.J. (1951). Alpha and the internal structure of tests.
Psychometrika, 16, 297-334.
Murphy, K. R. y Davidshofer, C O . (1994). Psychological Tes-ting - Principles Applications. New Jersey: Prentice Hall. Thorndike, L. R. Y Hagen, E. (1973). Tests y técnica de
UNIDADES DE CALIFICACIÓN DE LAS
PRUEBAS PSICOLÓGICAS
Las respuestas de un individuo a una prueba psicológica
determinan su calificación bruta, también llamada original
o directa. Esta calificación carece de significado si no es
comparada a una norma, o sea a la ejecución promedio de
un grupo de individuos. Esta comparación permite determinar
la posición exacta del individuo con respecto a este grupo.
Para tal, las calificaciones brutas son transformadas, mediante
diferentes procedimientos estadísticos, en calificaciones
derivadas (o transformadas o ponderadas). Las calificaciones
derivadas tienen como objetivo fundamental propiciar la
comparación de las calificaciones obtenidas en diferentes
pruebas, expresándolas en un mismo tipo de unidad.
Existen varios tipos de puntuaciones derivadas, que suponen
diferentes procedimientos estadísticos para su obtención.
Anastasi (1978) las clasifica en tres tipos principales: de
edad o cronológicas, percentiles y típicas.
Para comprender e interpretar estas calificaciones se
requiere de nociones básicas de estadísticas como: media,
mediana, moda, desviación estándar, curva normal y rango.
No es objetivo de este manual aportar este tipo de información,
que puede ser encontrada en cualquier libro de estadística.
A. PUNTUACIONES DE EDAD
1. Cociente intelectual de razón (CI)
Stanford-Binet de 1916, aunque su idea surgió anteriormente con Stern y Kuhlmann. La fórmula para obtenerlo es:
donde: EM= edad mental EC= edad cronológica
La edad mental es el nivel de edad que corresponde a la calificación recibida por el niño en la ejecución de la prueba. Por ejemplo, un niño de 8 años que obtiene una puntuación que corresponde a la puntuación promedio de los niños de
10 años, posee una edad mental de 10 años.
El CI de razón fue muy utilizado en las primeras pruebas de inteligencia, lo que ya no ocurre actualmente, debido a sus limitaciones e inconvenientes. Algunos de éstos son: (a) las normas de edad dejan de tener un significado claro cuando utilizadas con adultos normales o superiores, (b) la distribución de los CI proporciona desviaciones estándar variables (de 12 a 20 puntos) según la edad (Terman y Merril, 1937 en Brown, 1980), lo que no permite comparar, de manera confiable, CI obtenidos a distintas edades, (c) el CI no es aplicable a las funciones que no muestran un cambio claro y consistente con la edad.
2. Cociente educacional
Este cociente, aplicado a las pruebas de rendimiento escolar, se obtiene de manera similar al cociente intelectual, pero en este caso se utiliza la edad educacional en lugar de la edad mental. Su fórmula es: CE = EE x 100 / EC.
El cociente educacional posee las mismas limitaciones del CI y por lo tanto " n o se pueden hacer comparaciones entre una materia y otra, aun cuando las pruebas hayan sido estandarizadas con el mismo g r u p o " (Morales, 1993, p. 65).
B. RANGOS PERCENTILES
Este tipo de puntuación derivada es una de las más utilizadas por su facilidad de interpretación. Esta se expresa en función del porcentaje de personas del grupo normativo, que obtienen calificaciones más bajas. Así, un percentil de 65 indica que 6 5 % de los sujetos del grupo normativo obtuvieron calificaciones inferiores. Es importante no confundir el uso del porcentaje de personas, en el caso del percentil, con la idea de porcentaje de respuestas correctas. En otras palabras, un percentil de 65 no significa que el sujeto respondió correctamente a 65% de los reactivos, sino que 65% de los sujetos obtuvieron calificaciones inferiores a la suya. La forma gráfica utilizada para expresar los rangos percentiles es llamada ojiva.
La obtención de los rangos percentiles supone el siguiente procedimiento:
1) Ordenar las calificaciones brutas obtenidas por el grupo normativo de la menor hasta la mayor.
2) Calcular la frecuencia de cada calificación
3) Calcular la frecuencia acumulada (F A) a cada aplicación, sumando la frecuencia de la calificación más baja con la frecuencia de la calificación siguiente y así sucesivamente hasta la calificación más alta.
4) Determinar el punto medio de cada frecuencia acumulada (FA ). Para la FA más baja, se añade a ésta un cero y se divide entre dos. El resultado es el punto medio de esta FA. En seguida se pasa a la FA siguiente, a la cual se suma la FA más baja, dividiendo el resultado entre dos. Se sigue este procedimiento hasta la FA más alta.
5) Convertir la frecuencia acumulada a cada punto medio (FApm) a porcentaje acumulada a cada punto medio (PApm),
a través de la fórmula: P Ap m= 100 x FApm / N, donde N
6) Hallar los rangos percentiles, convirtiendo los valores de los PApm a números enteros, a excepción del 1 para el 0
y del 99 para el 100.
La tabla 3.1. ofrece un ejemplo de este procedimiento, utilizando los resultados, en una prueba, de una muestra de 100 personas.
Así, puede decirse que un sujeto que obtuvo una calificación bruta de 34 está situado en el rango percentil 80, lo que significa que 80% de los sujetos obtuvieron calificaciones inferiores a la suya en la prueba y 20%, calificaciones superiores.
TABLA 3.1
Obtención de rangos percentilares
21 2 2 1.0 1.0 1 22 2 4 3.0 3.0 3 23 6 10 7.0 7.0 7 24 3 13 115 11.5 11 25 5 18 15.5 15.5 15 26 5 23 20.5 20.5 20 27 7 30 26.5 26.5 26 28 6 36 33.0 33.0 33 29 8 44 40.0 40.0 40 30 13 57 50.5 50.5 50 31 7 64 60.5 60.5 60 32 6 70 67.0 67.0 67 33 7 77 73.5 73.5 73 34 6 83 80.0 80.0 80 35 4 87 85.0 85.0 85 36 3 90 88.5 88.5 88 37 5 95 92.5 92.5 92 38 2 97 96.0 96.0 96 39 2 99 98.0 98.0 98 40 1 100 99.5 99.5 99+
La gran ventaja de los percentiles es la facilidad de su cálculo e interpretación. Además, pueden ser empleados con niños y adultos y con distintos tipos de tests (aptitud, inteligencia, personalidad).
Mientras tanto, presentan dos limitaciones importantes (Brown, 1980). Primero, por ser una escala ordinal, sus valores no se pueden sumar, restar, multiplicar o dividir, lo que impide la utilización de ciertos análisis estadísticos. Segundo, presentan una distribución rectangular, en las que las puntuaciones brutas, en general, se aproximan de la curva normal, lo que provoca que: (a) las diferencias de las puntuaciones brutas, próximas al centro de la distribución, se exageren en la transformación a percentil y (b) las diferencias de las puntuaciones brutas, cerca de los extremos de la distribución, se reduzcan considerablemente en la transformación a percentil. Con eso, los rangos percentilares pueden, a veces, ser mal interpretados. Anastasi (1978, p.55), advierte: "los percen-tiles presentan un cuadro correcto de la posición relativa de cada individuo en el grupo normativo, pero no de la cuantía de la diferencia entre su puntuación y la de otra persona". Para resolver esta limitación algunas pruebas como el D. A.T. (Test de Aptitud Diferencial) utilizan, para presentar los resultados en percentiles, un papel probabilístico aritmético que proporciona una representación visual correcta de las diferencias entre las puntuaciones de las distintas subescalas. Este papel es " u n papel cuadriculado en el cual las líneas verticales se encuentran espaciadas de la misma forma que los percentiles en una distribución normal..., mientras que las líneas horizontales se encuentran uniformemente espaciadas, o viceversa" (ídem, p.55).
C. CALIFICACIONES TÍPICAS (o estándar)
psicológicas por sus ventajas, principalmente por la de ser una escala de intervalo y permitir, por lo tanto, la realización de varios análisis estadísticos.
Las calificaciones típicas expresan, en unidades de desviación estándar, la distancia del sujeto con respecto al promedio del grupo.
1. Calificaciones típicas lineales
Estas calificaciones son obtenidas a través de una transformación lineal de las calificaciones brutas. Por eso, muestran la misma estructura de la distribución de las calificaciones brutas.
1.1. Calificación z
La calificación típica lineal básica es la calificación z. Su fórmula es:
z = X - X S
donde: X= calificación del sujeto
X= promedio de la calificación de la muestra s = desviación estándar de esta muestra
La calificación z se expresa en una escala que tiene una media de 0 y una desviación estándar de 1. El valor de z indica la distancia en que se encuentra la calificación bruta del promedio. Si z tiene un signo positivo indica que la calificación bruta está arriba del promedio, mientras que un z negativo indica que la calificación bruta está abajo del promedio. En una distribución normal z varia aproximadamente de -3 a +3.
Para evitar los valores negativos y decimales proporcionados por la calificación z, se han diseñado otras calificaciones estándar lineales, obtenidas a partir de ésta, a través de una nueva transformación lineal. Para convertir la calificación z a la nueva escala se multiplica aquélla por la desviación estándar deseada y a este resultado se añade la media deseada. En seguida serán presentadas algunos tipos de calificaciones que utilizan este procedimiento.
1.2. Calificación T
En estas calificaciones se considera una media de 50 y una desviación estándar de 10, lo que proporciona la siguiente fórmula:
T = l0z + 50 1.3. Calificaciones AGCT
Estas calificaciones fueron originalmente usadas en la prueba de inteligencia general ARMY (Army General Classification Test), de donde proviene su denominación. Esta prueba fue utilizada para seleccionar soldados para la Primera Guerra Mundial. En esta situación la media fue de 100 y la desviación estándar de 20. Por eso su fórmula es:
AGCT = 20z + 100 1.4. Calificaciones CEEB
La sigla utilizada para denominar estas calificaciones proviene del College Entrance Examination Board, donde éstas fueron utilizadas por primera vez. En este caso, se considera una media de 500 y una desviación estándar de 100. Su fórmula es: