• No se han encontrado resultados

Medición en ciencias sociales y de la salud

N/A
N/A
Protected

Academic year: 2021

Share "Medición en ciencias sociales y de la salud"

Copied!
555
0
0

Texto completo

(1)
(2)
(3)

M

e

d

ic

n

e

n

c

ie

n

c

ia

s

so

c

ia

le

s

y

d

e

la

s

a

lu

d

(4)

Directores: Antonio Pardo Merino Miguel Ángel Ruiz Díaz

(5)

EDITORIAL

SINTESIS

M

e

d

ic

n

e

n

c

ie

n

c

ia

s

so

c

ia

le

s

y

d

e

la

s

a

lu

d

F

ra

n

c

is

c

o

J

.

A

b

a

d

J

u

li

o

O

le

a

V

ic

e

n

te

P

o

n

s

o

d

a

C

a

rm

e

n

G

a

rc

(6)

Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar

o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia

o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A.

© Francisco J. Abad, Julio Olea, Vicente Ponsoda y Carmen García

© EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34. 28015 Madrid Teléfono 91 593 20 98 http://www.sintesis.com ISBN:978-84-975672-7-5 Depósito Legal: M. 5.521-2011 Impreso en España - Printed in Spain

(7)

Índice de contenidos

Prólogo . . . 13

Primera Parte

1. Introducción Psicometría . . . 15

Tipos de tests y ámbitos de aplicación. . . 19

2. Construcción de tests y análisis de ítems Diseño del test . . . 24

Construcción provisional del test. . . 26

Cuantificación de las respuestas . . . 36

Análisis de ítems . . . 38

Corrección de los efectos del azar . . . 65

Apéndice . . . 70

3. Modelo Clásico y fiabilidad Introducción. . . 75

La Teoría Clásica de los Tests. . . 76

Los supuestos fundamentales del Modelo Clásico. . . 77

Descomposición de la varianza de las puntuaciones empíricas en un test . . . 81

Concepto de formas paralelas y coeficiente de fiabilidad . . . 83

Fórmula general de Spearman-Brown . . . 87

Aproximaciones a la fiabilidad y tipos de error. . . 91

Fiabilidad como correlación entre formas paralelas. . . . . . 94

Fiabilidad como estabilidad temporal. . . 95

Fiabilidad como consistencia interna. . . 97

El error típico de medida. . . 106

Formas de incrementar la fiabilidad de un test. . . 111

Coeficiente de fiabilidad y características de la muestra. . . 113

Valores mínimos para los indicadores de fiabilidad. . . 114

Software para la Teoría Clásica de los Tests. . . 115

(8)

4. Introducción a la Teoría de la Respuesta al Ítem

Introducción. . . 123

Limitaciones de la TCT. . . 124

La Curva Característica del Ítem. . . 125

Modelos de TRI para ítems dicotómicos. . . 127

Supuestos de la TRI. . . 135

Estimación de parámetros. . . 138

Bondad de ajuste. . . 146

La precisión de las puntuaciones en TRI. . . 148

La Curva Característica del Test. . . .. . . 153

Aplicaciones. . . 154

Ventajas y desventajas de los modelos de TRI. . . 155

Apéndice. . . 157

5. Concepto y evidencias de validez El concepto de validez. . . 161

Evidencias basadas en el contenido del test. . . 163

Definición. . . 163

Procedimientos. . . 164

Evidencias basadas en la estructura interna del test. . . 170

Evidencias basadas en la relación con otras variables. . . 171

La evidencia convergente y discriminante. . . 171

Evidencia sobre la relación entre el test y algún criterio relevante. . . 177

Evidencias basadas en los procesos de respuesta a los ítems. . . 195

Evidencias basadas en las consecuencias de la aplicación del test. . . 199

Evolución histórica del concepto de validez. . . 201

6. Análisis Factorial Exploratorio Introducción. . . 205

Visión general del AFE. . . 206

La ecuación fundamental del modelo factorial. . . 209

Conceptos básicos del modelo. . . 210

El AFE paso a paso. . . 220

Decisiones sobre el método de extracción de factores. . . 220

Selección del número de factores. . . 223

El problema de la indeterminación factorial. . . 232

Procedimientos de rotación ortogonal. . . 235

Procedimientos de rotación oblicua. . . 238

Puntuaciones factoriales por el método de ponderación simple . . . 241

Otras decisiones importantes en el AFE. . . 242

Apéndices. . . 246

Componentes principales. . . 246

(9)

Métodos adicionales para decidir el número de factores. . . 252

El significado del término rotación. . . 254

Análisis factorial de segundo orden. . . 256

El análisis factorial de ítems. . . 259

Procedimientos alternativos para calcular las puntuaciones factoriales . . . 263

Software. . . 267

7. Interpretación de las puntuaciones Introducción. . . 271 Baremos. . . 272 Baremos cronológicos. . . 273 Baremos centiles. . . 274 Baremos típicos. . . 277 Comentarios finales. . . 280

Baremos en la Teoría de la Respuesta al Ítem. . . .. . . 282

Otros métodos para dar significado a las puntuaciones. . . 283

El mapeo de ítems. . . 284

Descripción de cada nivel de desempeño. . . 285

Puntos de corte. . . 286

Apéndice. . . 292

Segunda Parte

8. Métodos alternativos para estimar el coeficiente de fiabilidad Introducción . . . 293

Grados de equivalencia entre formas. . . 294

Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades. . . 297

Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems . 299 Coeficiente de fiabilidad como límite inferior. . . 301

Coeficientes de fiabilidad basados en el análisis factorial. . . 304

Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales. . . 310

Testlets. . . 313

9. Fiabilidad interjueces y medición del cambio Fiabilidad interjueces. . . 315

Coeficiente kappa. . . 316

Coeficiente de concordancia. . . 317

Coeficiente de correlación intraclase. . . 319

Coeficiente de correlación intraclase como un caso particular del coeficiente de generalizabilidad. . . 320

(10)

Fiabilidad de las diferencias y medición del cambio. . . 330

Fiabilidad de las diferencias. . . 331

Significación clínica e indicadores de cambio fiable. . . 333

¿Diferencias de las puntuaciones directas o diferencias en los rasgos latentes?. . . 338

10. Análisis Factorial Confirmatorio Introducción. . . 341

El AFC paso a paso. . . 342

Representación del modelo. . . 343

Conceptos básicos del modelo de AFC. . . 344

Identificación del modelo . . . 351

Estimación de parámetros. . . 356

Índices de bondad de ajuste. . . 361

Re-especificación del modelo. . . 374

Modelos confirmatorios multigrupo. . . 376

Recomendaciones sobre los tamaños muestrales. . . 379

Malos usos de los modelos de AFC. . . 379

Apéndice. . . 380

11. TRI: procedimientos estadísticos Comprobación de supuestos. . . 385

Unidimensionalidad. . . 385

Independencia local. . . 387

Estimación de parámetros. . . 391

Calibración de los ítems: método de estimación Máximo-Verosímil Marginal. . . 391

Estimación bayesiana modal a posteriori del nivel de rasgo (MAP). . . 393

Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP) y desviación típica posterior (PSD). . . . . 396

Estimación bayesiana de los parámetros de los ítems. . . 397

Comprobación de la bondad de ajuste: métodos gráficos. . . 400

Procedimientos de equiparación de parámetros. . . 402

Apéndices. . . 408

Recomendaciones sobre los tamaños muestrales. . . 408

TRI: Software. . . 410

12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas Introducción. . . 419

El modelo de respuesta graduada (MRG) . . . 420

La puntuación esperada en el ítem y la Curva Característica del Test. . . 423

Supuestos de unidimensionalidad e independencia local. . . 424

(11)

Comprobación del ajuste: métodos gráficos. . . 431

Comprobación del ajuste: métodos estadísticos. . . 433

Estimación de θ. . . 436

Función de información. . . 436

Otros modelos politómicos. . . 439

Apéndice. . . 443

13. Funcionamiento diferencial de los ítems y adaptación de tests a otras culturas Sesgo, funcionamiento diferencial e impacto adverso. . . 447

Evidencias externas de sesgo. . . 448

Funcionamiento diferencial. . . 449

DIF uniforme y DIF no uniforme. . . 451

Estrategias para el estudio del funcionamiento diferencial. . . 452

Métodos basados en las puntuaciones directas. . . 452

Métodos basados en variables latentes. . . 458

Depuración de la prueba. . . 464

Consideraciones finales. . . 464

Impacto adverso. . . 465

Adaptación de tests a otras culturas. . . 468

Fuentes de error. . . 469

Procedimientos de traducción. . . 469

Estudios de equivalencia. . . 470

14. Otras estrategias de validación El análisis de regresión lineal múltiple y la validez referida a un criterio. . . 475

Marco de trabajo. . . 475

La correlación múltiple. . . 477

Los coeficientes de regresión. . . 480

Las pruebas de significación . . . 486

Supuestos. . . 487

Multicolinealidad. . . 489

Regresión por pasos (Stepwise). . . . 493

Técnicas de análisis estadístico de las matrices MRMM. . . 494

El estadístico “I” de Sawilowsky. . . 494

Aproximación desde el análisis factorial confirmatorio. . . 495

La generalización de la validez. . . 502

Validez diagnóstica de las puntuaciones. . . 504

Caso 1: Validez diagnóstica de las puntuaciones en un único test. . . 505

Caso 2: Validez diagnóstica de las puntuaciones en varios tests. . . 508

15. Tests informatizados y otros formatos de tests Tests informatizados. . . 512

Tests fijos informatizados. . . 512

(12)

Aplicaciones a través de Internet . . . 523

Tests basados en modelos. . . .. . . 524

Nuevos formatos para la prevención del falseamiento de respuestas. . . 525

Detección del falseamiento. . . 526

Prevención del falseamiento. . . 527

Comentarios finales. . . 530

Referencias. . . 533

(13)

Prólogo

Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo. Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto-res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectoauto-res?, ¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man-teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali-dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien-tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados temas que consideramos relevantes para una formación más elevada y que es difícil en-contrar en otros de los buenos textos sobre Medición escritos en español.

La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico-metría fundamental, pensados como los contenidos básicos para las asignaturas troncales de grado. ¿Qué es lo que consideramos como fundamental (podríamos calificarlo como “mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi-tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen-tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el estudiante se encuentre capacitado para entender la información psicométrica básica que aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos además por que el estudiante se enfrente con problemas concretos de medición, maneje el software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in-formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua-ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba-remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre-zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági-nas de docencia.

(14)

Los temas de la segunda parte, que podrían considerarse como la iniciación a una Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los que deben saber los estudiantes que quieran especializarse en temas de Metodología (en materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte pueden considerarse como extensiones y aplicaciones particulares de los descritos en la primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad, el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien-tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se-gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato-rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co-mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina-das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de los planes de estudio de grado.

Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro se describen los procedimientos básicos para realizar las estimaciones con diversos pro-gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio), MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio).

(15)

1

Introducción

Psicometría

Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la “psique”; hoy en día diremos mejor la medición de capacidades, atributos o características psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la formulación matemática para desarrollar teorías y modelos para la medición de variables

psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e

instrumentos para la mejor medición posible de dichas variables en cualquier contexto de especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas: rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi-ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien-tos o instrumenprocedimien-tos, en términos de su precisión (error de medida) y validez (inferencias de diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda-des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me-dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí-mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun-tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca-racterísticas de otras o establecer diseños observacionales para efectuar determinados re-gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a comprender la identidad y el sentido de la Psicometría como disciplina:

1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la me-dición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por

(16)

Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi-ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul-tad que representa la medición de hechos mentales (sensaciones) y proponen varios métodos indirectos para su medición. Realizaban experimentos donde incrementaban progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían la sensación contando el número de veces que una persona percibía cambios en dicha estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido) hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple-an el tiempo de reacción y la cemple-antidad de eventos recordados como medida de rendi-miento en diversos procesos psicológicos (atención, memoria…).

2. El interés inicial por la medición de las diferencias individuales. A finales del siglo XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio de las diferencias individuales, tratando de estudiar las distribuciones de diversas medi-ciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía (entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la ve-locidad del movimiento de los astros. Además de medidas antropométricas, Galton em-pleó determinados instrumentos para medir la fuerza física o la capacidad de discrimi-nación auditiva y visual; también le interesó medir los errores que cometían las perso-nas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores, J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación táctil, dolor...).

3. El interés inicial por la medición de capacidades cognitivas superiores. En los albores del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que esta-blezca procedimientos para diferenciar a los niños con deficiencia mental (que no son capaces de conseguir los objetivos escolares) de los que no tienen problemas intelec-tuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cogniti-vas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferen-te dificultad y condiferen-tenido para las distintas edades (entre 3 y 15 años), lo que se conside-ra que representa el primer intento de adaptar la dificultad de los tests al diferente nivel previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron ta-reas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de comparación de longitudes de líneas; para los mayores propusieron ítems sobre cons-trucción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad mental, como la media del rendimiento en un test de los estudiantes de una edad real determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos (Terman impulsa varias versiones) y comienzan a interpretarse normativamente las puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplica-ción masiva de tests de inteligencia (y los correspondientes formatos de respuesta de opción múltiple) se inicia con la evaluación de los soldados estadounidenses que

(17)

parti-cipaban en la Primera Guerra Mundial. También en este contexto comienzan algunos esbozos de lo que serán los tests psicométricos de personalidad, cuyo arranque será más tardío debido en parte a que inicialmente la medición de la personalidad se reali-zaba con tests proyectivos (Rorschach propone el suyo en 1921).

4. La Teoría Clásica de los Tests (TCT). En los primeros tests de Inteligencia, las puntua-ciones de las personas se daban como verdaderos indicadores de su nivel de capacidad, error que no pasó desapercibido para algunos estadísticos. En las dos primeras décadas del siglo XX, Spearman propone un sencillo modelo matemático para conceptualizar el error de medida (E) asociado a las puntuaciones de los tests (la idea fundamental se

re-fleja en el primer supuesto clásico (X =V+E), así como procedimientos para estimar

la fiabilidad de las puntuaciones (bajo la definición de tests paralelos) y las relaciones entre fiabilidad y longitud del test. Son los fundamentos de la TCT, que será completa-da progresivamente en las siguientes décacompleta-das por las aportaciones de otros autores, en-tre los que cabe destacar a Thurstone y Cronbach. Aunque hoy en día se sigue investi-gando sobre procedimientos y técnicas fundamentadas en la TCT, podría decirse que a mitad del siglo pasado están ya establecidos los pilares fundamentales del modelo clásico y de los métodos para estimar la fiabilidad de las puntuaciones. La vigencia de la TCT en la actualidad dice mucho del acierto de sus planteamientos y de su utilidad para la medición en Psicología. Muchos desarrollos del modelo clásico se aplican a puntuaciones que se obtienen con procedimientos diferentes a los tests.

5. No todo es error de medida: la validez de las puntuaciones. La enorme amplitud de aplicaciones de tests psicológicos hace necesario enfatizar los aspectos de la validez de las puntuaciones. Aunque pueden destacarse diferentes hitos históricos sobre el tema, nos referimos a 3 de ellos: a) Las puntuaciones en los tests de Cattel y en los tests de Binet se correlacionaron con las calificaciones escolares (por cierto, los segundos mos-traron mayor relación con el rendimiento académico), que es el inicio del estudio de evidencias de validez predictiva; ya Spearman había esbozado a principios de siglo la idea de que las diferentes medidas de capacidad cognitiva correlacionaban entre sí, lo que representa un primer esbozo de la búsqueda de evidencias sobre la estructura inter-na de los tests. b) Uinter-nas décadas después, hacia los años 30 y 40, los trabajos de Thurs-tone sobre análisis factorial proporcionarán la herramienta estadística para obtener este tipo de evidencias, aplicándose inicialmente en el marco del estudio de la inteligencia y de las aptitudes intelectuales que pueden diferenciarse. c) Siempre ha sido referencia en Psicometría un trabajo sobre validez de constructo de Cronbach y Meehl, publicado en 1955, en el que se amplían las estrategias de validación de las puntuaciones de los tests. 6. La Teoría de la Respuesta al Ítem (TRI). Si bien la TCT ha mantenido (y mantiene)

mucha vigencia para analizar las propiedades de las mediciones que realizamos con tests, en los años 60 del siglo pasado surgen nuevos modelos matemáticos (Rasch, Lord y Birnbaum son los pioneros de la TRI) con la intención de superar algunos de los in-convenientes del modelo clásico. La idea fundamental común a los diversos modelos de TRI, tal como veremos, será enfatizar el estudio psicométrico de los ítems (y no tan-to del test) y realizar mediciones invariantes de las propiedades métricas de los ítems (que no dependan de las características particulares de las muestras donde se aplican) y de las estimaciones de los niveles de las personas (que no dependan de las característi-cas particulares de los ítems aplicados). La TRI va a permitir ampliar las estrategias de medición con tests y las formas de estudiar las propiedades psicométricas de las

(18)

esti-maciones, tanto de los ítems como de las personas. Por ejemplo, progresivamente se emplearán desarrollos de TRI para la medición mediante Tests Adaptativos Informati-zados (TAI) o para el estudio del posible sesgo de los ítems y de los tests (si perjudican o no a un grupo concreto de personas).

¿Se ocupa sólo la Psicometría de las mediciones que se realizan con los tests? Claramente no. Aunque la Psicometría es fundamentalmente Teorías de los Tests, no lo es exclusiva-mente. Debe reconocerse que uno de los instrumentos que ha demostrado más utilidad

pa-ra la medición psicológica (y por tanto papa-ra el psicólogo aplicado) son los tests1, tal como

lo atestigua su cada vez más extenso uso en diferentes contextos de evaluación psicológi-ca y edupsicológi-cativa, y el enorme bagaje de investigación que actualmente se realiza sobre las teorías de los tests y sus aplicaciones, fundamentalmente en relación a los modelos y técnicas derivados de la TRI. No disponemos de mejores instrumentos cuando se pretende inferir el nivel de las personas en variables latentes no directamente medibles y de las que desconocemos sus valores verdaderos, y seguramente esta peculiaridad (la necesidad de medir variables no directamente observables) es la responsable de que en Psicología exista una disciplina propia dedicada a la medición, lo que no es usual en otras disciplinas cientí-ficas. Sin embargo, es la Psicometría la que debe guiar también el análisis de la calidad de otros tipos de mediciones, por ejemplo, las derivadas de entrevistas, métodos observacio-nales o técnicas psicofisiológicas, incluso cuando no sea el objetivo prioritario realizar in-ferencias sobre rasgos latentes sino describir comportamientos.

Hemos dicho que Psicometría no es únicamente Teorías de los Tests. Desde la tradi-ción psicofísica se enfatizan procedimientos y técnicas de asignatradi-ción numérica a objetos, eventos o personas empleando como instrumento de medida el propio juicio humano. Este núcleo de interés, denominado tradicionalmente como Escalamiento, fue evolucionando desde los objetivos establecidos por la Psicofísica a la medición de atributos estrictamente psicológicos carentes de correlatos físicos. En las primeras décadas del siglo XX, Thurs-tone propuso varios modelos y procedimientos estadísticos (sus famosas leyes del juicio comparativo y categórico) para, a partir de ciertos juicios subjetivos de un grupo de per-sonas, ordenar cuantitativamente en una escala unidimensional, por ejemplo, la gravedad de determinados delitos o el nivel actitudinal de las personas sobre un tema determinado. Con el tiempo, autores como Torgerson, Shepard y Kruskal propondrán modelos de esca-lamiento multidimensional, también basados en estrategias de recogida de datos sobre jui-cios de las personas, donde un determinado estímulo o persona tiene asignaciones numéri-cas en diversas dimensiones. En español, los libros de Arce (1993, 1994) y Real (2001) describen estos y otros modelos de escalamiento, así como el modo de aplicarlos con dife-rentes programas informáticos.

Dados los problemas peculiares que tenemos para la medición de atributos psicológi-cos, la Psicometría se ha planteado también, desde las denominadas como Teorías de la Medición, lo que realmente representa medir y las propiedades de los números que asig-namos a las personas o a los estímulos en determinados atributos psicológicos. Se han propuesto diferentes teorías para establecer los requisitos lógicos y matemáticos que de-ben cumplirse para que las asignaciones numéricas representen realmente a los atributos

1A veces se emplea, en vez de test, otros términos como cuestionario, escala, inventario o examen, para

enfati-zar que con el instrumento se pretende medir atributos concretos (por ejemplo, personalidad, actitudes, conduc-tas o conocimientos).

(19)

psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia-das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer-temente criticada desde otras perspectivas (teorías representacional, de medición conjunta, operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda (2008); los planteamientos teóricos y los principales puntos de controversia, a veces im-portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están bien descritos en los libros de Michell (1999) y Borsboom (2005).

Tipos de tests y ámbitos de aplicación

Consideramos genéricamente un test como un procedimiento estandarizado que sirve para muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi-cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente. A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe-mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de-terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res-ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el nivel de comprensión escrita en el idioma.

Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar, los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse elaborado adecuadamente. En segundo lugar, un test requiere una administración contro-lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua-ción establecidas en el proceso de construcpuntua-ción del test. En tercer lugar, el test debe pre-tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos.

Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata-ron y editarescata-ron unos “Apuntes para un curso de Psicología aplicada a la selección profesio-nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura, representa una de las primeras veces que en España se habla sistemáticamente de los tipos y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po-cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida-des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in-dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests de capacidades o habilidades, tanto generales como específicas, y que en la selección pro-fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con-trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in-teligencia general). Seguramente influenciado por los procedimientos de medida de

(20)

Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa-ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me-dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta-ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense). Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so-bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba-jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi-cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso-nales vs. imperso(perso-nales), al modo de aplicación (individuales vs. colectivos), al material que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona-lidad).

Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela-boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona-les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando de realizar un resumen sobre los diferentes tipos de tests de que disponemos en la actuali-dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es-tablecer los siguientes:

1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal como se hace en los tests de personalidad o en las escalas de actitudes).

2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de un mismo test.

3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa-tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un grupo de personas específico) y tests adaptativos informatizados (los que presentan di-ferentes ítems del banco a los didi-ferentes evaluados, dependiendo del nivel progresivo que vayan manifestando en la prueba).

4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests referidos al criterio (la interpretación se refiere al rendimiento individual conseguido por una persona en relación a unos criterios o dominios establecidos de antemano). Ca-be interpretar desde ambas perspectivas el rendimiento en el mismo test.

(21)

5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de res-puesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntua-ción singulares, empleando los recursos que tienen los ordenadores.

6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psi-cométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos. 7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba,

hablamos, respectivamente, de tests de velocidad o tests de potencia.

Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas (2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al es-tudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender, por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros consegui-dos con programas de intervención psicosocial); y descripción e información (informan de lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país… en relación a los demás).

Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psi-cológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los re-sultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios mi-les de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada vez son más importantes las consecuencias que para las personas y las organizaciones tie-nen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto a otros países, tanto los profesionales de la Psicología como otros responsables de organi-zaciones públicas y privadas confían cada vez más en la utilidad de los tests para conse-guir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a la acreditación de competencias individuales e institucionales.

En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha am-pliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez existen más requerimientos profesionales (y más es-pecíficos) sobre los rasgos, competencias o comportamientos que deben medirse. Además, la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha

(22)

impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a los modelos teóricos en que se sustentan.

En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete-mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría-mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones) está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa-ra estudiar las gapa-rantías que ofrecen sus aplicaciones, entre los que destacan los modelos de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga-rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu-ras a otcultu-ras.

En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos, ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la eficiencia de las aplicaciones.

(23)

2

Construcción de tests

y análisis de ítems

Un test está formado por una serie de ítems (o elementos, reactivos, preguntas, cuestio-nes,…) a los que cada individuo debe responder. Después de cuantificar las respuestas de una persona a los ítems del test, se pretende asignar una puntuación (a veces, varias) a esa persona respecto al constructo o atributo que se pretende medir. La puntuación asignada debería indicar su grado o nivel en el atributo, constructo o rasgo a evaluar. Vimos en el capítulo precedente que en las Ciencias Sociales y de la Salud es frecuente recurrir a indi-cadores para obtener la posición de la persona en un constructo. Se puede, por ejemplo, inferir su posición social tras preguntarle dónde vive, cómo es su casa, cuánto gana… Pa-ra la medida de muchos constructos utilizamos también la medición mediante indicadores (Navas, 2001). Los ítems de un test de Responsabilidad, por ejemplo, serán los indicado-res que nos permitan llegar al nivel de la persona en la variable latente Responsabilidad, a partir de un conjunto de respuestas.

En este tema vamos a estudiar cómo se construyen los tests y los indicadores de cali-dad psicométrica de los ítems. En capítulos sucesivos estudiaremos los indicadores de ca-lidad del test como un todo.

El primer paso para la construcción del test es detallar minuciosamente los objetivos que se pretenden conseguir con su aplicación y las características fundamentales que debe tener. Cuando hayamos especificado ambas cosas, tendremos que decidir el tipo de ítem que resulta más apropiado. Estudiaremos los formatos más comunes y las normas de re-dacción que se recomienda seguir.

En el proceso de construcción de un test hay que elaborar más ítems de los que pen-samos aplicar, con la idea de someterlos a un proceso de control de calidad que nos permi-ta quedarnos con los más apropiados y conseguir así el mejor test posible. El proceso de control de calidad tiene dos partes: una cualitativa y otra cuantitativa. La cualitativa

(24)

pre-cede a la administración de los ítems y requiere que varios expertos comprueben que se han seguido correctamente todos los pasos en la construcción del test.

Estudiaremos también cómo se convierten en valores numéricos las respuestas dadas a los ítems. El siguiente paso del proceso es la aplicación piloto del test provisional (es de-cir, del test formado a partir de los ítems que se consideran adecuados tras el análisis cua-litativo). Tras la administración piloto, se procede al estudio cuantitativo de las caracterís-ticas de los ítems mediante un proceso denominado como análisis de ítems. A continua-ción, hay que decidir qué ítems concretos formarán el test definitivo. Se llama ensamblaje del test al proceso por el que se forma el test a partir de los ítems disponibles que han su-perado los controles de calidad.

Una ventaja de seguir un proceso sistemático es que se va a conseguir un test similar al que hubiesen obtenido otros expertos, e incluso a un segundo test que hiciéramos noso-tros, si éste fuera el interés. El proceso de construcción requiere además que se haya pen-sado en todos los aspectos que afectan a la calidad del test resultante, lo que previsible-mente ayudará a conseguir un mejor resultado final.

Diseño del test

Lo primero a especificar es el constructo, atributo o característica psicológica a evaluar y el propósito del test. Hay que dar respuestas a tres preguntas (Navas, 2001): ¿Qué se va a medir con el test?, ¿a quién se va a medir? y ¿qué uso se piensa hacer de las puntuacio-nes? Podemos querer evaluar el nivel de Autoestima, Motivación, Inteligencia, el nivel de conocimientos en cierta materia, la calidad autopercibida del sueño, etc. Las teorías sobre los constructos suponen siempre un punto de referencia importante. Ciertamente son mu-chos los constructos que podemos querer evaluar, pero no son menos los propósitos de la evaluación. Por ejemplo, en un test educativo, Bloom, Hastings y Madaus (1971) han pro-puesto tres posibles propósitos: a) la evaluación inicial para diagnosticar puntos fuertes y débiles y ubicar a los estudiantes en el curso adecuado, b) la evaluación formativa para va-lorar el progreso en la instrucción y decidir qué y cómo enseñarles, y c) la evaluación su-mativa para determinar el nivel de conocimientos adquirido en un curso por cada estu-diante.

El propósito del test condiciona qué tipos de ítems pueden ser más apropiados. Por ejemplo, un test para la evaluación del dominio del inglés, a aplicar en las pruebas de ac-ceso a la universidad, puede requerir ciertos tipos de ítems (por ejemplo, que evalúen la comprensión de textos científicos), distintos de los que pudiera utilizar un test a aplicar en procesos selectivos y cuyo propósito sea excluir del proceso a los candidatos que no al-cancen un nivel mínimo prefijado de comprensión oral del idioma.

Hay que atender a varias características de la población a evaluar, como la edad, el ni-vel educativo, la familiaridad con el medio de administración (por ejemplo, con el orde-nador cuando se vaya a construir un test informatizado), la eventual presencia de discapa-cidades y de diferencias en el dominio del lenguaje. En estos dos últimos casos, habría que considerar la política de acomodaciones a aplicar y su equivalencia (comprobar que la puntuación en el test corresponde al nivel en el constructo, sin ventaja o desventaja atri-buible a las acomodaciones). La acomodación más frecuente consiste en modificar el tiempo de administración, de manera que un evaluado con discapacidad motora, por

(25)

ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra-ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua-do para facilitarle su comprensión.

Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or-denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo, en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las restricciones, las más importantes son las relacionadas con el tiempo de administración. Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la materia que uno con el que se consigue la acreditación para trabajar como médico, por ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u otras características psicométricas, más largo o más corto y que requiera más o menos tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs-to o las decisiones que se previs-toman en el proceso de evaluación.

Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite-rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos. También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua-ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test.

Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru-zar los contenidos y las destrezas. En evaluación educativa, hay que analicru-zar el programa del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte, hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la especificación de los contenidos y destrezas.

La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico. Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas, gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi-lidad para seleccionar y aplicar principios y reglas, analizar e interpretar situaciones, ex-traer conclusiones y diagnosticar necesidades y problemas).

La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren-sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora-miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar en ellos exclusivamente la destreza Comprensión.

(26)

Tabla 2.1. Ejemplo de tabla de especificaciones

Peso del contenido Peso de las destrezas cognitivas Comprensión Aplicación

Fundamentos del asesoramiento 6% 4% 2%

Modelos de asesoramiento 1% 1% 0% Propósitos y objetivos del

asesora-miento 2% 1% 1% Consideraciones éticas y legales 2% 1% 1% El equipo de asesoramiento 1% 1% 0% Asesoramiento individual 30% 10% 20% Asesoramiento grupal 10% 5% 5% Desarrollo de carreras 20% 13% 7%

Total del test 100% 42% 58%

Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable-cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política, ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de vida en la población general (la situación familiar, social, laboral…) y, además, los es-pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien-to, temor ante la evolución de la enfermedad…).

Construcción provisional del test

El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re-comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te-ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po-dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi-gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si-guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua-ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems depende del nivel de dominio del constructo que se quiere evaluar.

(27)

Tipos y formatos de ítems

Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi-co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc. En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di-fieren en las siguientes 3 características:

1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que de-terminarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sen-cilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el evaluado; mientras que en los de potencia se presta especial atención a las característi-cas de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo son de potencia, si bien se fija el tiempo de administración de modo que no sobre de-masiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evalua-dos más lentos. Para considerar a una prueba como un test de potencia suele establecer-se que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de los ítems (Schmeiser y Welch, 2006).

En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevan-cia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplica-ción y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a los ítems, no para indicar que el tiempo de administración es limitado.

2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo, cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de ve-locidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese (puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por lo general, como no suele haber tests puros, lo que se suele hacer es considerar como ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omi-siones los no respondidos que preceden a su última respuesta. Tal proceder no está exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evalua-dos. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último ítem respondido en la primera pasada rápida, van a ser considerados como omisiones cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006).

(28)

En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi-car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado. Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60 ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues-ta cuando son menos de 10.

3. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible ob-tener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de rendimiento típico no caben las respuestas al azar si se está respondiendo al test con se-riedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos po-demos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas, mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a res-ponder afirmativa o negativamente a un ítem independientemente de su contenido. Para evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos; en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de ras-go, mientras que en los segundos se espera negativa. El problema de la deseabilidad social y del falseamiento de las respuestas en los tests, dada su importancia en determi-nados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de este libro.

Formatos de ítems en tests de rendimiento óptimo

1

En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res-puesta construida) o preguntas con opciones preestablecidas (formato de resres-puesta selec-cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los ítems de verdadero-falso y los de opción múltiple.

a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co-rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser:

Pi y Margall fue presidente de la 1ª República Española.

V( ) F( )

1 En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de

rendi-miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno-vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc-tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea, Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos.

(29)

b) Opción múltiple. Un ítem de opción múltiple consta de un enunciado y de tres o más opciones de respuesta, de las que sólo una es correcta. Por ejemplo, un ítem de un test de aptitud verbal puede ser:

Coche es a volante, como bicicleta es a... a) Pedal

b) Sillín c) Manillar d) Cambio

Hay también varios tipos de ítems de respuesta construida (Navas, 2001). Los hay que re-quieren sólo completar una frase (Las provincias que integran la Comunidad Autónoma de Extremadura son…..); otros requieren una respuesta más extensa, aunque breve, como responder en un párrafo de pocas líneas; o mucho más extensa, como hacer una redacción o construir una maqueta. Un ítem que requiere una respuesta corta sería Exponga en no más de 10 líneas las dos principales características de la pintura de Goya, y una extensa Detalle la influencia de los escritores latinoamericanos en la novela española del siglo XX. Otro tipo de examen abierto es el portafolio, en el que el evaluado presenta a evaluar un conjunto de trabajos que ha realizado y que considera buenos ejemplos del nivel de aprendizaje que ha alcanzado.

En las décadas 80-90 hubo mucho debate en contextos de evaluación educativa sobre si eran mejor los ítems de respuesta construida o seleccionada. Los partidarios de la res-puesta construida decían que sólo este formato permite la evaluación de procesos superio-res y que la superio-respuesta seleccionada tiene el problema de los aciertos por azar. Los partida-rios de la respuesta seleccionada enfatizaban que este formato muestrea mejor los conte-nidos, pues pueden hacerse más preguntas, y que la corrección es subjetiva y más costosa en los ítems de respuesta construida. Estudios posteriores han puesto de manifiesto que las respuestas a los ítems abiertos se pueden cuantificar de forma fiable, que con ambos tipos de ítems se puede evaluar procesos de aprendizaje de alto nivel y que ambos formatos proporcionan resultados altamente correlacionados cuando se mide el mismo dominio. Algunos autores enfatizan que no resultan formatos redundantes, pues se suelen medir destrezas distintas (Schmeiser y Welch, 2006). Por tanto, ambos tipos de ítems más que ser excluyentes son complementarios; unos son más apropiados que otros según sean los objetivos concretos del test (Martínez, Moreno y Muñiz, 2005).

Una exposición más detallada de otros formatos alternativos para ítems de respuesta construida y para ítems de respuesta seleccionada puede consultarse en la página web http://www.uam.es/docencia/ace/ y en Martínez et al. (2005).

Formatos de ítems en tests de rendimiento típico

Los formatos de respuesta seleccionada más frecuentes en los tests de rendimiento típico son los de opción binaria y categorías ordenadas:

a) Opción binaria: La persona debe elegir entre dos opciones antagónicas: por ejemplo, ante un determinado enunciado, manifestar si está de acuerdo o no, o decir si describe su

(30)

modo usual de comportarse. Un ítem de un cuestionario sobre la actitud de los padres hacia los profesores de sus hijos puede ser:

En realidad, los profesores hacen poco más que cuidar de nuestros hijos cuando trabajamos. Desacuerdo ( ) Acuerdo ( )

b) Categorías ordenadas. Se establece un continuo ordinal de más de dos categorías, que permite a la persona matizar mejor su respuesta. Puede o no incluir una categoría central para indicar la posición intermedia de la escala de respuesta. Por ejemplo, un ítem sobre la actitud de los adolescentes hacia el consumo de drogas podría ser el que sigue:

Las drogas pueden realmente resolver problemas de uno mismo. ( ) Muy en desacuerdo

( ) Bastante en desacuerdo ( ) Neutral

( ) Bastante de acuerdo ( ) Muy de acuerdo

En el ítem precedente Muy en desacuerdo, Bastante en desacuerdo… serían las etiquetas de las cinco categorías. A veces, se establecen sólo las dos etiquetas extremas del conti-nuo, dejando señaladas las restantes categorías, como muestra la siguiente escala de res-puesta:

(Muy en desacuerdo)__ __ __ __ __ __ __ (Muy de acuerdo)

Hay varios tipos de escalas de respuestas (Morales, Urosa y Blanco, 2003). Las más co-munes son la de grado de acuerdo y la de frecuencia. En la primera, llamada también es-cala tipo Likert, se ha de manifestar el grado de acuerdo con la frase, mientras que en la segunda se ha de indicar la frecuencia del comportamiento descrito en el enunciado. En otras escalas de respuesta se ha de indicar la importancia que se da a lo que indica la frase o cómo de correcta es la descripción que la frase hace de quien responde. Los dos ítems que siguen utilizan la escala de grado de acuerdo y la de frecuencia, respectivamente. Me encanta Madrid. En desacuerdo Indiferente De acuerdo Cuido mi alimentación. Nunca Algunas veces Muchas veces Siempre

Tres asuntos relevantes en relación a los ítems tipo Likert son el número de categorías de la escala de respuesta, la presencia o no de categoría central y la elección de las etiquetas. Se suele recomendar que el número de categorías sea 5 o un valor próximo (Hernán-dez, Muñiz y García-Cueto, 2000; Morales et al., 2003). No se obtienen mejores tests cuando se utilizan escalas de respuestas con muchas más categorías, pues se producen

(31)

in-consistencias en las respuestas. La probabilidad de que una persona elija la misma cate-goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor si ha de responder con una escala de 5 categorías que con una de 20, de ahí que, cuando son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo, dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio-nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una escala de pocas categorías.

En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número par o impar de categorías. Hay razones a favor y en contra de la categoría central (que puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al-guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la categoría central argumentan que con demasiada frecuencia dicha categoría termina sien-do la elegida por los que responden con poco cuidasien-do o de forma poco sincera. Los parti-darios de un número par de categorías suelen serlo también de un número más alto de ca-tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen-trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate-goría central cuando el número de catecate-gorías es mayor de tres (Morales et al., 2003). Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55-58) muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdo-desacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el con-tinuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos primeras categorías es menor que la que hay entre la segunda y tercera.

La Educación está en crisis. Muy en desacuerdo En desacuerdo De acuerdo Muy de acuerdo

Redacción de ítems de opción múltiple

Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz (2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que reproducimos a continuación con ligeros cambios:

Referencias

Documento similar

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Ésta es una constatación que no se puede obviar en la reflexión sobre la reforma del sistema competencial: la combinación entre un sistema de atri- bución mediante

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..