es la puntuación obtenida, T es la pun tuación

verdadera y e representa los errores de medición.

Por lo tanto, los errores de medición representan discrepan cias entre las puntuaciones obtenidas y las pun tuaciones verdaderas correspondientes:

e X T

Observe en las ecuaciones anteriores que el error de me- dición e puede ser positivo o nega tivo. Si e es positivo, la puntuación X obtenida será más alta que la puntuación verdadera T. Por el contrario, si e es negativo, la puntua- ción obtenida será menor que la puntuación verda dera. Aunque es imposible eliminar todos los errores de me-

dición, los diseñadores de pruebas se esfuerzan por reducir

al mínimo este inconveniente psicométrico al prestar una aten ción cuidadosa a las fuentes de error de medición que se explican en la siguiente sección.

Por último, es importante destacar que la puntua- ción verdadera nunca se conoce. Como descubrirá el lector, es posible obtener una pro babilidad de que la puntuación verdadera resi da dentro de cierto intervalo y también se puede extraer una mejor estimación de la puntua ción verdadera. Sin embargo, nunca será posible conocer con certidumbre el valor de una puntuación verdadera.

● FUENTES DE ERROR

DE MEDICIÓN

Como indica la fórmula X T e, el error de medición

e es todo aquello que no sea la puntua ción verdadera y

que forma parte de la pun tuación obtenida en la prueba. Los errores de medición pueden surgir de innumerables fuen tes (Feldt y Brennan, 1989). Stanley (1971) ofrece una lista inusualmente amplia. Aquí se describirán solo las contribuciones más im portantes y probables: la selec- ción de reactivos, la aplicación de la prueba, el cálculo de su calificación y los errores sistemáticos de medición.

Selección de reactivos

Una fuente de error de medición es el instru mento en sí mismo. El diseñador de una prueba debe decidirse por un número finito de reactivos de una reserva potencial- mente infinita de preguntas de prueba. ¿Cuáles preguntas deben incluirse? ¿Cómo deben redactarse? La selección de reactivos es crucial para la exactitud de la medida.

Aunque los psicólogos se esfuerzan por obtener reactivos representativos, el conjunto particular de preguntas elegidas para una prueba podría no ser equitativo para todos los individuos. Un ejemplo hipotéti co y deli- beradamente extremo servirá para ilus trar este punto: incluso un estudiante bien preparado podría reprobar una prueba académica que enfatizara las poco visibles notas de pie de página del libro de texto. En contraste, un estu diante mal preparado, pero curioso, que hubiera estudiado tan solo las notas de pie de página, po dría tener un buen resultado en un examen de este tipo. Las califi- caciones de ambos reflejarían cantidades masivas de error de me dición. Recuerde que en este contexto la puntua- ción verdadera es lo que el estudiante realmente sabe. Para el estudiante escrupulo so, la calificación obtenida sería bastante inferior a su calificación verdadera, como resultado de una enorme dosis de error de medición. Para el se gundo estudiante con suerte, la puntuación obtenida sería bas tante más alta que su puntuación verdadera, a causa de un error positivo de medición.

Desde luego, en una prueba bien dise ñada, el error de medición proveniente de la muestra de reactivos será mínimo. Sin embar go, una prueba siempre constituye una muestra y nunca la totalidad del conocimiento o de la con ducta de un individuo. Como resultado, la se- lección de reactivos siempre es una fuente de error de medición en las pruebas psicológicas. Lo mejor que puede hacer un psicólogo es re ducir al mínimo este inconveniente indeseable al aten der con cuidado los pro- blemas relacionados con la elaboración de pruebas. Se analizarán los aspectos técnicos de la selección de reactivos en el tema 4B, Elaboración de pruebas.

Aplicación de la prueba

Aunque los examinadores suelen proporcionar un am- biente óptimo y estandarizado de prueba, las circunstan- cias de aplicación pue den generar numerosas fuentes de error de medición. Ejemplos de las condiciones ambien- tales generales que podrían ejercer una influencia desfa- vorable sobre la exactitud de la medición incluyen una temperatura desagradable en la habi tación, iluminación

deficiente y ruido excesi vo. En algunos casos, no es posible anticipar las cualidades de la situación de prueba que contribuirán al error de medición. Considere el siguiente ejemplo: un estudiante de licenciatura, que en otros sentidos es mediocre, responde correctamente un reacti- vo no muy difícil de información: “¿Quién es cribió Los

cuentos de Canterbury?”. Cuando se le interroga después

sobre si ha leído alguna obra de Chaucer, el estudiante responde: “No, pero el libro está justo detrás de usted en el li brero”.

Las fluctuaciones momentáneas de ansie dad, moti- vación, atención y nivel de fatiga en el examinado tam- bién pueden introdu cir fuentes de error de medición. Por ejemplo, una persona que no durmió bien la noche anterior a la prueba tal vez carezca de concen tración y, por lo tanto, leerá mal las preguntas. Un estudiante dis- traído por una angustia emocional temporal podría res- ponder inadvertidamente en las columnas incorrectas de la hoja de res puestas. La pesadilla clásica en este sentido es el individuo que se brinca una pregunta –por ejemplo, la número 19– pero olvida dejar en blanco el espacio correspondiente en la hoja de respuestas. Como resultado, todas las respues tas subsiguientes están desfa- sadas, con la res puesta 20 anotada en la hoja de respuestas como reactivo 19 y así sucesivamente.

El examinador también puede contribuir a los errores de medición en el proceso de apli cación de la prueba. En una prueba aplicada oralmente, el hecho de que el examinador, de manera inconsciente, asienta con la ca- beza podría transmitir a la persona examinada que va por buen camino, con lo cual la guía ha cia la respuesta correcta. Por el contrario, un examinador lacónico y brusco podría intimi dar al examinado, quien, en otras circuns- tancias, estaría dispuesto a dar la respuesta correcta.

El proceso de calificación de la prueba

Cuando una prueba psicológica utiliza un for mato dife- rente al de opción múltiple que se califica por medios mecánicos, se requiere cierto grado de juicio para asig- nar puntos a las respuestas. Por fortuna, la mayoría de las prue bas tienen criterios bien definidos para las respuestas que se dan a cada pregunta. Estas guías ayudan a reducir al mínimo el efecto del juicio subjetivo sobre la calificación (Gregory, 1987). Sin embargo, la subjetivi- dad de la cali ficación como fuente de error de medición puede ser un grave problema en la evaluación de pruebas proyectivas o preguntas de ensayo. En relación con las pruebas proyectivas, Nunnally (1978) señala que

quien aplica una prueba proyectiva podría pasar por un cambio evo lutivo en los criterios de calificación con el paso del tiempo, llegando a considerar que un tipo particular de respuesta es cada vez más patológico con cada encuentro.

Error sistemático de medición

Las fuentes de inexactitud analizadas con anterioridad se conocen en conjunto como error no sistemático de medi-

ción, lo cual implica que sus efectos son inconsistentes e

impredecibles. Sin embargo, existe otro tipo de error de medición que constituye un verdadero fantasma en la maquinaria psicométrica. Un error sistemático de me-

dición surge cuando, sin que el autor lo sepa, la prueba

mide de manera consistente alguna otra condición que no es el rasgo para el cual se creó. Suponga, por ejemplo, que una escala que mide la introversión social también detecta en forma inadvertida, y de ma nera consistente, la ansiedad. En este caso la ecuación que representa la rela- ción entre puntuaciones observadas, puntuaciones verdaderas y fuentes de error de medición sería:

X T e

s eu

donde X es la puntuación obtenida, T es la pun tuación verdadera, e_s es el error sistemático debi do al subcompo- nente de ansiedad y e_u es el efecto colectivo de los errores de medición no sistemáticos descritos antes.

Como, por definición, su presencia no se detecta desde el inicio, los errores sistemáticos de medición pueden constituir un problema significativo en el desarrollo de pruebas psico lógicas. Sin embargo, si los psicólogos utili- zan los procedimientos adecuados de desarrollo de pruebas que se analizan en el tema 4B, Elaboración de pruebas, el efecto de los errores sistemáticos de medición se puede redu cir en gran medida. Sin embargo, los erro res siste- máticos de medición sirven como recordatorio de que es muy difícil, si no imposible, evaluar de verdad un rasgo totalmente aislado de otros.

● ERROR DE MEDICIÓN

Y CONFIABILIDAD

Quizá para este momento el lector se pregunte qué tiene que ver el error de me dición con la confiabilidad. La co- nexión más evidente es que el error de medición reduce

la confiabilidad o posibilidad de repetición de los resultados de una prueba psicológica. De hecho, aquí demos- traremos que la confiabilidad tiene una relación estadís- tica precisa con el error de medición. La confiabilidad y el error de medición son, en rea lidad, solo formas diferentes de expresar la misma preocupación: ¿qué tan consistente es una prueba psicológica? La interdependencia de ambos conceptos se aclarará si damos una mayor ex- plicación de la teoría clá sica de la medición.

Una suposición crucial de la teoría clásica es que los errores no sistemáticos de medición actúan como in- fluencias aleatorias. Esto no significa que las fuentes de error de medi ción sean totalmente misteriosas e incom- pren sibles en cada caso particular. En el caso de una persona, podría sospecharse que su pun tuación en Re- tención de dígitos refleja un error ligeramente negativo de medición causado por la interferencia auditiva de al- guien que tosió en el pasillo, durante la presentación del quinto reactivo. De la misma manera, podría conjetu- rarse que otra persona recibió el benefi cio de un error positivo de medición al ver a través de un espejo, coloca- do detrás del exami nador, la respuesta correcta al nove- no reactivo en una prueba de información. Así, el error de me dición no necesariamente es un acontecimiento misterioso en cada caso individual.

Sin embargo, cuando se examinan las pun tuaciones de prueba de grupos de personas, las causas del error de medición son increíblemente complejas y variadas. En este contexto, los erro res no sistemáticos de medición se comportan como variables aleatorias. La teoría clásica acep ta esta aleatoriedad esencial del error de medición como una suposición axiomática.

Los errores no sistemáticos de medición, al ser suce- sos aleatorios, tienen la misma probabilidad de ser posi- tivos o negati vos y, por lo tanto, tienen un promedio de cero en los grupos grandes de sujetos. Así, una segunda suposición es que la media del error de medición es igual a cero. La teoría clásica también supone que los errores de medición no se correlacionan con las puntua ciones ver - daderas. Esto tiene una lógica intuitiva: si las puntuaciones de error se rela cionaran con otra puntuación, esto sugeriría que son sistemáticas más que aleatorias, lo cual vio laría la suposición esencial de la teoría clásica. Por úl- timo, también se supone que los errores de medición no se correlacionan con errores en otras pruebas.

Se pueden resumir las características prin cipales de la teoría clásica de la siguiente manera (Gulliksen, 1950, capítulo 2):

1. Los errores de medición son aleatorios. 2. La media del error de medición es igual a 0.

3. Las puntuaciones verdaderas y los errores no se co- rrelacionan: r_Te 0.

4. Los errores en diferentes pruebas no se correlacio- nan: r₁₂ 0.

Si partimos de estas suposiciones, es posible desarrollar varias implicaciones importantes para la confiabilidad y la medición. (Los siguientes puntos se basan en la supo- sición optimista de que los errores sistemáticos de medi- ción son mínimos o inexistentes para el instrumento en cuestión). Por ejemplo, se sabe que cualquier prueba aplicada a un grupo grande de individuos mostrará una variabilidad en las puntuaciones obtenidas que puede expresarse en términos estadísticos como una varianza, es decir, s2_{. El valor de la teoría clásica es que nos permi-} te dividir la varianza de las puntuaciones obtenidas en dos fuentes separadas. De forma específica, puede de- mostrarse que la varianza de las puntuaciones obtenidas es simplemente la varianza de las puntuaciones verdaderas más la varianza de los errores de medición:

sX2 sT2 se2

El lector interesado podrá consultar a Gulliksen (1950, capítulo 3) para conocer los detalles sobre el cálculo.

La fórmula anterior demues tra que las puntuaciones de prueba varían como resultado de dos factores: la variabilidad de las puntuaciones verdaderas y la variabilidad de bida al error de medición. La implicación evidente de esta relación es que los errores de medición contribu- yen a la inconsistencia de las puntuaciones de prueba obteni das; los resultados no continuarán siendo estables si la prueba se aplica de nuevo.

● COEFICIENTE DE CONFIABILIDAD

Por fin estamos en posición de describir la relación precisa entre confiabilidad y error de medición. Para este momento, el lector deberá entender que la confiabilidad expresa la influencia relativa de las puntuaciones verdaderas y de error en las puntuaciones obteni das en la prueba. En términos matemáticos más precisos, el coefi-

ciente de confiabilidad (r_XX) es el cociente de la varianza de la puntua ción verdadera entre la varianza total de las pun tuaciones de prueba. Es decir:

sT2 r_XX s_X2 o de manera equivalente: sT2 r_XX s_T2_s e 2

Observe que el rango de valores potenciales de r_XX puede obtenerse del análisis de la fórmu la anterior. Con- sidere lo que ocurre cuando la varianza debida al error de medición (s_e2_{) es muy pequeña, cercana a cero. En} ese caso, el coeficiente de confiabilidad (r_XX) se acer ca a un valor de (s_T2_/s

T2) o 1.0. En el extremo opuesto, donde la varianza debida al error de medición es muy grande, el valor del coefi ciente de confiabilidad se vuelve más peque ño, acercándose a un límite teórico de 0.0. En resumen, una prueba sin confiabilidad (con un error de medición muy grande) producirá un coeficiente de con- fia bilidad cercano a 0.0, mientras que una prueba com- pletamente confiable (sin error de medición) producirá un coeficiente de confiabilidad de 1.0. Así, el rango posible del coeficiente de confiabilidad se encuentra entre 0.0 y 1.0. En la práctica, todas las pruebas producen un coeficiente de confiabilidad que se coloca en algún pun- to intermedio, pero cuanto más cercano sea el valor de

r_XX a 1.0, mejor.

En un sentido literal, r_XX indica la propor ción de la varianza en las puntuaciones obtenidas en la prueba, que se explica por la variabilidad de las puntuaciones verdaderas. Sin embar go, la fórmula para el coeficiente de confiabilidad r_XX indica también una interpretación adicional. El lector recordará que las puntuaciones obte- nidas se simbolizan como X. De la misma manera, los subíndices en el símbolo del coeficiente de confiabilidad significan que r_XX es un índice de la consistencia poten-

cial o real de las puntuaciones obtenidas. Así, las pruebas que tienen cantidades mínimas de error de me dición producen puntuaciones consistentes y confiables; sus coeficientes de confiabilidad son cercanos a 1.0. A la inversa, las pruebas que reflejan grandes cantidades de error de medi ción producen puntuaciones inconsistentes y poco confiables; sus coeficientes de confiabilidad son cercanos a 0.0.

Hasta ahora, nuestro análisis de la confiabilidad ha sido conceptual más que prác tico. Se ha señalado que la confiabilidad se re fiere a la consistencia de la medición; que se reduce en la medida en que los errores de medi- ción dominan la puntuación obtenida; y que un índice estadístico de la confiabilidad, el coeficiente de confiabilidad, puede variar en tre 0.0 y 1.0. Pero ¿cómo se calcula una medida estadística de la confiabilidad? Trataremos este tema de manera indirecta, revisando primero una

herramienta estadística esencial, el coefi ciente de corre- lación. El lector descubrirá que el coeficiente de correla- ción, un índice numé rico de la relación lineal entre dos conjuntos de puntuaciones, es una herramienta excelen- te para evaluar la consistencia o la posibilidad de repeti- ción de las puntuaciones de prueba. Se hará un breve repaso del significado de la correlación antes de presen- tar un resumen de los métodos usados para estimar la confiabilidad.

● COEFICIENTE DE CORRELACIÓN

En su aplicación más común, un coeficiente de corre-

lación (r) expresa el grado de relación li neal entre dos

conjuntos de puntuaciones obte nidas de las mismas personas. Los coeficientes de correlación pueden tomar valores que van de 1.00 a 1.00. Un coeficiente de co- rrelación de 1.00 significa una relación lineal perfecta entre los dos conjuntos de puntuaciones. En particular, cuando dos medidas tienen una co rrelación de +1.00, el orden de los sujetos es idéntico para ambos conjuntos de puntuaciones. Además, cuando los datos individuales (cada uno representa un par de puntuaciones de un solo sujeto) se ordenan en una diagrama de dispersión (figu- ra 3.10a), forman una línea perfectamente recta con una pendiente ascendente. Un coeficiente de correlación de 1.00 significa una relación igualmente fuerte, pero con una corresponden cia a la inversa: la puntuación más alta en una va riable corresponde a la puntuación más baja en la otra y viceversa. En este caso, los datos de cada individuo forman una línea perfec tamente recta con una pen- diente descendente (figura 3.10b). Las correlaciones de 1.00 y 1.00 son muy poco frecuentes en la investiga- ción psicológica y, en general, denotan una con clusión trivial. Por ejemplo, si en dos ocasiones en rápida suce- sión contamos el número de letras en el nombre de 100 estudiantes, estos dos conjuntos de “puntuaciones” mostrarían una correlación de 1.00.

Las correlaciones negativas suelen ser el resultado de la manera en que se califica a una de las dos variables. Por ejemplo, las pun tuaciones en la Prueba de Catego- rías (Category Test; Reitan y Wolfson, 1993) se presen- tan como errores, mientras que los re sultados en la Prueba de Matrices Progresivas de Raven (Raven, Court y Raven, 1983, 1986) se reportan como número de reactivos que se contestan correc tamente. Lo más probable es que las personas que obtengan una alta puntuación en la Prueba de Categorías (es decir, muchos errores) reci-

ban una baja puntuación en la Prueba de Matrices Pro- gresivas (pocos aciertos). Así, se esperaría una correla- ción negativa sustancial para las puntuaciones en estas dos pruebas.

Considere el diagrama de dispersión en la figura 3.l0c, que podría describir la estatu ra y el peso hipotéti- cos de un grupo de personas. Como podrá ver el lector, la estatura y el peso tie nen una fuerte relación entre sí, aunque no perfecta. Las personas altas tienden a pesar

In document 318510754-Pruebas-Psicologicas-Historia-Principios-y-Aplicaciones-Gregory-Pearson (1).pdf (página 111-132)