DISCUSIÓN Y CONCLUSIONES - El formato del ítem y la naturaleza del constructo medido: un estud

There is no true interpretation of anything; interpretation is a vehicle in the service of human comprehension.

El estudio del formato de los ítems ha sido un tema de creciente interés a lo largo del tiempo, tal y como lo confirman un número importante de publicaciones (véase Rodríguez, 2002, 2003 o Bennett y Ward, 1993). Como ya se ha mencionado, algunos de estos estudios muestran entre sus hallazgos la existencia de diferencias en las propiedades métricas de las puntuaciones obtenidas con ítems de distinto formato, sin llegar a explicar donde residen éstas. En esta investigación se intentó buscar la naturaleza de esas diferencias, para lo cual, partiendo de una exhaustiva revisión bibliográfica, se planteó un modelo que incluye, con una cobertura suficientemente amplia, aquellos constructos que las distintas teorías señalan como responsables de las conductas de respuesta al ítem. El modelo teórico planteado considera un conjunto de variables de distinta naturaleza (cognitiva, metacognitiva y relacionadas con la percepción del examinado sobre la tarea), que podrían ser activadas diferencialmente según el formato en que se plantea la tarea.

El señalamiento de autores como Wilkinson (1999) o Cudeck y Henley (1991), en relación a que un modelo no es capaz de explicar a cabalidad la complejidad de la conducta humana, resulta perfectamente plausible. No obstante, un modelo puede considerarse una aproximación útil para la explicación y síntesis, la cual contribuye a la formalización de esos múltiples procesos y en consecuencia permite un acercamiento al significado de la naturaleza del constructo cuando es medido con diferentes formatos de ítem. En este sentido, el análisis de los resultados obtenidos al someter a contrastación empírica el modelo siempre se ha realizado atendiendo fundamentalmente al significado del modelo, sin desmedro de la atención necesaria a los índices de ajuste y diagnóstico.

Antes de entrar en la discusión de los hallazgos es forzoso destacar que el desarrollo de una investigación de esta naturaleza implica un recorrido no exento de dificultades y obstáculos de distinta índole, que si no son controlados, bien podrían

159

afectar la posibilidad de conclusiones amplias y generalizables y restringir el alcance de los hallazgos.

El hecho de contar únicamente con un ítem por formato constituye una fuerte limitación en esta investigación, que no permite comparar las propiedades psicométricas de los distintos formatos y en consecuencia restringe la posibilidad de generalización amplia de las conclusiones. Realizar investigaciones con pruebas que contengan un número conveniente de ítems por formato permitiría comparar tanto la equivalencia psicométrica como la equivalencia psicológica, aspiración que no fue posible alcanzar en este estudio por la dificultad que representa una recogida de datos de esta naturaleza, sin contar con los recursos y la colaboración necesarios y suficientes. También debe señalarse que los procesos considerados podrían actuar de otro modo en otros contextos (educación superior o ambientes laborales) u otros países (donde se prefiera un determinado tipo de formato sobre otro) y que deben contemplarse todas estas posibilidades para futuras investigaciones.

No obstante, el rigor seguido en cada uno de los procesos, tanto de revisión de la literatura como de recolección y análisis de datos, permiten tener razonable confianza en los resultados obtenidos, aun cuando se debe reconocer que con mayores recursos podrían afinarse las conclusiones.

De la comprobación empírica del modelo y con los resultados obtenidos, es posible hacer el análisis a dos niveles: uno general, fundado en los resultados del análisis de regresión logística, y uno más particular, basado en los hallazgos parciales encontrados en el camino de la construcción del modelo que dan lugar a otras observaciones que podrían resultar de interés.

En una primera mirada a los modelos de regresión logística obtenidos, se observa que existen coincidencias fundamentales en el comportamiento del sujeto al

160

responder el ítem, independientemente de su formato. En principio, la fase de combinación de los componentes de procesamiento cognitivo implicados en la tarea es una variable que está presente en los modelos obtenidos con los tres formatos, lo que permite sea considerada como el predictor más importante. Este hallazgo es perfectamente coherente con lo esperado. La fase de combinación constituye el conjunto de procesos cognitivos orientados a reunir y organizar la información, hacer los cálculos necesarios y comparar los resultados obtenidos. En la medida en que este conjunto de procesos resulta más fácil para el examinado es más probable que su respuesta sea la correcta. En este sentido, los resultados apuntan a la necesidad de considerar modelos cognitivos para analizar la ejecución de tareas, identificando los componentes del procesamiento cognitivo involucrados en la resolución de la tarea y estableciendo la forma de darle puntuación a cada componente del modelo (Embretson, 1993).

Continuando el examen de los modelos, los resultados obtenidos también permiten afirmar que las variables de naturaleza metacognitiva constituyen constructos importantes que pueden ayudar a explicar la ejecución, al quedar variables de este bloque en el modelo tanto para el formato de EM como para el de EA. El hecho de que no sean retenidas en el modelo obtenido para el formato RC se debe a la fuerza que tienen los componentes de codificación y combinación en ese formato. Estos resultados son también coherentes con los obtenidos en otras investigaciones (Dowson y McInerney, 2004; Sternberg, 1998a; Pintrich, 2002), que señalan la influencia de los factores metacognitivos y que el formato de respuesta abierta induce a un mayor uso de estrategias de control cognitivo (O’Neil y Brown, 1998), tal como se ha hallado en los datos de este estudio.

En cuanto a las variables relacionadas con la percepción sobre la tarea, su influencia se oscurece completamente debido al marcado efecto de las variables

161

relacionadas con el sujeto. Solamente el valor percibido de la tarea en relación al formato queda en el modelo para el ítem de evaluación de la actuación.

Ahora bien, no se debe perder de vista que la formulación de este modelo no fue hecha con fines predictivos, sino que su propósito fundamental es identificar las variables que pueden ayudar a explicar el significado de las puntuaciones obtenidas cuando el ítem es medido con distintos formatos, razón por la cual es importante mirar con suficiente detalle los resultados parciales que se desprenden del modelado, así como también todo lo revelado en los análisis preliminares.

Tal como se explicó, el modelado se hizo formato a formato (EM, RC y EA) y por grupos de variables según la dimensión o el ámbito al que pertenecen (cognitivas, metacognitivas y en relación a la tarea). Se comprueba, de esta forma, que la mayoría de las variables de los distintos bloques considerados en el modelo ejercen una influencia sobre la respuesta al ítem cualquiera sea el formato, pero que al ser consideradas de forma conjunta, el efecto de algunas se muestra más importante, diluyendo en algunos casos el efecto del resto de los predictores. También se verifica que el efecto de cualquiera de los factores componentes del modelo es más marcado para los ítems de construcción, en algunos casos para el formato de RC y en otros para el formato de EA, y menos relevante en el ítem con formato de EM.

Se puede observar que el tipo de conocimiento -declarativo o procedimental- que emplean es diferente según el formato afrontado: declarativo para el formato de elección y procedimental para resolver los ítems planteados en formato de respuesta construida. En cuanto a los procesos de ejecución cognitiva, como ya se señalara, el componente que se revela como más importante de todos en cualquiera de los casos es el correspondiente a la fase de combinación, cuya dificultad se valora de modo diferencial en los tres formatos, siendo más difícil para el ítem de respuesta corta y más fácil para el

162

ítem en formato EM. Esto sucede en los 3 componentes de procesamiento: la dificultad percibida varía con el formato del ítem.

Los modelos por bloques revelan que para los formatos de construcción todas las variables del ámbito metacognitivo son predictores importantes, mientras que para el formato de elección sólo el conocimiento autopercibido y el control lo son. En cuanto al uso de estrategias metacognitivas para la solución de problemas, es importante en este punto observar con detalle lo hallado en los análisis de los datos. En primer lugar se observa que el número de estrategias utilizadas tiene un valor medio superior para la tarea en formato de elección múltiple, pero no existe una relación entre número de estrategias utilizadas y la respuesta al ítem de este formato, relación que sí se observa en los dos formatos de construcción, aun cuando la variable no represente un predictor significativo en el modelo conjunto.

En lo concerniente a las variables relacionadas con la percepción que tiene el sujeto acerca de la tarea se observa que, a pesar de que su efecto desaparece o queda ensombrecido al incorporar variables cognitivas y metacognitivas, resultan predictores significativos tanto en los modelos univariados como en los modelos por bloques. Por otra parte, sin olvidar que el tamaño del efecto en la estimación de las diferencias entre formato para estas variables es muy pequeño, vale destacar que el formato mejor valorado es el de elección múltiple y que los ítems se perciben con mayor dificultad cuando están planteados en un formato de respuesta construida.

Se advierte de lo hallado que las variables estudiadas tienen un comportamiento más similar en los formatos de construcción. Asimismo, se evidencia que la respuesta al ítem, cualesquiera sea su formato, está principalmente determinada por las variables de tipo cognitivo, básicamente por los componentes de ejecución. Aun así, se puede afirmar que todos los constructos estudiados constituyen predictores importantes en la

163

164

ejecución del ítem y que la intensidad del efecto de los distintos factores varía de un formato a otro.

A la vista de los resultados obtenidos se puede concluir que cada formato parece demandar del sujeto examinado diferentes conductas, o diferentes niveles en el empleo de su cognición o metacognición. Del mismo modo, la percepción sobre la tarea demandada es diferente según el formato en que se presenta la misma, lo cual, como señalan Pearson y Garavaglia (1997), puede influir en el significado e interpretación de las puntuaciones. Tal como afirma Snow (1993), existe un tejido de elementos que producen diferencias individuales en la respuesta al ítem que tiene relación con el formato.

En consecuencia, para un proceso de medición más integral es recomendable usar tests que incluyan una combinación de formatos, pues cada uno de ellos es capaz de revelar diferencias individuales, no solamente en cuanto a conocimientos y procesos cognitivos, sino también en motivación, esfuerzo y mecanismos de control metacognitivo. Suprimir los ítems de construcción en nombre de la economía y de la precisión puede significar un sacrificio en la capacidad de medición del test y podría dar lugar a inferencias con una validez cuestionable.

En definitiva, la validez y no la conveniencia debe ser la prioridad en la elección del formato del ítem. Dado que cada formato es capaz de elicitar distintas conductas, el formato de respuesta al ítem debería corresponder con la conducta diana en el objetivo de la medición y garantizar que el significado de las puntuaciones obtenidas se corresponda con el constructo que deseamos medir.

REFERENCIAS

Ackerman, T. y Smith, P. (1988). A comparison of the information provided by essay, multiple-choice and free response. Applied Psychological Measurement, 12(2), 117 -128.

American Psychological Association. (1954). Technical recommendations for psychological test and diagnostic techniques. Washington, DC: Autor.

American Educational Research Association, American Psychological Association y National Council on Measurement in Education. (1985). Standards for educational and psychological testing. Washington, DC: American Psychological Association.

American Educational Research Association, American Psychological Association y National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Psychological Association.

Anderson, J. (1983). The architecture of cognition. Cambridge: Harvard University Press.

Anderson, J. R. (1993). Rules of the mind. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Publishers.

Ato, M., Losilla, J. M., Navarro, J. B., Palmer, A. y Rodrigo, M. F. (2005). Análisis de datos. Modelo lineal generalizado. Girona: Edicions a Petició, SL.

165

Ayala, C., Shavelson, R., Yin, Y. y Shultz, S. (2002). Reasoning dimensions underlying science achievement: the case of performance assessment. Educational Assessment, 8, 101-121.

Ayala, C., Yin, Y., Shultz, S. y Shavelson, R. (2002). On science achievement from the perspective of different types of test: a multidimensional approach to achievement validation (Reporte técnico CSE Nº 572). California: CRESST/Stanford University.

Bandura, A. (1990). Multidimensional scales of perceived academic efficacy. Stanford, CA: Stanford University.

Bandura, A. (1993). Perceived self-efficacy in cognitive development and functioning. Educational Psychology, 28, 117 – 148.

Bandura, A. (1995). Exercise of personal and collective efficacy in changing societies. En A. Bandura (ed.), Self-efficacy in Changing Societies (pp. 1 - 45). Nueva York: Cambridge University Press.

Bandura, A. (1997). Self-efficacy: The exercise of control. New York: W. H. Freeman.

Bandura, A. (2006). Guide for constructing self-efficacy scales. En F. Pajares y T. Urdan (Eds.). Self-efficacy beliefs of adolescents, (Vol. 5, pp. 307-337). Greenwich, CT: Information Age Publishing.

Baxter, G. P. y Glaser, R. (1998). Investigating the cognitive complexity of science achievement. Educational Measurement: Issues and Practice. 7(3), 37-45.

Baxter, G. P., Elder, A. D. y Glaser, R. (1996). Knowledge-base cognition and

166

performance assessment in the science classroom. Educational Psychologist, 31, 133-140.

Bejar, I. I. (1985). Speculations on the future of test design. En S. Embretson (Ed.), Test Design. Developments in Psychology and Psychometrics (pp. 279 - 294). San Diego, California: Academics Press, Inc.

Bennett, R. E. (1993). On the meaning of constructed response. En R. E. Bennett y W. Ward. (Eds.), Construction versus Choice in Cognitive Measurement: issues in constructed response, performance testing and portfolio assessment (pp. 1 - 27). Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.

Bennett, R. E. y Ward, W. (Eds.) (1993). Construction versus Choice in Cognitive Measurement: issues in constructed response, performance testing and portfolio assessment. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc.

Bennet, R., Rock, D. y Wang, M. (1991). Equivalence of free-response and multiple- choice items. Journal of Educational Measurement, 28, 77 – 92.

Bennett, R., Morley, M., Quardt, D., Singley, M., Rock, D. Katz, I. et al. (1998, Julio) Psychometric and cognitive functioning of an underdetermined computer-based response type for quantitative reasoning (GRE Board Report Nº 95-11R). Princeton, NJ: Educational Testing Service.

Benton, S. L. y Kiewra, K. A. (1987) The assessment of cognitive factors in academia abilities. En R. R. Ronning, J. A. Glover, J. C. Conoley y J. C. Witt (Eds.), The influence of cognitive psychology on testing. (pp. 145-189). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

167

Bock, R. D., Brennan, R. L. y Muraki, E. (2002). The information in multiple ratings. Applied Psychological Measurement, 26, 364-375.

Borsboom, D. (2005). Measuring the mind: Conceptual issues in contemporary psychometrics. Cambridge: Cambridge University Press.

Borsboom, D. (2006). The attack of the psychometricians. Psychometrika, 71, 425-440.

Borsboom, D. y Mellenbergh, G. J. (2004). Why psychometrics is not pathological: A comment on Michell. Theory & Psychology, 14, 105–120.

Borsboom, D. y Mellenbergh, G. J. (2007). Test validity in cognitive assessment. En J. Leighton y M. Gierl (Eds.), Cognitive diagnostic assessment for education: Theory and applications. Cambridge: Cambridge University Press.

Bourne, L. E., Dominowski, R. L. y Loftus, E. F. (1979). Cognitive Processes. Englewood Cliffs, New Jersey: Prentice Hall, Inc.

Bower, G. H. (1981). Mood and memory. American Psychologist, 36, 129-148.

Brennan, R. L. (Ed.) (2006). Educational measurement (4ª ed.). Washington, DC: National Council on Measurement in Education and American.

Bridgeman, B. (1992). A comparison of quantitative question in open-ended and multiple choice formats. Journal of Educational Measurement, 29, 253 – 271.

Brown, A. (1987). Metacognition, executive control, self-regulation, and other more mysterious mechanisms. En F. E. Weinert y R. H. Kluwe (Eds.), Metacogniton, motivation, and understanding (pp. 65 - 116). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

168

Bruning, R. H., Schraw, G. J., Norby, M. M. y Ronning, R. R. (2005). Psicología cognitiva y de la instrucción (4ª ed.). Madrid: Pearson, Prentice Hall.

Bunge, M. (1989). La investigación científica. Barcelona: Editorial Ariel, S.A.

Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. Nueva York, NY: Cambridge University Press.

Cattell, R.B. (1963). Theory of fluid and crystallized intelligence: A critical experiment. Journal of Educational Psychology, 54, 1 - 22.

Corno, L., Cronbach, L., Kupermintz, H., Lohman, D., Mandinach, E., Porteus, A et al. (2002). Remaking the concept of aptitude: extending the legacy of Richard E. Snow. Mahwah, N J: Lawrence Erlbaum Associates, Publishers.

Cortada de Kohan, N. (2003). Posibilidad de integración de las teorías cognitivas y la psicometría moderna. Revista Argentina de Neuropsicología, 1,8 – 23.

Cronbach, L. J. y Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281- 302.

Cudeck, R. y Henley, S. J. (1991). Model selection in covariance structures and the “problema” of simple size: A clarification. Psychological Bulletin, 109, 512-519.

Davidson, J. E.; Deuser, R. y Sternberg, R. J. (1994). The role of metacognition in problem solving. En J. Metcalfe y A. P. Shimamura (Eds.), Metacognition: knowing about knowing (pp. 207- 226). Massachusetts: Massachusetts Institute of Technology Press.

De la Torre, J. (2009). A cognitive diagnosis model for cognitively based multiple-

169

choice options. Applied Psychological Measurement, 33, 163-183.

Downing, S. M. (2006). Selected-response item formats in test development. En S. M. Downing y T. M. Haladyna (Eds.), Handbook of test development (pp. 287- 301). Mahwah, NJ: Lawrence Erlbaum Associates, Publishers.

Downing, S. M. y Haladyna, T. M. (2006). Handbook of test development. Mahwah, NJ: Lawrence Erlbaum Associates, Publishers.

Dowson, M. y McInerney, D. M. (1998, Abril). Cognitive and motivational determinants of students’ academic performance and achievement. Goals, strategies, and academic outcomes in focus. Documento presentado en el encuentro anual de la American Educational Research Association, San Diego, CA.

Dowson, M. y McInerney, D. (2004). The development and validation of the goal orientation and learning strategies survey (GOALS-S). Educational and Psychological Measurement, 64, 290 -310.

Dweck, C. y Leggett, E. (1988). A social-cognitive approach to motivation and personality. Psychological Review, 95, 256-273.

Eccles, J. y Wigfield, A. (1995). In the mind of the actor: the structure of adolescents’ achievement task values and expectancy-related beliefs. Personality and Social Psychology, 21, 215-225.

Eccles, J. y Wigfield, A. (2002). Motivational beliefs, values, and goals. Annual review of psychology, 53, 109-132.

170

Eccles-Parsons, J., Adler, T. F., Futterman, R., Goff, S. B., Kaczala, C. M., Meece, J. L. et al. (1983). Expectancies, values, and academic behaviours. En J. T. Spence (Ed.), Achievement and achievement motives: Psychological and sociological approaches (pp. 75 – 146). San Francisco: Freeman.

Embretson, S. (1984). A general latent trait model for response processes. Psychometrika, 49, 175-186.

Embretson, S. (Ed.). (1985). Test design: Developments in psychology and psychometrics. Nueva York: Academic Press.

Embretson, S. (1993). Psychometrics models for learning and cognitive processes. En N. Frederiksen, R. Mislevy y I. Bejar (Eds.), Test theory for a new generation of tests. (pp. 125– 150). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

Embretson, S., y Gorin, J. (2001). Improving construct validity with cognitive psychology principles. Journal of Educational Measurement, 38, 343-368.

Embretson, S. E. y Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum Associates.

Fan, L. y Zhu, Y. (2007). Representation of problem-solving procedures: A comparative look at China, Singapore, and US mathematics textbooks. Educational studies in mathematics, 66, 65-71.

Farley, F. (1985). Psychobiology and cognition: an individual differences model. En J. Strelau, F. Farley y A. Gale (Eds.), The biological bases of personality and behavior: Vol. 1. Theories, measurement, techniques and development (pp. 61 - 73). Washington D.C.: Hemisphere

171

Ferrara, S., García, T., Freed, R., Vélez-Paschke, A., McGivern, J., Mushlin, S. et al. (2004, abril). Examining test store validity: preliminary analysis of evidence of the alignment of targeted and observed content, skills and cognitive processes in a middle school science assessment. En E. A. Vanderputten (Presidente), Putting Alignment to the Test Symposium conducted 90 at the annual meeting of the American Educational Research Association, San Diego, EEUU.

Fischer, G.H. (1973). The linear logistic test model as an instrument of educational research. Acta Psychologica, 37, 359-374.

Fitzpatrick, C. (1994, abril). Adolescents mathematical problem solving: the role of metacognition, strategies, and beliefs. Documento presentado en el encuentro anual de la American Educational Research Association, New Orleans, LA.

Flavell, J. H. (1992). Metacognition and cognitive monitoring: a new area of cognitive- developmental inquire. En T. O. Nelson (Ed.), Metacognition. Core Readings (pp. 3 – 8). Needham Heights, MA: Allyn y Bacon.

Frederiksen, N., Mislevy, R. J. y Bejar, I. I. (Eds.) (1993). Tests Theory for a new generation of tests. Hillsdale, NJ: Lawrence Erlbaum Associates.

García, T. y McKeachie, W. J. (2005). The making of the Motivated Strategies for Learning Questionnaire. Educational Psychologist, 40, 117-128.

Glaser, R. (1981). The future of testing. A research agenda for cognitive psychology and psychometrics. American Psychologist, 36, 923-936.

172

Glaser, R., Raghavan, K. y Baxter, G. P. (1992). Cognitive theory as the basis for design of innovative assessment: Design characteristic of science assessment

(Reporte técnico CSE Nº 349). Los Angeles: Universidad de California, National Center for Research on Evaluation, Standards, and Student Testing.

Gorin, J. S. (2006). Test design with cognition in mind. Educational Measurement: Issues and Practice, 25(4), 21 – 35.

Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Measurement, 6, 427-439.

Gulliksen, H. (1950/1987). Theory of mental tests. Hillsdale: LEA.

Haertel, E. H. (2006). Reliability. En R. L. Brennan (Ed.), Educational measurement (4ª ed., pp. 65–110). Washington, DC: National Council on Measurement in Education and American.

Haertel, E. H. y Wiley, D. E. (1993). Representations of ability structures. En N. Frederiksen, R. Mislevy y I. Bejar (Eds.), Test theory for a new generation of tests. (pp. 359 – 384). Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

Hair, J., Anderson, R., Tatham, R. y Black, W. (1999). Análisis Multivariante (5ª ed.). Madrid: Prentice Hall Iberia

Haladyna, T. M. (1997). Writing test items to evaluate higher order thinking. Needham Heights, MA: Allyn y Bacon.

Haladyna, T. M. (1999). Developing and validating multiple-choice test items (2ª ed.). Mahwah, NJ: Lawrence Erlbaum Associates.

Hambleton, R. K. y Zaal, J. N. (Eds.) (1994). Advances in educational and

In document El formato del ítem y la naturaleza del constructo medido: un estudio acerca del significado de las puntuaciones de los ítems (página 173-200)