Educación en contexto: Predictores de desempeño académico

Texto completo

(1)Universidad Virtual Escuela de Graduados en Educación. Educación en Contexto: Predictores de Desempeño Académico. Disertación que para obtener el grado de:. Doctor en Innovación Educativa Presenta:. Idalí Calderón Salas. Asesor: Dr. Jaime Ricardo Valenzuela González. Puebla, Puebla, México. Abril, 2012.

(2) Educación en Contexto: Predictores de Desempeño Académico. Resumen. La presente disertación presenta un estudio de evaluación externa realizado a una muestra de 2,114 estudiantes de primaria y 2,141 estudiantes de secundaria del estado de Tabasco, México. A diferencia de otras disertaciones, ésta se inserta dentro del marco de un proyecto de investigación que profesores de la Escuela de Graduados en Educación del Tecnológico de Monterrey están realizando en el estado de Tabasco. Es por ello que los apartados de esta propuesta están alineados con las necesidades de dicho proyecto. El marco teórico presenta una revisión de literatura alrededor de dos grandes temas: las pruebas estandarizadas para la evaluación del desempeño académico y el efecto de factores contextuales (el centro escolar, el docente, la familia y el propio estudiante) en el desempeño académico. Como parte del marco contextual, se analizan las características históricas, físicas, económicas, sociodemográficas, de gobierno y educativas del estado de Tabasco. En esta investigación se plantearon dos tipos de objetivos. Por un lado se desarrollaron objetivos relacionados con un análisis exploratorio y por otro lado, se trabajó con objetivos de investigación relacionados con un análisis confirmatorio. La metodología utilizada fue de índole cuantitativa, se utilizaron herramientas de estadística descriptiva, se realizaron pruebas de Kruskal-Wallis y de Dunn y se utilizó el método de Redes Bayesianas para describir el fenómeno de interés. Entre los hallazgos principales se encuentran que las variables de contexto que presentan mayor impacto en el desempeño académico de los estudiantes son el gusto por las matemáticas y por el español, el tipo de escuela a la que asisten, la repetición de grado y el grado repetido. Los porcentajes de predicción globales del modelo de redes bayesianas se encuentran entre el 13.59 y el 16.53% para primaria y entre el 9.75 y 11.83% para secundaria.. ii.

(3) Índice Introducción. ......................................................................................................... 1. Capítulo 1: Marco teórico ............................................................................................... 5. Pruebas estandarizadas para la evaluación del desempeño académico ............ Teoría clásica y teoría de respuesta al ítem ............................................. Desarrollo histórico de las pruebas estandarizadas .................................. Características de las pruebas estandarizadas ........................................ Modelos para medir el aprendizaje ........................................................... Interpretación de los resultados de una prueba ...................................... Factores contextuales y su efecto en el desempeño académico ....................... Factores relacionados con el centro escolar ........................................... Liderazgo directivo ........................................................................ Infraestructura escolar .................................................................. Factores relacionados con el docente ...................................................... Factores relacionados con la familia ........................................................ Pobreza ......................................................................................... Contexto familiar ............................................................................ Factores relacionados con el estudiante ................................................. Género ........................................................................................... Factores psicosociales ................................................................... 6 7 14 19 22 28 34 34 34 36 38 39 39 43 45 45 47. Capítulo 2: Marco contextual. ......................................................................................... 50. Historia del estado de Tabasco ........................................................................... Descripción general del estado de Tabasco ...................................................... Geografía y medio físico ............................................................................ Sociodemografía ....................................................................................... Gobierno .................................................................................................... Economía .................................................................................................. Educación en el estado de Tabasco .................................................................. Resultados de la prueba ENLACE ........................................................... Resultados de la prueba EXCALE ........................................................... Proyectos educativos en la entidad .......................................................... 50 54 54 59 79 80 82 97 103 106. Capítulo 3: Planteamiento del problema de investigación. ............................................. 125. Definición del problema de investigación ............................................................ Objetivos de la investigación ............................................................................... Objetivo general ......................................................................................... Objetivos particulares del análisis descriptivo .......................................... Objetivos particulares del análisis confirmatorio ....................................... Objetivos particulares del análisis exploratorio ....................................... Justificación de la investigación ........................................................................... 125 127 128 128 129 136 138. iii.

(4) Capítulo 4: Método. ...................................................................................................... 141. Enfoque metodológico ......................................................................................... Unidades de análisis ........................................................................................... Selección de la muestra ........................................................................... Estratos ...................................................................................................... Tamaño de la muestra ............................................................................. Instrumentos ........................................................................................................ Instrumentos de medición de desempeño académico .............................. Instrumentos de medición de variables contextuales ................................ Confiabilidad y validez ............................................................................... Procedimientos ................................................................................................... Recolección de datos ............................................................................... Captura de datos ...................................................................................... Estrategia de análisis de los datos................................................................ 141 142 143 144 150 160 163 169 173 174 174 177 178. Capítulo 5: Resultados ................................................................................................... 184. Análisis descriptivo .............................................................................................. Resultados de desempeño académico ..................................................... Resultados de la dimensión escuela ....................................................... Resultados de la dimensión docente ....................................................... Resultados de la dimensión familia ......................................................... Resultados de la dimensión estudiante ................................................... Análisis confirmatorio .......................................................................................... Análisis exploratorio ........................................................................................... Análisis de componentes principales ......................................................... Análisis multivariado de varianza ............................................................. Análisis mediante redes bayesianas .......................................................... 184 185 188 209 219 231 243 275 277 281 286. Capítulo 6: Discusión. ..................................................................................................... 307. Discusión de los resultados del análisis descriptivo ............................................ Desempeño académico ............................................................................. Dimensión escuela ................................................................................... Dimensión docente ................................................................................... Dimensión familia ..................................................................................... Dimensión estudiante ................................................................................ Discusión de los resultados del análisis confirmatorio ........................................ Discusión de los resultados del análisis exploratorio .......................................... Análisis de componentes principales ......................................................... Análisis multivariado de varianza ............................................................. Análisis mediante redes bayesianas ......................................................... Conclusiones ....................................................................................................... 307 307 310 314 316 319 320 327 327 329 330 334. iv.

(5) Apéndices ....................................................................................................................... 342. A.. Datos educativos del estado de Tabasco ...................................................... 342. B.. Diseño de instrumentos de medición de desempeño académico ................. 363. C.. Instrumentos para evaluación de variables contextuales ............................. 367. D.. Ejemplo de tabla de especificaciones ........................................................... 390. E.. Análisis de resultados de las pruebas piloto de los instrumentos de desempeño académico ................................................................................ 393. F.. Instrumentos para la evaluación del desempeño académico: exámenes ..... 405. G.. Protocolo de aplicación de los instrumentos ................................................. 419. H.. Resultados de las pruebas de Dunn ............................................................. 424. Referencias. ................................................................................................................... Currículum vitae. ........................................................................................................... v. 442 451.

(6) Índice de Tablas. Tabla 1:. Relación hombres/mujeres por entidad federativa ..................................... 61. Tabla 2:. Distribución por género en la entidad ......................................................... 64. Tabla 3:. Población total por municipio según grandes grupos de edad, 2005 ......... 66. Tabla 4:. Inmigrantes, emigrantes y saldo neto migratorio de la población de cinco años y más, 2005 ........................................................................................ 70. Tabla 5:. Estadísticas de población indígena por municipio ..................................... 76. Tabla 6:. Lenguas indígenas que se hablan en el estado .......................................... 78. Tabla 7:. Alumnos, grupos, docentes y escuelas en el Sistema Educativo Estatal, según tipo de servicio y nivel ..................................................................... 86. Alumnos, grupos, docentes y escuelas de educación primaria, según tipo de servicio y sostenimiento ...................................................... 88. Alumnos, grupos, docentes y escuelas de educación secundaria, según tipo de servicio y sostenimiento ...................................................... 90. Tabla 10:. Principales indicadores por nivel educativo ............................................... 95. Tabla 11:. ENLACE 2006–2008. Medias nacionales y del estado de Tabasco, primaria ....................................................................................................... 98. ENLACE 2006–2008. Medias nacionales y del estado de Tabasco, secundaria ................................................................................................ 100. Porcentaje de estudiantes de Tabasco con resultados en los niveles tres y cuatro ................................................................................................ 102. Tabla 14:. Resultados de la prueba EXCALE 2006 en Tabasco ................................. 105. Tabla 15:. Reporte por indicadores PNL Tabasco, 2006 ............................................ 108. Tabla 16:. Escuelas de preescolar multigrado por modalidad, ciclo 2005/2006, en %. 111. Tabla 17:. Escuelas primarias multigrado por modalidad, ciclo 2005/2006, en % ....... 113. Tabla 18:. Escuelas de red escolar ............................................................................. 121. Tabla 19:. Porcentaje de alumnos en cada estrato, niveles de Primaria y Secundaria ................................................................................................. 145. Puntos de corte entre estratos .................................................................... 147. Tabla 8:. Tabla 9:. Tabla 12:. Tabla 13:. Tabla 20:. vi.

(7) Tabla 21:. Número de escuelas por estrato ................................................................. 149. Tabla 22:. Muestra de escuelas primarias. 152. Tabla 23:. Muestra de escuelas secundarias. ............................................................. 155. Tabla 24:. Unidades de análisis por población, muestra planeada y muestra real en función del instrumento que respondieron y el nivel educativo (primaria y secundaria) ........................................................................ 159. Tabla 25:. Principales características de los instrumentos .......................................... 162. Tabla 26:. Índices de dificultad y discriminación, cuarto de primaria. ......................... 164. Tabla 27:. Índices de dificultad y discriminación, quinto de primaria. ......................... 165. Tabla 28:. Índices de dificultad y discriminación, sexto de primaria ........................... 166. Tabla 29:. Índices de dificultad y discriminación, primero de secundaria .................... 167. Tabla 30:. Índices de dificultad y discriminación, tercero de secundaria .................... 168. Tabla 31:. Objetivos generales de los instrumentos de evaluación de variables contextuales ............................................................................................. 170. Dimensiones y categorías evaluadas en los cuestionarios de medición de variables contextuales ........................................................................... 172. Datos estadísticos de desempeño académico de estudiantes de los diferentes grados de primaria ..................................................................... 186. Datos estadísticos de desempeño académico de estudiantes de los diferentes grados de secundaria ............................................................... 187. Tabla 35:. Estadísticos descriptivos de la muestra de escuelas primarias (N=53) ...... 189. Tabla 36:. Estadísticos descriptivos de la muestra de escuelas secundarias (N=50) ..................................................................................... 196. Estadísticos descriptivos de la muestra de directores de primaria (N=53) .......................................................................................... 203. Estadísticos descriptivos de la muestra de directores de secundaria (N=50) ..................................................................................... 205. Estadísticos descriptivos de la muestra de profesores de primaria (N=91) ........................................................................................... 210. Estadísticos descriptivos de la muestra de profesores de secundaria (N=151) ................................................................................... 214. Tabla 32:. Tabla 33:. Tabla 34:. Tabla 37:. Tabla 38: Tabla 39:. Tabla 40:. ................................................................. vii.

(8) Tabla 41:. Tabla 42:. Tabla 43:. Tabla 44: Tabla 45:. Tabla 46:. Tabla 47: Tabla 48:. Tabla 49:. Tabla 50:. Tabla 51:. Tabla 52:. Tabla 53:. Tabla 54: Tabla 55:. Tabla 56:. Estadísticos descriptivos de la muestra de familias de primaria (N=1,705) ..................................................................................... 220. Estadísticos descriptivos de la muestra de familias de secundaria (N=1,689) ................................................................................ 225. Estadísticos descriptivos de la muestra de estudiantes de primaria (N=2,141) ..................................................................................... 232. Estadísticos descriptivos de la muestra de estudiantes de secundaria (N=2,114) ................................................................................ 237. Prueba de Kruskal-Wallis para los efectos del municipio en el desempeño académico de los estudiantes ............................................... 245. Prueba de Kruskal-Wallis para los efectos del grado de marginación en el desempeño académico de los estudiantes ................... 248. Prueba de Kruskal-Wallis para los efectos de la modalidad en el desempeño académico de los estudiantes ............................................... 250. Prueba de Kruskal-Wallis para los efectos del género en el desempeño académico de los estudiantes ................................................ 252. Prueba de Kruskal-Wallis para los efectos de la capacitación directiva en el desempeño académico de los estudiantes ......................... 254. Prueba de Kruskal-Wallis para los efectos de la experiencia directiva en el desempeño académico de los estudiantes ....................................... 256. Prueba de Kruskal-Wallis para los efectos de la existencia de biblioteca escolar y aula de medios en el desempeño académico de los estudiantes ...................................................................................... 258. Prueba de Kruskal-Wallis para los efectos del control de grupo por el docente en el desempeño académico de los estudiantes ................ 260. Prueba de Kruskal-Wallis para los efectos de la frecuencia con la que el director realiza procesos individuales de evaluación docente, en el desempeño académico de los estudiantes ....................................... 262. Prueba de Kruskal-Wallis para los efectos la capacitación docente en el desempeño académico de los estudiantes ...................................... 264. Prueba de Kruskal-Wallis para los efectos las horas dedicadas a tareas en el desempeño académico de los estudiantes ............................ 266. Prueba de Kruskal-Wallis para los efectos del nivel de escolaridad de los padres en el desempeño académico de los estudiantes .................. 268. viii.

(9) Tabla 57:. Prueba de Kruskal-Wallis para los efectos de la frecuencia de alimentación en el desempeño académico de los estudiantes ................... 270. Prueba de Kruskal-Wallis para los efectos del ingreso familiar en el desempeño académico de los estudiantes ....................................... 272. Prueba de Kruskal-Wallis para los efectos del nivel educativo en las dimensiones Estudiante y Profesor ................................................ 274. Tabla 60:. Matriz de correlación para las cuatro asignaturas evaluadas .................... 278. Tabla 61:. Valores propios y varianza explicada para los cuatro componentes ......... 279. Tabla 62:. Vectores propios para los cuatro componentes ......................................... 280. Tabla 63:. Cocientes F de los análisis multivariado y univariado de varianza para los efectos de las dimensiones docente y estudiante para calificaciones en las cuatro asignaturas, nivel primaria ............................. 283. Cocientes F de los análisis multivariado y univariado de varianza para los efectos de las dimensiones docente y estudiante para calificaciones en las cuatro asignaturas, nivel secundaria ........................ 284. Tabla de probabilidad condicional para las calificaciones más bajas y más altas en español, primaria ...................................................... 290. Tabla de probabilidad condicional para las calificaciones más bajas y más altas en matemáticas, primaria .............................................. 293. Tabla de probabilidad condicional para las calificaciones más bajas y más altas en historia, primaria ....................................................... 296. Tabla de probabilidad condicional para las calificaciones más bajas y más altas en ciencias naturales, primaria ...................................... 299. Tabla de probabilidad condicional para las calificaciones más bajas y más altas en español, secundaria ................................................. 302. Tabla de probabilidad condicional para las calificaciones más bajas, intermedias y más altas en ciencias naturales, secundaria ............ 305. Tabla 58:. Tabla 59:. Tabla 64:. Tabla 65:. Tabla 66:. Tabla 67: Tabla 68:. Tabla 69:. Tabla 70:. ix.

(10) Índice de Figuras Figura 1:. Modelos derivados de la Teoría clásica de pruebas. ................................ 11. Figura 2:. Modelos derivados de la Teoría de respuesta al ítem. ............................. 13. Figura 3:. Doce pasos para el desarrollo de una prueba ........................................... 24. Figura 4:. Municipios del estado de Tabasco ............................................................. 55. Figura 5:. Porcentaje de la población que residía en otra entidad hace cinco años, 2000 y 2005, respecto a la población de cinco años y más ...................... 68. Porcentaje de la población de cinco años y más, hablante de lengua indígena, por entidad federativa en el 2000 y 2005 .................................... 73. Porcentaje de la población de cinco años y más, hablante de lengua indígena, que no habla español, por entidad federativa en el 2000 y 2005 ....................................................................................... 74. Figura 8:. Deserción y eficiencia terminal en el nivel primaria ................................... 92. Figura 9:. Deserción y eficiencia terminal en el nivel secundaria. 93. Figura 10:. Red Bayesiana para la calificación de español, nivel primaria. ................ 288. Figura 11:. Red Bayesiana para la calificación de matemáticas, nivel primaria .......... 292. Figura 12:. Red Bayesiana para la calificación de historia, nivel primaria ................... 295. Figura 13:. Red Bayesiana para la calificación de ciencias naturales, nivel primaria ....................................................................................................... 298. Figura 14:. Red Bayesiana para la calificación de español, nivel secundaria. ............. 301. Figura 15:. Red Bayesiana para la calificación de ciencias naturales, nivel secundaria ................................................................................................. 304. Figura 6: Figura 7:. x. ..............................

(11) INTRODUCCIÓN. El tema de evaluación educativa ha sido recurrente y polémico en las últimas décadas. Bajo diversas modalidades, la evaluación del aprendizaje a nivel nacional e internacional es cada vez más frecuente y la cultura de evaluación ha venido ganando terreno en una multitud de instituciones educativas y, sobre todo, en las políticas públicas de educación de los países. Además de la evaluación de los aprendizajes de los estudiantes, rubros como la evaluación de los profesores y sus prácticas, la evaluación curricular y la evaluación institucional han impulsado planes y proyectos educativos en el mundo. A pesar de que la comparación entre países ha causado debates entre los educadores, investigadores y gestores educativos, es un hecho que existen países con serias deficiencias en el desempeño académico de los estudiantes de todos los niveles educativos. Los proyectos y programas evaluativos que han venido aplicándose en la última década responden en buena medida a las presiones políticas y gubernamentales a los que se ven sometidos los países para evaluar su rendimiento. Es por eso que los estudios derivados de la puesta en práctica de evaluaciones trasnacionales han permitido la comparación entre países y se suelen utilizar como un termómetro de calidad global de los programas educativos nacionales. La evaluación externa entonces, ha llegado a formar parte fundamental de las decisiones en materia de políticas educativas, mucho más allá de evaluar los niveles de comprensión y de conocimiento de los alumnos y ha llegado incluso a ser un indicador de la calidad de los profesores, de la efectividad de las escuelas y del propio sistema educativo. Así, durante los últimos años han venido aplicándose varios proyectos encaminados a conocer el desempeño de los estudiantes en ciencias, matemáticas, lectura y otras asignaturas, desde la creación del Educational Testing Service (ETS) hasta dos de las propuestas más importantes el Third International Mathematics and Science Study (TIMSS) y el Programme for. 1.

(12) International Student Assessment (PISA). Estos programas y sus resultados han enriquecido el conocimiento que se tiene de la práctica educativa en México. A pesar de que dichos resultados están orientados a informar a gestores y directivos, ofrecen también directrices a los centros educativos proporcionando información sobre las fortalezas y debilidades que poseen, en materia de la pertinencia del currículo, didáctica del profesorado y efectividad de las políticas institucionales para lograr un mayor aprovechamiento académico en los estudiantes. Además, constituyen una forma de conocimiento sobre lo que hacen los demás en materia educativa y un instrumento de reflexión sobre las cuestiones de cultura, tradiciones y educación, para tomarlas en cuenta como factores de diversidad entre países. De las dos propuestas mencionadas, la prueba TIMMS inició como un proyecto de evaluación internacional realizado por la International Association for the Evaluation of Educational Achievement (IEA), que se aplicó en 1995 para evaluar los aprendizajes en ciencias y matemáticas y que posteriormente se aplicó cada cuatro años, con un cambio de nombre (Trends in International Mathematics and Science Study). Este proyecto, en donde participan expertos en todas las áreas de evaluación educativa, pretende encontrar factores relacionados directamente con el aprendizaje de los estudiantes en estas dos asignaturas que puedan ser modificados a través de las políticas educativas. Entre estos factores están el currículo, la asignación de recursos y las prácticas de enseñanza. A pesar de que México participó en la aplicación de 1995, los datos obtenidos son casi desconocidos, debido a que nuestro país retiró su participación después de haberse aplicado la prueba pero antes de que los resultados fuesen publicados. Posteriormente, el Instituto Nacional para la Evaluación de la Educación (INEE) recupera parte de esa información pero su análisis fue limitado debido a que no se contó con información acerca de la historia académica de los estudiantes y cuestiones demográficas de los mismos. Respecto a la segunda propuesta, es bien sabido que hoy en día el PISA es uno de los estándares internacionales más importantes de comparación de desempeño académico entre. 2.

(13) países. Este programa, desarrollado por la Organización para la Cooperación y Desarrollo Económicos (OCDE) aplica pruebas desde 1997 a jóvenes de educación básica de 15 y 16 años de edad y en donde México participa desde el año 2000. PISA es una prueba estandarizada y global que tiene la intención de evaluar en competencias a los estudiantes de nivel secundaria con acentuación en áreas disciplinares diferentes según el año de aplicación y cuya intención es orientar las políticas educativas de los países miembros de la OCDE. A diferencia del TIMSS, la evaluación PISA se ocupa de los conocimientos y destrezas necesarios para responder a diversas situaciones reales de las áreas evaluadas, en donde estas destrezas no se definen a partir de los contenidos comunes en los diversos currículos nacionales, tal como ocurre en TIMSS. Así mismo, con el fin de encontrar algunas características asociadas al éxito escolar, el proyecto PISA tiene en cuenta el rendimiento de los estudiantes junto con factores ligados al centro escolar y a sus entornos familiares. Así entonces, México ha venido participando tanto en proyectos internacionales como los anteriormente mencionados como en propuestas internas de evaluación y que persiguen fines diversos. Podemos citar propuestas realizadas por la OREAL/UNESCO tales como la prueba del Laboratorio Latinoamericano de Evaluación de la Calidad Educativa (LLECE), para alumnos de tercero y sexto grado de primaria, las pruebas nacionales, aplicadas a muestras representativas de la población estudiantil del país, los Exámenes de la Calidad y el Logro Educativos (EXCALE) desarrolladas por el INEE que abarcan más grados escolares y el proyecto de la prueba de Evaluación Nacional de Logro Académico en Centros Escolares (ENLACE), desarrollado por la Secretaría de Educación Pública (SEP) y aplicado a todos los estudiantes de primaria, secundaria y el último grado de media superior. Si bien cada uno de los proyectos anteriormente mencionados cubre propósitos distintos y trata de responder a diferentes cuestiones, es un hecho que existen factores externos al currículo que inciden de mayor o menor forma en el desempeño académico de los estudiantes, sea éste medido por los conocimientos adquiridos, la comprensión de los temas o las. 3.

(14) habilidades y destrezas desarrolladas por el alumno para resolver con éxito problemas reales. El problema del éxito o fracaso del alumno y su relación con el contexto social de donde proviene ha sido abordado por diversas teorías y motivo de investigaciones y debates en donde, a pesar de sus diferencias, estas posturas coinciden en que el contexto social, económico y cultural en el que vive un estudiante tiene una influencia fundamental en las posibilidades de éxito escolar. Es por todo esto que la presente investigación se propone contribuir al conocimiento de estos patrones asociados con el logro académico de los alumnos al analizar cuatro dimensiones contextuales. Estas dimensiones abarcan variables relacionadas al alumno, al docente, a la familia y al centro escolar. En el Capítulo 1, se hace una revisión conceptual desde los orígenes de las pruebas estandarizadas y su aplicación en la medición de desempeño académico y las dos grandes teorías que las soportan. Se realiza una descripción de las principales características de estos instrumentos y la interpretación de los resultados que de ellos se obtienen. Posteriormente se desarrollan los principales factores de contexto que inciden en el logro académico de los estudiantes y que se relacionan con las cuatro dimensiones propuestas en el presente trabajo. El Capítulo 2 describe a detalle el contexto en el cual se realizó la investigación, escuelas de educación básica del estado de Tabasco. Se hace un recorrido por las principales características históricas, físicas, sociales, culturales, económicas y educativas del estado con el objetivo de comprender la situación general de la población de estudio. En el Capítulo 3, se plantea el problema de investigación y en el Capítulo 4 se presenta la propuesta metodológica para responder a las preguntas de investigación. Finalmente, en el Capítulo 5 se presentan los resultados esperados de este estudio.. 4.

(15) Capítulo 1: MARCO TEÓRICO. El creciente interés que ha despertado en las últimas décadas la evaluación a gran escala del aprendizaje, ha contribuido en gran medida a la concreción de acciones de tipo internacional y al interior de los países con el fin de comprender, caracterizar y predecir el desempeño académico de los estudiantes de educación básica, media superior y superior. Uno de los enfoques principales de estos esfuerzos involucra variables de tipo contextuales y su impacto en el logro académico de los estudiantes. Como un resultado de dichas acciones, actualmente se conoce la cantidad y calidad del dominio en diversas áreas y niveles del conocimiento, así como también la interacción de estos factores en el aprendizaje de poblaciones de estudiantes en múltiples países y contextos diversos (Ferrer y Arregui, 2002). En México la evaluación ha sido considerada como parte integral de las políticas y planeación educativa vigentes, en donde la evaluación de los aprendizajes de los estudiantes de educación básica emerge como una estrategia nacional a la cual se han dedicado acciones y recursos desde hace más de una década y donde las pruebas estandarizadas nacionales han representado uno de los recursos evaluativos que más ha contribuido a la medición de los niveles de logro académico. Sin embargo, las conclusiones derivadas de los resultados de estas pruebas han encontrado con ciertas limitaciones que tienen que ver con particularidades asociadas con las enormes desigualdades económicas, sociales y educativas que existen en nuestro país. Es por ello que en este trabajo de investigación se hace un recorrido conceptual desde los inicios y fundamentos de las dos teorías principales de pruebas, la teoría clásica y la de respuesta al ítem, desde sus orígenes en la psicometría, hasta la interacción conocida en la literatura de algunas variables de contexto que se han categorizado en el presente trabajo en cuatro dimensiones generales: escuela, profesor, familia y alumno.. 5.

(16) Pruebas Estandarizadas para la Evaluación del Desempeño Académico La realización de evaluaciones y aplicación de pruebas estandarizadas para conocer la dinámica y los resultados de los procesos educativos es cada vez más frecuente en el ámbito internacional, en países de diversas culturas y con estilos de gobierno muy diferentes. En décadas anteriores, el acceso a la educación escolarizada y su equivalencia con la adquisición del conocimiento era el consenso general, por lo que los indicadores para valorar los sistemas educativos estaban relacionados con aspectos como la matrícula, la deserción y la cobertura. En la actualidad, la elaboración de pruebas estandarizadas hace pertinente definir lo que debe ser considerado como esencial, y esto puede definirse con una variedad de términos tales como: estándares, competencias fundamentales, indicadores de logro, niveles de desempeño, metas de aprendizaje, criterios de suficiencia, entre otros (Ravela et al., 2008). En América Latina, las evaluaciones estandarizadas han mejorado. Los aspectos principales de cambio y mejora son (Ravela et al., 2008): 1.. Mayor transparencia en la difusión de los resultados.. 2.. Una tendencia creciente a pasar de pruebas normativas, que tienen como propósito ordenar comparativamente a los estudiantes, a pruebas de criterio, que se enfocan en que es lo que los estudiantes saben y que son capaces de hacer.. 3.. Mejora de las capacidades técnico-metodológicas para la construcción de pruebas y para el procesamiento de los datos.. 4.. Creciente atención a la difusión y uso de los resultados.. 5.. Mayor preocupación por la investigación de los factores que inciden sobre los aprendizajes.. 6.. Creciente participación de los países en evaluaciones internacionales. Sin embargo, y a pesar de estas mejoras, una de las debilidades que se presentan es. que aún no se tiene totalmente claro que no cualquier evaluación sirve para cualquier propósito. 6.

(17) y que es necesario diseñar el sistema de evaluación para el largo plazo, en función de esos objetivos que se quieren alcanzar. A continuación se hace una descripción del desarrollo histórico de las dos teorías de las pruebas estandarizadas, así como de los distintos modelos derivados de las mismas. Posteriormente, se presenta el progreso en el tiempo de las pruebas estandarizadas así como sus características, para concluir con una discusión sobre la interpretación de los resultados de las pruebas.. Teoría Clásica y Teoría de Respuesta al Ítem Desde los inicios de la psicometría, el intento de apreciar las diferencias individuales de los sujetos, de forma sistemática, promueve el desarrollo del método de las pruebas y de sus distintas teorías. Son tres los factores que se pueden considerar como decisivos en el desarrollo de las pruebas: (1) los trabajos de Galton en Londres con la implementación de su laboratorio antropométrico;(2) el desarrollo de la correlación de Pearson; y (3) la interpretación que hace de ella Spearman, quien considera que la correlación entre dos variables indica que ambas tienen un factor común. Los trabajos de Spearman fundamentan lo que se conoce como la teoría clásica de las pruebas, llamada también el modelo clásico de la puntuación verdadera o teoría del error de medida y cuyos tres conceptos fundamentales son las puntuaciones empíricas y observadas que son las puntuaciones obtenidas por los sujetos al aplicarles una prueba (X), las puntuaciones verdaderas que son las que realmente tienen los sujetos en el constructo medido (V) y las puntuaciones debidas al error (E). El modelo de Spearman es un modelo aditivo (X=V+E) en donde el error de medida se considera una variable aleatoria compuesta por los diferentes factores, propios del sujeto, de la prueba y externos a ambos (Abad, García, Olea y Ponsoda, 2009). Con base en este primer modelo, el desarrollo de las pruebas a través del tiempo comienza con el planteamiento de los ítems y aunque los primeros diseños de estos contenían. 7.

(18) tópicos y contenidos generales y niveles de procesamiento descritos vagamente, una vez producidos, se revisaron para asegurar la confiabilidad de la respuesta correcta y cuestiones de equivalencia y calidad del contenido del ítem (Embretson y Gorin, 2001).La validez de constructos es uno de los puntos centrales al hablar de la calidad de una prueba. En términos generales, las dos grandes teorías acerca de las pruebas proporcionan un marco de referencia para relacionar variables observables, como los resultados de la prueba y los resultados de los ítems, con variables no observables como los puntajes verdaderos y los puntajes de habilidades. Sin embargo, los modelos de pruebas siempre representan información incompleta de los datos a los que se ajustan. El asunto es, entonces, determinar si un modelo se ajusta a los datos de tal forma que es suficiente la información que proporciona para dirigir el proceso de medición. Los modelos clásicos de pruebas se perciben como "modelos débiles" debido a que sus hipótesis son fácilmente comprobadas a través de los datos de las mismas, aunque existen modelos basados en un marco clásico de referencia que son robustos, tales como el modelo de prueba binomial y el modelo de respuesta al ítem, la otra postura en la teoría de modelos (Hambleton y Jones, 1993). En la teoría de modelos de prueba, una de las cuestiones más importantes que se desprenden es el manejo de los errores de medición. Los diferentes modelos manejan de distinta forma esos errores, algunos lo asumen normalmente distribuido, mientras que en otros esas suposiciones no existen. Un buen modelo es útil para comprender el rol que juegan esos errores de medición en la estimación de las habilidades del sujeto examinado y cómo pueden minimizarse las contribuciones del error. También deberá explicar el impacto del error en la correlación entre variables y en el reporte de la respuesta verdadera e intervalos de confianza. Otra de las características de un buen modelo es la especificación de las relaciones precisas entre los ítems de la prueba y los puntajes de habilidad.. 8.

(19) Como se mencionó anteriormente, en la teoría clásica se introducen tres conceptos respecto a los resultados de la prueba, el primero de ellos es el puntaje de prueba, llamado también puntaje observado (X), el segundo el puntaje verdadero (V) y el último el puntaje de error (E). A partir de estos tres elementos se han desarrollado diversos modelos como el modelo lineal simple (que a menudo es llamado modelo clásico), en donde el puntaje observado es función de los otros dos, generándose un modelo de la forma. . Para resolver el. modelo anterior son necesarias ciertas suposiciones como que las variables. no se. correlacionan entre si, el error promedio de la población de los examinados es cero y los puntajes de error en pruebas paralelas no están correlacionados (Hambleton y Jones, 1993). Las pruebas paralelas que se mencionan anteriormente son definidas como aquellas que miden el mismo contenido, en las cuales los examinados logran los mismos puntajes verdaderos y en donde el tamaño de los errores de medición a través de ellas, son iguales. Ju– Lin (2008) realizó una comparación respecto al paralelismo estadístico de las pruebas, tanto en el modelo de respuesta al ítem como en el modelo clásico, en pruebas generadas automáticamente. Una de las metas ideales en la construcción de este tipo de pruebas es lograr la equivalencia en sus características tanto psicométricas como no–psicométricas. En la práctica este objetivo era imposible de alcanzar de acuerdo con la teoría clásica y su definición de pruebas paralelas. En el caso de las pruebas generadas automáticamente se requieren elementos básicos para implementar los métodos de encadenamiento y generación de las versiones. Dichos elementos son la extensión de la prueba, las restricciones de contenido, las propiedades psicométricas deseadas y el número de versiones que serán construidas. Los resultados indicaron que tanto el modelo clásico como el de respuesta al ítem observaron adecuados índices de paralelismo. Otros modelos derivados del modelo clásico de pruebas se derivan de otras suposiciones además de las antes mencionadas, entre ellas está la suposición de que la distribución de los errores se comporta binomialmente, o bien normalmente. Específicamente el modelo binomial. 9.

(20) de pruebas se ha utilizado ampliamente en la resolución de problemas técnicos relacionados con las mediciones basadas en criterios (Hambleton y Jones, 1993). Este modelo se utiliza para determinar el tamaño de la prueba, medir confiabilidad y medir el dominio. Algunas variantes del modelo clásico también han establecido que los puntajes verdaderos de las pruebas paralelas están correlacionados de forma lineal, otros, han dividido el puntaje de error en varios de sus componentes tales como los errores debidos al manejo humano de los puntajes, el formato del ítem y la administración de la prueba en particular. Con estas variables se diseñan estudios para determinar el impacto de las mismas en la varianza de los resultados de la prueba y en la confiabilidad de ésta (Hambleton y Jones, 1993). Otro modelo más, íntimamente relacionado con la teoría clásica de las pruebas es el modelo factorial. Este modelo muestra la forma en que se puede reconocer, desde los datos de la prueba, cuando la misma mide un atributo o factor común. Se apoya en la teoría de que existe una función psicológica unitaria, denominada inteligencia general, de la cual depende el proceso cognitivo del individuo. En términos de las variantes de la teoría clásica de pruebas merece una mención especial la teoría de la generalización de la aptitud propuesta por Cronbach y otros colaboradores la cual postula que en cualquier modelo, los errores de medida pueden provenir de distintas fuentes (Muñíz, 1998) y que éstas definen el universo de generalización. En la Figura 1 se observan los modelos derivados de la teoría clásica de las pruebas.. 10.

(21) Teoría clásica de las pruebas (se fundamenta en el modelo lineal de Spearman). Teoría de la generalización de la aptitud. Modelo binomial. Múltiples fuentes de error definen el universo de la generalización. Figura 1. Modelos derivados de la Teoría clásica de pruebas.. 11. Modelo factorial simple.

(22) Por otro lado, la teoría de respuesta al ítem que examina tanto los ítems como el desempeño de las pruebas, relaciona este desempeño con las habilidades que se miden a través de los reactivos. Su principal objetivo es proporcionar estimaciones invariantes, tanto de los parámetros del ítem como de la aptitud de los sujetos. Esta teoría intenta predecir el desempeño del examinado en la prueba debida a la presencia de los llamados rasgos latentes, o aptitudes. Las respuestas al ítem pueden ser discretas o continuas y pueden medirse de forma dicotómica o policotómica. Las categorías de los puntajes de respuesta al ítem pueden estar ordenadas o no estarlo, pueden existir una o varias habilidades bajo el desempeño de la prueba y existen diferentes formas o modelos en las cuales se especifican las relaciones entre estas respuestas y las habilidades medidas en cuestión. Típicamente en los modelos de respuesta al ítem se hacen dos suposiciones principales, una que se relaciona con la estructura dimensional de los datos de la prueba y otra relacionada con la forma matemática de la curva característica del ítem. Al igual que los modelos clásicos, los modelos de respuesta al ítem son utilizados ampliamente en el análisis de los datos de desempeño, tal como los obtenidos en las evaluaciones escritas. Algunos modelos derivados de la teoría de respuesta al ítem se presentan en la Figura 2.. 12.

(23) Antecedentes: Curva característica del ítem de Tucker (1946), Lord y Novick (1968) y Bock y Lieberman (1970). Ojiva normal de Lord (1952, 1953). Modelos logísticos de Birnbaum (1957, 1958) Teoría de respuesta al ítem Modelo de Rasch (1960). Modelo de respuesta graduada de Samejima (1969). Modelos componenciales de Whitely (1980). Modelos no paramétricos de Mokken (1997). Figura 2. Modelos derivados de la Teoría de respuesta al ítem.. 13.

(24) En términos generales, la habilidad de interés se mide a través del desarrollo de una prueba consistente en un número de ítems o reactivos. Cada uno de estos mide una faceta de la habilidad particular de interés. Desde un punto de vista técnico estos ítems deben ser de respuesta libre, el examinado contesta lo que para él es más apropiado. Una vez que el examinador determina si la respuesta al ítem es correcta o no, le asigna un valor dicotómico, si la respuesta es correcta, vale uno, si no lo es, se asigna un cero. En la teoría del modelo clásico, los datos del examinado antes del tratamiento son la suma de los resultados de los reactivos de la prueba completa y bajo la teoría de respuesta al ítem el interés principal es si el examinado consiguió responder correctamente o no a cada uno de los ítems (Baker, 2001).. Desarrollo Histórico de las Pruebas Estandarizadas A lo largo del siglo XIX es cuando la concepción de la pedagogía como ciencia y los avances en la psicometría se traducen en la posibilidad de contar con pruebas que se conciben, administran y se legitiman por actores distintos al propio docente, sean estos directivos, científicos o investigadores educativos. Sin embargo, fue a principios del siguiente siglo cuando aparecieron los primeros indicadores relacionados con los gastos escolares, las tasas de deserción y la eficiencia terminal, en conjunto con las primeras pruebas estandarizadas de corte psicométrico. Los primeros intentos de estudiar las diferencias entre los objetivos de la escuela y los logros obtenidos se llevaron a cabo en los Estados Unidos e Inglaterra, a partir de 1930 y veinte años más tarde la insistencia de las reformas educativas llevó a contar con mecanismos de evaluación para justificar su calidad y diferenciarla de las prácticas educativas tradicionales (Tiana y Santángelo, 1994). Después de los años ochenta y desde entonces se han desarrollado una multitud de mecanismos de evaluación, tanto en países de Europa como de América, influenciados por organismos internacionales tales como la Asociación Internacional para la Evaluación de la Enseñanza (IEA), la OCDE y la Unesco (Tiana y Santángelo, 1994).. 14.

(25) En la década de los noventa, a partir del reconocimiento del deterioro de la educación en los Estados Unidos, da inicio una cruzada para mejorar la calidad de las pruebas estandarizadas y sobre todo, para incrementar la eficiencia en la interpretación de los resultados. El uso de las pruebas y evaluaciones ha sido un elemento clave en cinco etapas históricas. En la década de los cincuentas jugaron un rol fundamental en el seguimiento y selección, en los sesentas participaron en el diseño de los programas, una década después tuvieron un impacto importante en los programas de pruebas de mínimo nivel de competencias y en la década de los noventas, bajo la presión de elevar el nivel educativo en el país vecino fueron las protagonistas de los programas basados en estándares (Lyman, 1998). En las escuelas de este país se utilizan actualmente más de un millón de pruebas estandarizadas por día (Lyman, 1998) sin embargo, a menudo los resultados de estas pruebas terminan archivados sin una interpretación que genere conocimiento valioso para los investigadores educativos, administradores y docentes. El foco de la reforma educativa de este país se centró en los estándares educativos nacionales. En 1989 se llevó a cabo la Cumbre de educación en Charlottesville,Virginia en donde se establecieron seis metas educativas a lograrse para el año 2000 (Linn y Baker, 1995). Distintos tipos de estándares han estado en la mesa de discusión desde ese entonces, estos incluyen: (1) estándares de contenido, que establecen lo que deberá enseñarse y lo que el estudiante debe aprender; (2) criterios de desempeño, que definen los niveles de logro de los estudiantes considerados aceptables; y (3) estándares de oportunidad de aprendizaje, esto es, los criterios que se utilizan para medir la adecuación de las oportunidades de aprendizaje proporcionadas a los estudiantes. Uno de los temas centrales respecto a los estándares es que, además de la expectativa de ser altos, deberán también ser de clase mundial, lo cual enfatiza la necesidad de introducir la competitividad internacional en las competencias a desarrollar en las escuelas dada la relación directa entre el desempeño de los estudiantes y la competitividad económica de la nación. Las pruebas de alto impacto, utilizadas en los Estados Unidos a partir. 15.

(26) del 2001 han sido objeto de estudios y el interés por la implementación de este tipo de pruebas al nivel del aula y su impacto en los métodos de enseñanza ha sido uno de los focos de la investigación en evaluación. Las pruebas de alto impacto son aquellas en donde los resultados obtenidos a partir de su aplicación son utilizados para la toma de decisiones educativas importantes, tales como la promoción de los estudiantes de un grado al otro, graduaciones de bachillerato y en algunos otros casos impactan en la asignación de salarios y permanencia en los centros de trabajo de profesores y directivos. Au (2007) presenta un análisis de resultados cualitativos de 49 estudios relacionados con las implicaciones que tienen las pruebas de alto impacto en el currículo, en los temas de contenido, pedagogía y estructura del conocimiento. Las pruebas de alto impacto ejercen tres tipos de control en el currículo, en primera instancia se tiene un control de contenido, observándose predominantemente una contracción más que una expansión del mismo en un alto porcentaje de los estudios. Este fenómeno es el mayor indicador de la "enseñanza para el examen" que desde el inicio de las pruebas estandarizadas se ha observado en múltiples centros educativos (Au, 2007). Otro de los controles que se ejercen en el currículo es el control de la forma en que se enseña el contenido dentro del aula. La mayoría de los estudios realizados en este sentido apoyan la hipótesis de que se ha generado en los profesores una tendencia hacia la fragmentación del contenido, enseñando piezas aisladas e individuales de temas que tienen relación directa con el contenido de las pruebas (Au, 2007). El control pedagógico de las pruebas de alto impacto ha provocado un proceso de retroceso en esta materia. A pesar de las nuevas tendencias educativas de desarrollo de competencias y de uso de técnicas didácticas de aprendizaje activo, el uso de las pruebas estandarizadas y sobre todo, la importancia que se le da al resultado de las mismas ha ocasionado el regreso de las técnicas de enseñanza centradas en el profesor, asociadas con la lectura y con la tendencia de resolución de problemas y preguntas directamente asociados con los contenidos de la prueba (Au, 2007).. 16.

(27) Factores como la presión a la que están sujetos los docentes para el buen cumplimiento de los estándares educativos inciden tanto en el cambio de pedagogía en el aula como en la fragmentación del contenido analítico. Es evidente que el tiempo es un factor clave y que se encuentra en contra de la extensión del contenido y de la enseñanza centrada en el estudiante, debido a que ambas características implican un mayor tiempo dentro del aula, para un mismo contenido. Sin embargo, una de las prácticas que es útil para los profesores, la identificación de las necesidades especiales de los alumnos, la clasificación, motivación hacia los estudiantes y el monitoreo de la efectividad instruccional es la evaluación en el aula. En los Estados Unidos el estado que utiliza las evaluaciones en aula como parte de las reformas y políticas basadas en estándares es Nebraska. El sistema de reportes de evaluaciones conducidas por profesores (STARS por sus siglas en inglés) anima a incorporar en los diferentes distritos este tipo de pruebas como parte fundamental de las evaluaciones de los estudiantes y de los logros de los mismos (Ohlsen, 2007). En el inicio de su práctica docente, los maestros no cuentan muchas veces con las competencias que les permitan diseñar e implementar medios y métodos de evaluación efectivos. Especialmente los maestros de secundaria y niveles superiores carecen de estas competencias y usualmente ponen en práctica los métodos evaluativos que experimentaron como estudiantes o bien los que les comparten profesores con mayor experiencia en su centro de trabajo. Sin embargo, la evaluación dentro del aula tiene un inmenso potencial para incrementar el aprendizaje de los estudiantes y para proveer de datos valiosos tanto a los docentes como a los directivos e investigadores educativos. Un estudio comparativo entre estudiantes de sexto grado de primaria llevado a cabo en Yucatán por Valdés y Rodríguez (2006) utilizó un modelo centrado en los resultados obtenidos por los estudiantes que asistieron a una escuela dentro del marco del programa de Escuelas de Calidad, contra los de aquellos que asistieron a una escuela pública que no se encuentra en el. 17.

(28) Programa. La muestra de 410 estudiantes pertenecientes a 10 escuelas (5 de calidad y 5 tradicionales) resolvió una prueba diseñada por la Secretaría de Educación Pública (SEP) en donde se midieron los conocimientos de diferentes áreas. Los resultados obtenidos en el estudio indicaron que, independientemente de la asignatura y de pertenecer o no a una escuela de calidad, los puntajes obtenidos por más del 90% de los alumnos está por debajo del mínimo aprobatorio en nuestro país (60%). Otra característica interesante es que los resultados en la asignatura de matemáticas son significativamente inferiores a los de las otras disciplinas, para todos los estudiantes en general. La disciplina por excelencia en las pruebas estandarizadas es la matemática. Esta fue de hecho, la primera disciplina que adoptó la reforma educativa basada en estándares y en donde el Consejo Nacional de Profesores de Matemáticas (NCTM por sus siglas en inglés) ha sido clave para los estudios e investigaciones relacionadas con esta reforma. De acuerdo con Ohlsen (2007) los instrumentos de evaluación que utilizan los profesores de secundaria son los exámenes y las pruebas cortas, en menor frecuencia de uso se tienen las presentaciones orales, las preguntas tipo ensayo y los proyectos en equipo. En su estudio realizado con 668 miembros del NCTM en nueve estados de la unión americana se encontró que más de las dos terceras partes de los docentes preferían evaluar a través de exámenes y cerca de dos terceras partes utilizaban la prueba rápida como método evaluativo. Uno de los principales hallazgos del estudio resalta la preferencia de los profesores por diseñar sus exámenes y evaluaciones, más que utilizar aquellos que son publicados por editoriales o propuestos en los manuales de instrucción. Es claro que los métodos de evaluación basados en desempeño llevan un camino lento hacia las prácticas comunes dentro de las aulas, bien debido a la falta de capacitación y desarrollo de habilidades y competencias de los docentes en materia evaluativa, así como a la necesidad de contar con un mayor tiempo dentro del currículum para la implementación de estos métodos de evaluación. En nuestro país estudios diversos llevados a cabo por el Instituto Nacional para la Evaluación de la Educación (INEE), gestado a partir del año 2000 han. 18.

(29) intentado analizar los diversos factores que inciden en el desempeño académico de los alumnos mexicanos, no solamente en matemáticas sino en las demás disciplinas (Tristán, 2008; Backhoff, Bouzas, Contreras, Hernández y García, 2007; INEE, 2005; Chinen, s.f.; Cervini, 2005).. Características de las Pruebas Estandarizadas Existen ciertas cuestiones cruciales para entender los resultados de las pruebas y su interpretación. En primera instancia es importante recalcar que en el análisis de una prueba se utilizan los resultados crudos, sin refinar. La exactitud de estos resultados es fundamental para los puntajes derivados de ellos, sin embargo, los puntajes crudos dependen en mucho del número y de la dificultad de los reactivos. Un concepto importante para el análisis de los resultados es el rango percentil y su diferencia respecto al porcentaje del puntaje correcto, el rango percentil describe la posición relativa de un sujeto examinado con relación a un grupo particular de estudio. Por ejemplo, un rango percentil de 80 significa que el puntaje de la persona en cuestión es igual o mayor que el puntaje del 80 por ciento de las personas del grupo, mientras que el porcentaje del puntaje correcto nos dice únicamente la proporción de respuestas correctas que tuvo la persona, sin darnos información acerca de su posición relativa referente al grupo examinado. El rango percentil se ha utilizado ampliamente en diversos estudios comparativos internacionales. Linn y Baker (1995) presentan diversas comparaciones en los resultados de países seleccionados, en la prueba IAEP (International Assessment of Educational Progress), en matemáticas, ciencia y literatura. Otra característica de las pruebas son las reglas o normas de las mismas. Dichas reglas son importantes en la medida en que proporcionan significado a los puntajes obtenidos. Proporcionan una base de comparación entre los puntajes individuales y los puntajes de la población que ha contestado la misma prueba. Las tablas de normas, que pueden ser proporcionadas por el editor de la prueba o bien ser establecidas localmente por los usuarios,. 19.

(30) se utilizan para traducir los resultados crudos en otros relacionados como los percentiles, puntajes estándar, puntajes de grado equivalentes, IQ´s y otros. Un concepto fundamental relacionado con las pruebas estandarizadas es la validez, el grado en que una prueba mide lo que intenta medir. Hay tres formas de evaluar la validez de una prueba (Valenzuela, 2004): (1) validez de contenido, (2) validez de criterio y (3) validez de constructo. Respecto a la validez de contenidos es importante destacar el grado en que la prueba abarca todas las áreas o temas a ser evaluados. La validez de contenido, que de acuerdo a Lissitz y Samuelsen (2007) fue introducida por Cureton en 1951 para validar, de acuerdo a aquellos que hacen el trabajo, lo que debe constituir el conocimiento a evaluar y los pesos específicos que cada uno de estos contenidos debe tener en la prueba a diseñar, comúnmente se determina a través de expertos que juzgan, por decirlo de alguna manera, la relevancia o congruencia de los reactivos con el universo de contenido. La validez de criterio es aquello que se refiere a qué tanto puede predecir la prueba el desempeño futuro o estimar el desempeño actual de una medición diferente a la de la prueba en cuestión. Generalmente se estima a través de un índice denominado coeficiente de validez (Valenzuela, 2004) calculado a través de un análisis de correlación. La validez de constructo, a decir de Embretson y Gorin (2001), incluye el significado del constructo y la importancia del constructo. El significado del constructo se relaciona con los procesos, estrategias y estructuras de conocimiento que están involucradas en la solución de un reactivo. La importancia del constructo, a diferencia, tiene que ver con la relación entre los resultados de la prueba y otras mediciones. Una técnica común para determinar la validez de constructo de una prueba es el análisis factorial (Valenzuela, 2004). Retomando el concepto de validez anteriormente mencionado, es importante hacer notar la diferencia entre este concepto y el de confiabilidad de una prueba estandarizada. La validez se refiere a la habilidad de la prueba para medir exactamente lo que se desea medir, mientras que la fiabilidad de la misma se refiere a la posibilidad de que el conjunto de resultados de la. 20.

(31) prueba sea reproducible bajo diferentes condiciones, es decir, la estabilidad o consistencia de los resultados. Se necesita una alta confiabilidad para garantizar una validez razonable ya que una prueba que no puede medir consistentemente tampoco podrá medir nada correctamente. Sin embargo, una prueba puede ser altamente confiable sin necesariamente ser capaz de realizar bien una tarea específica. Así mismo, el rango de los resultados de la prueba tiene un efecto importante tanto en la validez como en la confiabilidad. Linn (2000) menciona, sin embargo, que existen evidencias respecto a la alteración de los resultados de las pruebas estandarizadas, en el sentido de inflar las ganancias en aprendizaje obtenidas por los estudiantes. Entre los factores que provocan estas alteraciones se tienen la selección de estudiantes a los que se les aplican las pruebas, errores de conversión de las escalas de la prueba, condiciones de la administración de las mismas, efectos relacionados con la práctica de aplicación y la existencia de simulacros o talleres de familiarización de la prueba. Una de las desventajas de las pruebas estandarizadas es que están sujetas a cuestiones culturales, hasta cierto punto. Desde el punto de vista de Lyman (1998) todas las pruebas estandarizadas discriminan en el sentido de los rasgos que miden, no en las cuestiones raciales o étnicas de los sujetos. Por otro lado, estudios realizados en Florida sobre los resultados en las pruebas de competencias mínimas (MCT) indicaron que existe una diferencia sustancial entre los resultados obtenidos por estudiantes de raza blanca y los obtenidos por estudiantes latinos y afroamericanos, obteniéndose diferencias de hasta 50 puntos porcentuales entre el primer grupo y el último y aunque a través de los años los resultados globales de las tres muestras de estudiantes han aumentado, las diferencias entre los tres grupos se han mantenido constantes (Linn, 2000). Respecto a las pruebas que miden habilidades de los individuos, es importante aclarar que dichas habilidades a medir son tanto innatas como aprendidas. Esto es, las pruebas de inteligencia, de aptitudes o de logros, miden habilidades innatas pero solamente después de que estas han sido modificadas por la influencia del medio ambiente, que incluye el. 21.

(32) entrenamiento y capacitación, la experiencia y el aprendizaje a través del tiempo y por la motivación del examinado en el momento en que realiza la prueba (Lyman, 1998).. Modelos para Medir el Aprendizaje Básicamente, un modelo que mida el aprendizaje de un grupo de estudiantes debe contener tres partes. La primera de ellas lo constituyen los resultados del proceso educativo, tales como por ejemplo, el desarrollo de los estudiantes a través de sus primeros doce años escolares. La segunda parte del modelo incluye todos los factores sobre los cuales los docentes tienen control y que se supone que son los causantes de los resultados comentados en el punto anterior, por supuesto que en este elemento es muy importante tener la certeza acerca de la calidad y la cantidad de la educación que el estudiante recibe por parte de sus maestros. El tercer y último elemento lo conforman todos aquellos factores que están fuera del centro escolar y sobre los cuales no se tiene control, por ejemplo, la estabilidad familiar y el estatus socioeconómico del estudiante, que en definitiva tendrán una influencia importante en el aprendizaje de los alumnos (Haladyna, 2002). Algunas investigaciones han tratado de esclarecer si el incremento en el resultado de las pruebas estandarizadas ha sido la consecuencia directa de una mejora en el aprendizaje o bien es ocasionado por las prácticas de preparación para la aplicación de las mismas. Herman, Abedi y Golan (1994) realizaron un estudio con 341 profesores de educación básica, de los grados tercero al sexto pertenecientes a escuelas de diversos estatus socioeconómicos en los Estados Unidos. En este estudio, los reactivos tipo Likert de las encuestas se enfocaron principalmente a las pruebas estandarizadas enviadas por el distrito en cuestión. Los resultados indicaron que los profesores de las escuelas en donde los puntajes de la prueba permanecieron estables o bien decrecieron, sentían muy poca presión tanto de los padres como de la comunidad para incrementar los resultados. Además de lo anterior, estos maestros atribuían el decrecimiento de los puntajes a causas que se salían de su control. Este. 22.

(33) mismo comportamiento se observó con los maestros de sectores socioeconómicos bajos, quienes se enfocaron al contenido de la prueba y a la preparación de los niños para la misma. El impacto del docente en el proceso educativo de los estudiantes y en los resultados obtenidos por ellos en las pruebas estandarizadas, obedecen a los tres dominios del comportamiento humano:(1) el dominio cognitivo, que incluye el comportamiento intelectual, conocimientos, habilidades, destrezas e inteligencia;(2) el dominio afectivo, que involucra las emociones, las tendencias emocionales, la inteligencia emocional, actitudes, el locus de control, la perseverancia, personalidad, confianza en sí mismos, autoconcepto, autoestima y motivación; y (3) el dominio psicomotor, que incluye acciones físicas que involucran conductas mentales. De estos tres dominios, al que usualmente se le pone mayor atención es al dominio cognitivo. De acuerdo a lo anterior, la complejidad de los resultados del proceso educativo hace prácticamente imposible contar con una prueba que mida adecuadamente todos y cada uno de estos resultados. De hecho, las pruebas estandarizadas son únicamente estudios limitados sobre los conocimientos y habilidades de solo una muestra en el amplio dominio de las conductas de aprendizaje de los estudiantes. Downing (en Downing y Haladyna, 2006) presenta doce pasos recomendados para el desarrollo de una prueba de habilidades para maximizar la validez de la evidencia que se tiene intención de interpretar. La Figura 3 presenta los doce pasos en forma esquemática.. 23.

(34) Desarrollo de una prueba de habilidades. (9) Establecimiento de los puntajes de aprobación. (10) Reporte de resultados. (1) Plan global. (8) Determinar las puntuaciones de las respuestas. (11) Banco de reactivos. (2) Definición de contenido. (7) Administración de la prueba. (3) Especificaciones de la prueba. (6) Producción de la prueba. (4) Desarrollo de los ítems. (5) Diseño y armado de la prueba. Figura 3. Doce pasos para el desarrollo de una prueba.. 24. (12) Reporte técnico.