Modelo multidimensional de teoría de respuesta al ítem jerárquico

(1)

Maestría en Estadística

Bogotá, diciembre de 2013

Modelo Multidimensional de Teoría de Respuesta al Item

Jerárquico

Diana Stella Antonio Rojasa

Diana Stella Antonio Rojas

Código: 832411

Trabajo de grado presentado para optar al título de Maestría en Ciencias- Estadística

DIRIGIDO POR:

Alvaro Mauricio Montenegro Díaz

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS

DEPARTAMENTO DE ESTADÍSTICA

Bogotá, 2013

a

(2)

Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico

Diana Stella Antonio Rojas

Código: 832411

Maestría en Ciencias- Estadística

Director

Alvaro Mauricio Montenegro Díaz

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS

DEPARTAMENTO DE ESTADÍSTICA

(3)

Modelo Multidimensional de Teoría de Respuesta al Item Jerárquico

Resumen

Se propone un modelo para analizar datos resultantes de la aplicación de una prueba multidimen-sional a varias poblaciones, en las que se presentan diferencias en los parámetros de los items entre ellas. Se presentan resultados de la aplicación del modelo propuesto a datos simulados y a una muestra de datos reales provenientes delPrimer Estudio Internacional Comparativo sobre Lenguaje, Matemá-tica y Factores Asociados en Tercero y Cuarto Grado (PERCE), que fue aplicada por el Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación. Los datos fueron suministrados por el Instituto Colombiano para la Evaluación de la Educación (ICFES). Se usa una muestra de datos de tres países: Bolivia, Colombia y Cuba.

Palabras clave:Teoría de respuesta al ítem, modelos jerárquicos, funcionamiento diferencial del ítem, dimensiones de los trazos latentes.

Multidimensional Hierarchical Item Response Theory Model

Abstract

Proposes a model for analyzing the data resulting from application of a multidimensional test several stocks, which are differences in the parameters of the items between them. We present results of applying the proposed model to simulated data and a sample of real data from theFirst International Comparative Study of Language, Mathematics and Associated Factors in Third and Fourth Grade

(PERCE), which was applied by the Laboratory for Assessment of the Quality of Education. The data were supplied by theColombian Institute for the Evaluation of Education (ICFES). We use a data sample of three countries: Bolivia, Colombia and Cuba.

Key words:Item response theory, hierarchical models, differential item functioning, dimensions of the latent traits.

(4)

Índice

1. Introducción 5

2. Metodología 5

3. Modelos clásicos de TRI 6

3.1. Modelo clásico unidimensional de TRI dicotómico . . . 6

3.2. Modelo TRI unidimensional con efectos aleatorios . . . 6

3.3. Modelo TRI Multidimensional . . . 8

3.3.1. Análisis de las dimensiones . . . 9

4. Modelo multidimensional jerárquico TRIMJ 9 4.1. Función de verosimilitud . . . 10

4.2. Estimación de los parámetros del modelo TRIMJ . . . 11

5. Simulación 11 6. Aplicación a una muestra de datos de la prueba PERCE 15 6.1. Análisis para detectar la dimensionalidad del espacio de los trazos latentes . . . 15

6.2. Estimación de los parámetros de los items . . . 16

6.3. Estimación de los trazos latentes básicos . . . 17

6.4. Estimación de los trazos latentes principales . . . 18

6.5. Evaluación del ajuste del modelo TRIMJ . . . 23

7. Discusión 24

8. Conclusiones 28

9. Propuestas para trabajos posteriores 29

10.Agradecimientos 30 Apéndice A. 31 Apéndice B. 33 Apéndice C. 37 Apéndice D. 38 Apéndice E. 39 Apéndice F. 40 Apéndice G. 42

(5)

1. Introducción

El modelo desarrollado fue diseñado para el caso en el que existen clusters de respondientes. Se asume que los trazos latentes de todos los respondientes provienen de una única distribución y las diferencias entre los clusters de respondientes son modeladas relajando la hipótesis de invarianza de la medición. Se usa un modelo jerárquico para modelar las diferencias en los parámetros de los items entre los clusters de personas, en lugar de asumir la invarianza de los parámetros de los items a lo largo de cada uno de los clusters de respondientes. Un enfoque similar fue aplicado por Fox (2010), en el diseño del modelo unidimensional de teoría de respuesta al item (TRI) con efectos aleatorios, para el análisis de pruebas unidimensionales aplicadas a personas que pertenecen a diferentes poblaciones.

En este trabajo, se extiende el modelo de (Fox 2010) para el caso multidimensional, usando el enfoque jerárquico en lugar del enfoque con efectos aleatorios. Es decir, se incluye la estrategia jerárquica en el modelo multidimensional de TRI (TRIM) (Reckase 2009, pp. 86), teniendo en cuenta que un item puede ser sensible a diferencias en las personas en multiples dimensiones. Cuando las dimensiones son objetivo de la evaluación, los resultados sirven como indicadores válidos de las dimensiones de interés. Cuando subgrupos de la población tienen diferencias en dimensiones que no son objetivo de la evaluación, pueden incluir sesgo en el item. Los análisis con modelos TRIM pueden ayudar a aclarar tanto las diferencias entre las poblaciones, como las razones del funcionamiento diferencial del item FDI (Reckase 2009, pp. 74-75). Las diferencias en los parámetros de los items son modeladas jerárquicamente, por lo anterior, el modelo no identifica el FDI.

El modelo desarrollado en este trabajo puede aplicarse a pruebas en las cuales existen varias poblaciones o clusters de respondientes, en cuyo caso, es usual que los clusters tengan diferencias entre ellos, por razones culturales, de idioma, sistemas educativos, entre otras. Un ejemplo de ello es la prueba PERCE, que se aplicó en 1997 a estudiantes de 13 países latinoamericanos, con el objetivo de percibir los logros educativos de los países a través de enfoques comparados, que permitieran generar indicadores comunes

(Casassus & Cusato 1998b, pp. 7).

En el enfoque de efectos aleatorios, se calcula un parámetro global para todos los items, independiente de la población, y un parámetro local en cada población. La diferencia entre el parámetro general y el local, es considerada un efecto aleatorio. El valor del parámetro local corresponde al parámetro global más su efecto aleatorio en esa población. En las pruebas internacionales, el parámetro global es llamado internacional, y el de cada país es llamado nacional.

En el modelo diseñado en este trabajo, se estiman parámetros de los items específicos en cada cluster. Al mismo tiempo, se conserva una escala de medición común, porque se estima un parámetro global, que corresponde a la media de toda la población, que sirve como parámetro de comparación de las diferencias en el funcionamiento del item entre cada cluster y la media global. Con el cálculo de parámetros de los items en cada población, no es necesario que los items sean invariantes, ni es necesario clasificarlos como invariantes o no invariantes (Fox 2010, pp. 193).

2. Metodología

En este trabajo se generaliza el modelo unidimensional de TRI con efectos aleatorios (Fox 2010), en el sentido de incluir dos conjuntos de parámetros de los items en el modelo TRIM (Reckase 2009, pp. 86). Para estimar los parámetros del modelo diseñado, se desarrolló un algoritmo en base a la metodología descrita en Bolt (2003), se usaron técnicas Bayesianas, como lo han hecho autores como Fox (2010) y Montenegro (2011), entre otros. El modelo propuesto y el procedimiento de estimación se encuentran en la sección 4.

Se simularon datos a través de un procedimiento desarrollado en R, a los que se aplicó el modelo TRIM (Reckase 2009) y el modelo propuesto para recuperar los parámetros simulados. Se compararon los re-sultados y se evaluó la calidad de la recuperación de los parámetros usando el algoritmo con el que se implementó el modelo. Los resultados se encuentran en la sección 5.

Se aplicó el modelo propuesto a un conjunto de datos reales, tomados del Primer Estudio Internacional Comparativo sobre Lenguaje, Matemática y Factores Asociados en Tercero y Cuarto Grado (Casassus &

(6)

la muestra de tres países: Bolivia, Colombia y Cuba, correspondiente al seis por ciento del total de datos en cada país.

Para determinar el número de dimensiones de la muestra de datos reales se desarrolló un análisis paralelo (Horn 1965), (Reckase 2009, pp. 215). Para estimar los parámetros del modelo propuesto se implementó un algoritmo en Winbugs . Winbugs fue desarrollado conjuntamente por la MRC Biostatistics Unit, Cambridge y el Imperial College School of Medicine at St Mary’s, Londres, se encuentra disponible para descargar en la página http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml.

Se estimaron los parámetros de los items usando el modelo TRIM clásico (Reckase 2009, pp. 86), con el objetivo de comparar el ajuste de los dos modelos. Se compararon los resultados de la aplicación de los

modelos con elDeviance Information Criterion (DIC) (Carlin 2009, pp. 71). Se evaluó el desempeño del

modelo propuesto con los métodos Conditional Predictive Ordinate CPO y CPO inverso (Ntzoufras 2009, pp. 344).

3. Modelos clásicos de TRI

En esta sección se describen los modelos de TRI usados en el desarrollo de este trabajo. Se usan modelos dicotómicos, donde las respuestas de las personas a los items se califican como 1 correcto, 0 incorrecto. En este trabajo se usan modelos TRI de dos parámetros. En estos modelos se supone que cada item tiene una discriminación y una dificultad específicas. La discriminación se refiere a la capacidad del item para detectar las diferencias de los trazos latentes entre las personas evaluadas, y se asume que la dificultad de cada item es diferente.

El parámetro θ de la persona corresponde al trazo latente que el evaluador busca estimar a través de

la aplicación de la prueba. Un modelo es unidimensional cuando el trazo latente es unidimensional. En

el caso multidimensional, θ corresponde a un vector de trazos latentes. La respuesta de un individuo a

los items de una prueba, resulta de la interacción entre los parámetrosθ y los parámetros de los items

(Reckase 2009, pp. 2).

3.1. Modelo clásico unidimensional de TRI dicotómico

En los modelos unidimensionales de TRI (TRIU), se asume que la respuesta de un individuo a un item

resulta de la interacción de los parámetros del item y un solo parámetroθ. En estos modelos,θrepresenta

el parámetro que describe el trazo latente de la persona,ξkrepresenta el vector de parámetros que describe

las características de los items de la prueba,Y corresponde a las respuestas de una persona a los items de

la prueba, yy representa un posible valor del promedio de respuestas correctas.f representa la función

que describe la relación entre los parámetros del modelo y la probabilidad de respuesta del individuo. Así, un modelo TRIU de dos parámetros se define de forma general (Reckase 2009, pp. 12):

P(Y =y|θ) =f(θ, ξk, y)

El modelo UIRT de dos parámetros con enlace logístico, se define como:

P(Yik = 1|θi, ak, bk) =

eak(θi−bk)

1 +eak(θi−bk)

donde Yik corresponde a la variable aleatoria que representa la respuesta del individuo i al item k, θi

denota el trazo latente del individuoi yak ybk denotan los parámetros del itemk (Fox 2010, pp. 9).

3.2. Modelo TRI unidimensional con efectos aleatorios

El modelo con efectos aleatorios para el caso unidimensional (Fox 2010, pp. 193-209), fue desarrollado para analizar datos provenientes de pruebas aplicadas a poblaciones divididas en clusters, suponiendo que los individuos requieren de un trazo latente para responder a los items de la prueba. La estimación de ese trazo latente es el objetivo principal de la teoría.

(7)

En este modelo el autor asumió que debido a la clasificación de los evaluados en clusters, existen diferencias en los parámetros de los items entre clusters, más no dentro de ellos. Debido a que los items no son invariantes, se calcula un conjunto de parámetros de los items en cada cluster, y un conjunto de parámetros globales, que corresponde a la media de los parámetros de los items en toda la población. Así, se incluyeron las diferencias de los parámetros en cada cluster con el parámetro global, como efectos aleatorios. Se asumió que los items no son invariantes, pero las observaciones son condicionalmente independientes, es decir, las respuestas a los items son independientes entre las personas evaluadas.

Los parámetros globales de los items son invariantes en toda la población y se denotanξk = (ak, bk)′. Se

admite que las variables aleatorias que generan los parámetros de los items están correlacionadas. Fox (2010) propuso la siguiente distribución a priori para los parámetros de los items:

(ak, bk)′∼NM(µξ,Σξ)IAk(ak),

donde (ak, bk)′ provienen de una distribución normal bivariada truncada NM, µξ y Σξ denotan los

hi-perparámetros de los items,Σξ denota la matriz de covarianza de los parámetros de los items,I denota

la función indicadora y Ak ={ak ǫ R, ak >0}, para admitir solo valores positivos en el parámetro ak.

Para modelar los hiperparámetros de los items, Fox (2010, pp. 36) propuso una distribución inversa de

Wishart denotada comoIW, como distribución a priori conjugada para la matriz de covarianzaΣξ, con

matriz de escalaΣ0 y grados de libertadv≥2; y una distribución normal como a priori paraµξ|Σξ. La

distribución conjunta propuesta a priori para los hiperparámetros(µξ,Σξ), se define:

Σξ ∼IW(v,Σ0), µξ|Σξ ∼N(µ0,Σξ/K0).

dondeK0denota el número de mediciones a priori,µ0= (1,0)′,v=2 yΣ0es una matriz de escala que es

mínimamente informativa deΣξ.

Hasta ahora, no se han tenido en cuenta las variaciones de los items entre poblaciones. Para permitir estas variaciones, el autor incluyó efectos aleatorios en los parámetros de los items y propuso una distribución a priori para los efectos aleatorios que se define como:

ξkg = (akg, bkg)′∼NM((ak, bk)′,Σ_ξ˜)),

donde ξkg denota los parámetros del item k en la población g y NM denota la distribución normal

bivariada. El autor propuso el modelo incluyendo los dos grupos de parámetros de los items, globales

y locales, y usó enlace normal Φ para facilitar la estimación de los parámetros del modelo (Fox 2010,

pp. 198).

Teniendo en cuenta los efectos aleatorios de los items, el primer nivel del modelo de respuesta al item para datos binarios fue definido por Fox (2010) como:

P(Yigk= 1|θi, ξkg) = Φ(akgθi−bkg)

dondeYigkdenota la variable aleatoria que representa la respuesta del individuoi de la subpoblacióngal

itemk. En esta primera parte del modelo no se tiene en cuenta la agrupación de la población en clusters,

se describe la probabilidad de respuesta correcta dado el parámetroθ y los parámetros de los items en

cada cluster.

El modelo TRIU con efectos aleatorios, es un modelo que integra los parámetros globales y sus efectos aleatorios, y se define de la siguiente manera:

P(Yigk= 1|θi, ξk) = Φ(akθi−bk−ǫbkg+ǫakgθi)

donde Yigk denota la respuesta del individuo i de la subpoblación g al item k, ǫbkg y ǫakg denotan los

efectos aleatorios de los parámetros de los items. Los efectos aleatorios de los parámetros de los items se

distribuyen normalmente con media cero y varianzaσ2

(8)

3.3. Modelo TRI Multidimensional

En el modelo TRI multidimensional, se asume que las respuestas de los individuos a una prueba, resultan de la interacción entre el conjunto de parámetros de los items de la prueba y un conjunto de trazos

latentes de los individuos. Por lo anterior, en los modelos TRIM se tiene para modelar un vector de L

parámetrosθ para cada persona evaluada, dondeL corresponde a la dimensión del espacio de los trazos

latentes, es decir, un vector de trazos latentes cuya estimación es el objetivo general de los modelos. Los

parámetros de discriminación de los modelos TRIM conforman un vector a_k en cada dimensión de la

prueba.

Es importante tener en cuenta que se debe distinguir entre las dimensiones definidas por los modelos TRIM, que representan abstracciones estadísticas de los datos observados, y los trazos latentes que representan dimensiones de variación cognitivas o afectivas en una población (Reckase 2009, pp. 79). Las respuestas de los items se pueden considerar como señales parciales de los trazos latentes de los

examinados. Si una prueba está compuesta por K items, el patrón de respuesta de un individuo es un

vector en el espacio{0,1}K_{. En la práctica, el número de dimensiones es inferior al número de items. Por}

lo anterior, el vector de trazos latentes de un individuo es una representación de su patrón de respuesta en un espacio euclidiano de dimensiones reducidas (Montenegro 2011, pp. 38).

En el modelo TRIM se calcula un parámetro de intercepto dk para cada item, que es un escalar. El

parámetro de dificultad en el caso multidimensional, se define como:

Bk = −dk q PL l=1a2kl (1)

donde dk denota el parámetro de intercepto del item k, akl denota el parámetro de discriminación del

itemk en la dimensiónl yLdenota el número de dimensiones del espacio de los trazos latentes. El valor

deBk tiene la misma interpretación que en los modelos unidimensionales, también llamado MDIFF. Esta

interpretación deB es válida solo en la dirección especificada por elα- vector, que corresponde al vector

de ángulos entre el eje de coordenadas y la línea desde el origen al punto que representa la ubicación de

la personai en el espacio solución (Reckase 2009, pp. 116-117).

El índice de discriminación multidimensional, se define como:

Ak = v u u t L X l=1 a2 kl (2)

donde akl denota el parámetro de discriminación del item k en la dimensión l. Ak es la discriminación

multidimensional para el item k, también llamada M DISCk. Dado que Ak tiene la misma forma

mate-mática que el denominador deBk, otra forma de expresar la dificultad multidimensional esBk=−dk/Ak

(Reckase 2009, pp. 118).

La dirección de máxima discriminación desde el origen del espacioθhasta el punto del espacioθque tiene

la mayor inclinación considerando todas las posibles direcciones, se obtiene de la siguiente expresión:

cosαkl=

akl q

PL

l=1a2kl

donde α corresponde al vector de ángulos que especifica la dirección donde la superficie tiene mayor

pendiente. Los ángulos se obtienen a través del arcoseno del coseno de α. Los ángulos y cosenos son

características del item (Reckase 2009, pp. 116-117).

La extensión multidimensional del modelo TRI con enlace logístico fue presentada por Reckase (2009, pp. 86) y se define:

P(Yki= 1|θi,ak, dk) =

ea′_kθ_i+d_k

1 +ea′

(9)

dondeYkidenota la variable aleatoria que representa la respuesta del individuoial itemk. A continuación

se expande el exponente de e en el modelo, para mostrar la manera en que interactuan los parámetros

de los items y de las personas:

a′_kθi+dk =ak1θi1+ak2θi2+· · ·+akLθiL+dk = L

X

l=1

aklθil+dk

El exponente es una función lineal de los elementos de θ con el parámetro d como intercepto y los

elementos del vector a como los parámetros de la pendiente. La expresión en el exponente define una

línea en un espacio L-dimensional.

3.3.1. Análisis de las dimensiones

Esta investigación se limita a modelos multidimensionales, que requieren la previa especificación de la dimensión del espacio de los trazos latentes para su uso. Cuando las pruebas están divididas en subpruebas, cada subprueba se diseña para medir un trazo latente, y obtener una estimación de él (Montenegro 2011, pp. 9), por lo que se puede definir la dimensión de la prueba como el número de subpruebas, aunque la dimensión de la prueba puede no coincidir con la dimensión de los datos.

En el espacio euclidiano en el cual pueden ser representados por vectores los trazos latentes de los individuos, los trazos latentes individuales no tienen una interpretación directa. Sin embargo, el objetivo de la prueba es medir algunos trazos latentes de los examinados, que se pueden interpretar a través de una teoría subyacente (Montenegro 2011, pp. 41).

Aunque el espacio de los trazos latentes es multidimensional, el conjunto de items usados en una prueba es sensible principalmente a diferencias a lo largo de una dirección en el espacio de los trazos latentes, según el concepto de unidimensionalidad esencial de Stout (1990). Este concepto se puede generalizar a dimensionalidad esencial, donde los items pueden ser agrupados en clases, sensibles principalmente a lo largo de una dirección en el espacio de los trazos latentes. En este caso, las dimensiones esenciales medidas por las clases no necesariamente son ortogonales. Estos trazos latentes no ortogonales se convierten en ortogonales a través de transformaciones lineales que no cambian los patrones de probabilidad, pero cambian la correlación de los trazos latentes (Montenegro 2011, pp. 3).

Un índice sintético unidimensional del vector de trazos latentes en un modelo TRIM es usualmente

llamado unacomposición. Se define la composiciónΘβ del vector completo de trazos latentesθ, como la

combinación lineal deθque esΘβ =β′Θ =PL

k=1βkΘk, dondeβ= (β1, β2, ..., βL)es un vector constante

llamado la dirección de la composición Θβ. Si V ar(Θβ) = 1, Θβ será una composición normalizada

(Montenegro & Cepeda 2010).

Montenegro (2011, pp. 41) propuso los nombres de trazos latentes básicos a los componentes del vector de trazos latentes y trazos latentes principales, a los trazos latentes que la prueba intenta medir. Así, los principales trazos latentes se definen de acuerdo al diseño de la prueba. En pruebas con varias subpruebas, se calcula una dirección de referencia para cada uno, a partir de las direcciones de los items que lo conforman.

4. Modelo multidimensional jerárquico TRIMJ

En esta sección se introduce el modelo propuesto en este documento, que se denominará"Modelo

Multi-dimensional Jerárquico de dos Parámetros TRIMJ", que es una generalización del modelo de (Fox 2010) en el caso multidimensional. Se estiman dos conjuntos de parámetros de los items: globales y locales; y los parámetros de las personas están compuestos por un vector de trazos latentes para cada individuo.

El conjunto de parámetros globales se denotaξ_k = (ak, dk)′, dondeakes el vector de parámetros globales

de discriminación del itemk, ydk es el parámetro de intercepto global del itemk.ak corresponde a un

vector deLparámetros, dondeLdenota el número de dimensiones del espacio de los trazos latentes, hay

(10)

El conjunto de parámetros locales se denotaξ_kg= (akg, dkg)′, dondeakg es el vector deLparámetros de

discriminación del itemken la poblacióng, ydkg es el parámetro de intercepto del itemk en la población

g.

Los parámetrosakgconforman un vector deK parámetros en cada dimensiónl, y estos vectores conforman

una matriz de Lvectores en cada poblacióng. El modelo incluyeK*G*Lparámetros de discriminación

en total. Los parámetrosdkg conforman un vector deK parámetros en cada subpoblación, dondeK es el

número total de items. El modelo incluye en total una matriz deK*G parámetros de intercepto, donde

G es el número total de subpoblaciones.

El vector de trazos latentes se denotaθig, dondei corresponde al individuo yg a la población a la cual

pertenece. El vectorθig está compuesto porLparámetros para cada individuoi. Se denotang al número

de personas que conforman la subpoblación g, y el número de personas de la población total se denota

N. Es decir,N = (n1+n2+n3+...+nG). En total, se estimanN*Lparámetrosθ.

A partir de la anterior descripción de los parámetros, el modelo TRIMJ se define:

P(Yigk= 1|θig,ξkg) =

ea′_kg θ_ig+d_kg

1 +ea′

kgθig+dkg, (3)

donde Yigk denota la variable aleatoria que representa la respuesta del individuo i de la subpoblación

g al item k, parai=1,...,ng,g= 1,...,G yk=1,...,K. Se usa enlace logístico en el modelo TRIMJ porque

facilita el proceso de estimación, y las diferencias en los resultados con el enlace normal son mínimas, como se detalla en la sección 6.

El exponente expandido dee se escribe como:

a′_kgθig+dkg =akg1θig1+akg2θig2+akg3θig3+....+akgLθigL+dk= L

X

l=1

akglθigl+dk

el exponente es el predictor lineal latente del modelo TRIMJ. Para completar el modelo, se propone que:

(dkg|dk)∼N(d′k, σd2k)

(akg|ak)∼N M(a′k, σ 2

akg)IAkg(ak),

para k=1,2,...,K, y g=1,2,...,G. N denota la distribución normal, NM denota la distribución normal

multivariada,I denota la función indicadora yAkg ={akg ǫ RL,akg >0}, donde akg >0 se interpreta

akg1>0yakg2>0, hastaakgL>0, para admitir solo valores positivos en el parámetroakg. En adelante,

la pareja de varianzasσ2 dk, σ 2 ak, se denotaráσ 2 ξk.

Finalmente, para los trazos latentes, se propone que el trazo latenteθig es la realización de una variable

aleatoriaΘIg con distribución normal multivariada, de acuerdo con Bolt (2003):

Θ_Ig_∼_{N M}₍₀_{, I}_L)_,

donde IL es la matriz identidad de ordenL. Nótese que si Σθ no fuera I, siempre es posible hacer una

reparametrización para tener una distribución de los trazos latentes con la matrizΣθ=I, lo que implica

que la correlación entre las direcciones es muy cercana a cero.

4.1. Función de verosimilitud

Bajo la hipótesis de independencia entre las personas evaluadas e independencia entre las respuestas de la misma persona (independencia condicional), la función de verosimilitud del modelo TRIMJ está dada por: f(y|ξ,θ) = G Y g=1 ng Y i=1 K Y k=1 Pyigk igk (1−Pigk) 1−yigk_,

(11)

conPigk=P(Yigk=yigk|ξkg,θig).y representa las respuestas de todos los individuos,ξrepresenta todos

los parámetros de los items yθrepresenta los trazos latentes de todos los individuos. Nótese que:

P(Yigk= 0|θig,ξkg) = 1−P(Yigk= 1|θig,ξkg)

= 1

1 +ea′

kgθig+dkg.

4.2. Estimación de los parámetros del modelo TRIMJ

Los parámetros del modelo propuesto se estimaron con una estrategia Bayesiana. Para estimar los pará-metros de discriminación del modelo, es común usar a priori una distribución lognormal (Fox 2010, pp. 35) o una distribución normal truncada (Glas 2001, pp. 545). Para el modelo TRIMJ, se propone una distribución normal multivariada truncada:

ak ∼N M(0, IL)IAk(ak)

dondeI denota la función indicadora yAk ={ak ǫ RL,ak >0}, para admitir solo valores positivos en el

parámetroak. Para los parámetros de intercepto, se propone a priori una distribución normal:

dk ∼N(0,1000).

Siguiendo la estrategia usada en Fox (2010, pp. 35) y McKay (2010, pp. 13), se propone para la varianza

de los parámetros localesσ2

ξ una distribución gamma inversa:

σ2

ξ ∼gammainv(0.1,1000).

El modelo TRIMJ no es identificable. Para hacerlo identificable, se definieron tres vectores de

discrimi-nación como (1,0,0), (0,1,0) y (0,0,1), respectivamente y un vector de parámetrosdk se fijó en cero, como

es usual en estos casos.

El algoritmo desarrollado para estimar los parámetros del modelo TRIMJ a partir de las estrategias descritas, es el siguiente:

1. Definir los valores iniciales para los parámetros de los items:a=1, d=0.

2. Muestrear los parámetros localesakg ydkg para todokg.

3. Muestrear los parámetros globalesak ydk para todo k.

4. Muestrear los trazos latentesθig para todo ig.

5. Muestrear la varianza de los parámetros localesσ2

ak para todo k.

6. Muestrear la varianza de los parámetros localesσ2

dk para todok.

7. Calcular los estadísticos de ajuste del modelo.

El algoritmo de estimación fue implementado en Winbugs para estimar los parámetros de los items y los trazos latentes. La implementación se desarrolló en base al procedimiento descrito por Bolt (2003). Winbugs fue desarrollado conjuntamente por la MRC Biostatistics Unit, Cambridge y el Imperial Co-llege School of Medicine at St Mary’s, Londres, se encuentra disponible para descargar en la página http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml.

5. Simulación

Con el objetivo de evaluar la calidad de la recuperación de los parámetros con el algoritmo desarrollado, este se usó para recuperar los parámetros de los items y de los trazos latentes haciendo uso del modelo TRIMJ con varios conjuntos de datos simulados; que varían en número de items, dimensiones y subpobla-ciones. Se usó el modelo TRIM clásico con algunos conjuntos de datos, para observar el comportamiento de este modelo con datos con subpoblaciones y para comparar la calidad de la recuperación de pará-metros de los dos modelos. Al generar los datos simulados y luego recuperados, se siguió estrictamente

(12)

el modelo teórico y las restricciones propuestas en la sección 4.2 para hacer identificable el modelo. Se calculó la correlación, el error absoluto y el error cuadrático medio (ECM) entre los parámetros simulados y recuperados.

Para generar los datos, se siguió la estrategia propuesta por Kromrey et al. (1999), Montenegro (2011),

y se tomó como base el procedimiento desarrollado enR(Team 2008) por Montenegro (2011), que puede

ser consultado en el Apéndice B.Rse encuentra disponible para descargar en http://cran.r-project.org/.

En el procedimiento de simulación de los conjuntos de datos se asignaron valores diferentes a los pará-metros de los items de cada subpoblación. Los parápará-metros de intercepto se simularon de tal manera que tuvieran distribución normal, con media cero y varianza uno. Los parámetros de discriminación fueron simulados de tal manera que tuvieran distribución lognormal, media cero y varianza 1/4. Los trazos

latentes θ, fueron simulados de tal manera que tuvieran distribución normal, media cero y matriz de

varianza la identidad.

En el proceso de recuperación de los parámetros se usó el código de Winbugs que se encuentra en el Apéndice A. Se generaron para todos los casos 10000 muestras de las distribuciones posteriores más 1000 iniciales como calentamiento de la cadena. En todos los casos se observó que eran suficientes para la convergencia de las cadenas. El tiempo de estimación osciló entre 1.5 y 12 horas, en un computador con procesador Pentium (R) T4500 2.3 GHz, con velocidad de memoria 2 GB.

En la tabla 1 se encuentra la descripción de las simulaciones con sus características. Se puede observar que se usaron conjuntos de datos con diferentes características, y se recuperaron los parámetros de los items con el modelo TRIMJ excepto en la simulación 1, y en algunos casos con el modelo TRIM clásico. En los casos donde se describen varias simulaciones con las mismas características, estas se diferencian en que se generó un conjunto de datos diferente para cada simulación, aunque con las mismas características. En la tabla 1 se detalla que en algunos conjuntos de datos los parámetros de discriminación se generaron con distribución normal truncada.

Tabla 1:_{Descripción de las simulaciones}

Simulación Número de subpobla-ciones Número de ítems Número de per-sonas Número de dimen-siones θ Modelos usados 1 2 20 1000 2 TRIM clásico

2-4 2 20 1000 2 TRIMJ sin recuperación y con recuperación de los parámetros

globales de los items

5-9 2 20 1000 2 TRIMJ sin recuperación de los parámetros globales de los items

10 2 100 1000 2 TRIMJ sin recuperación y con recuperación de los parámetros

11 3 50 1000 3 TRIMJ sin recuperación de los parámetros globales de los items

12 2 30 1000 2 TRIMJ sin recuperación de los parámetros globales de los items

13-15 2 30 1000 3 TRIMJ recuperación de los parámetros globales de los items

18-20 2 20 1000 2 TRIMJ, distribución normal truncada para los parámetros de

dis-criminación

21 2 20 5050 2 TRIMJ, distribución normal truncada para los parámetros de

dis-criminación, tamaños de las poblaciones: 5000 y 50 respectivamen-te

22 2 20 1000 2 TRIMJ, y TRIM clásico. Distribución normal truncada para los

parámetros de discriminación

Los resultados de la simulación 1 de la tabla 1 mostraron que cuando se usó el modelo TRIM clásico (Reckase 2009, pp. 86), para observar la calidad de la recuperación de los parámetros cuando no se tienen en cuenta las subpoblaciones, esta fue de baja calidad, como se espera. La correlación entre los parámetros de los items simulados y recuperados fue superior a 0,9 en la mayoría de los casos, lo que se puede considerar adecuado. Sin embargo, el ECM fue superior a 0.7 en general, lo que indica la baja calidad de la recuperación de estos parámetros, a pesar tener una correlación adecuada, de acuerdo con la literatura, ver por ejemplo Patz et al. (2002) y Bolt (2003). En cuanto a los trazos latentes, en la dimensión 1 la correlación entre los trazos simulados y recuperados fue adecuada, pero el ECM fue demasiado alto,

(13)

y en la dimensión 2 la correlación fue demasiado baja. En el Apéndice D pueden leerse los resultados de esta simulación.

Los resultados de la simulación 22, descrita en la tabla 1, se pueden observar en las tablas 2 y 3. En esta simulación, se usaron los modelos TRIM clásico y TRIMJ con el mismo conjunto de datos, para comparar la calidad de la recuperación de los parámetros con los dos modelos. Obsérvese en la tabla 2 que los parámetros de los items recuperados con el modelo TRIM clásico tuvieron valores de correlación por encima de 0.9, con valores de ECM menores a 0.1, lo que indica que los parámetros recuperados son similares a los parámetros globales simulados, como se espera. Los parámetros locales recuperados con el modelo TRIMJ, tuvieron una recuperación adecuada, de acuerdo con los altos valores de correlación y

los valores bajos de error absoluto y ECM. Entre los parámetrosθ reales y recuperados, las correlaciones

oscilaron entre 0.7 y 0.8 con los dos modelos, pero nótese que los valores de los errores absolutos y el ECM, fueron mucho más grandes con el modelo TRIM clásico que con el modelo TRIMJ, lo que indica que la recuperación de parámetros del modelo TRIMJ fue de mejor calidad respecto al modelo TRIM clásico, como se espera.

Tabla 2:_{Resultados simulación 22, con el modelo TRIM clásico}

Media global Correlación Error absoluto Varianza Error cuadrático

a1 0,976 0,069 0,147 0,089

a2 0.962 0,075 0,126 0,100

d 0,985 0,053 0,198 0,073

Subpoblación 1 Correlación Error absoluto Varianza Error cuadrático

θ1 0,77 0,507 0,632 0,637

θ2 0,79 0,485 0,57 0,611

θ1 0,78 1,006 0,571 1,268

θ2 0,82 1,042 0,626 1,299

Tabla 3:_{Resultados simulación 22, con el modelo TRIMJ}

Media global Correlación Error absoluto Varianza Error cuadrático

a1 0,984 0,075 0,143 0,089

a2 0,96 0,102 0,16 0,123

d 0,99 0,061 0,23 0,073

a1 0,977 0,083 0,179 0,101

a2 0,967 0,083 0,152 0,112

d 0,991 0,084 0,576 0,109

θ1 0,776 0,506 0,65 0,636

θ2 0,792 0,484 0,606 0,609

a1 0,95 0,099 0,152 0,13

a2 0,925 0,134 0,208 0,175

d 0,976 0,099 0,306 0,118

θ1 0,783 0,49 0,582 0,623

(14)

Parámetro d real Trazo latente

real Parámetro a real

Parámetro a real Parámetro a real Parámetro a real Parámetro d real Parámetro a real Parámetro a real

Figura 1:_{Resultados de algunas simulaciones.}

Primera fila, simulación 11. Segunda fila, simulación 16. Tercera fila, simulación 15.

Los resultados de las simulaciones 2 a 21, descritas en la tabla 1, mostraron que la recuperación de los parámetros con el modelo TRIMJ fue de buena calidad en todos los casos. En el Apéndice E se encuentran los resultados de las correlaciones, los errores absolutos y el ECM de algunas de las simulaciones descritas en la tabla 1. En general, las correlaciones entre los parámetros de los items de los datos simulados y los parámetros recuperados fueron superiores a 0.9, lo que se considera adecuado. Los errores absolutos oscilaron entre 0.07 y 0.15, y el ECM fue menor a 0.22, estos resultados también se consideran adecuados de acuerdo con la literatura. La correlación entre los trazos latentes simulados y recuperados osciló entre 0.7 y 0.8, el error absoluto entre 0.4 y 0.5, y el ECM estuvo alrededor de 0.6. Aunque el error absoluto y el ECM son notablemente más altos que con los parámetros de los items, este resultado no es motivo de preocupación porque se simularon más personas que items en todos los casos. En la figura 1 se observan los resultados de algunas simulaciones. Nótese en la gráfica que la recuperación de los parámetros de intercepto tienen mejor calidad respecto a los parámetros de discriminación, y la recuperación de los trazos latentes es la de menor calidad. En general, los trazos latentes se recuperan con más error respecto a los parámetros de los items, lo que se puede considerar normal porque la cantidad de items fue siempre menor a la cantidad de personas en las simulaciones. Se observa también que la recuperación de los

(15)

parámetros de intercepto, fue de mejor calidad que la de los parámetros de discriminación, resultado que ya ha sido observado por autores como Fox (2010) y Montenegro (2011, pp. 51).

6. Aplicación a una muestra de datos de la prueba PERCE

Para este trabajo se tomó una muestra de datos del Primer Estudio Internacional Comparativo sobre

Lenguaje, Matemática y Factores Asociados en Tercero y Cuarto Grado (PERCE) (Casassus & Cusato

1998b). Los datos fueron suministrados por el ICFES. La prueba PERCE fue aplicada por el Laboratorio

Latinoamericano de Evaluación de la Calidad de la Educación (LLECE), con el objetivo de comprender el estado de la educación en los países a través de enfoques comparados, generar indicadores comunes

y diseñar recomendaciones políticas (Casassus & Cusato 1998b, pp. 7). Uno de los aspectos de mayor

interés por parte del LLECE, fue considerar los contenidos de los currículos de los países participantes, por lo que el contenido de la prueba fue aprobado por consenso entre los coordinadores de educación de los países participantes.

La prueba fue aplicada a niños de tercer y cuarto grado entre los meses de junio y noviembre de 1997 en trece países de América Latina. La prueba tiene dos componentes: matemática que consta de 32 items, y lenguaje que consta de 19 items. Se diseñaron dos cuestionarios: A y B, que están compuestos por diferentes items, pero el número de items es el mismo. A cada estudiante le correspondió responder uno de los dos cuestionarios al azar, posiblemente con el fin de evitar fraude en las respuestas.

Para este trabajo se tomó una muestra aleatoria de respuestas del cuestionario B, de tres de los países evaluados. Se eligió Colombia para observar su desempeño, Cuba por ser un país con desempeño atípico en

la prueba, y Bolivia porque tuvo un desempeño diferente en la prueba (Casassus & Cusato 1998b, pp. 31).

El tamaño de la muestra corresponde al seis por ciento de los estudiantes de cada país, se obtuvieron para Bolivia 252 estudiantes, Colombia 194 estudiantes y Cuba 156 estudiantes.

En los datos de la prueba PERCE recibidos del ICFES, las no respuestas fueron calificadas como cero. Las respuestas de las dos subpruebas se encuentran separadas, sin identificación de los estudiantes. Para la aplicación de un modelo MIRT, se requiere el uso de las respuestas de cada estudiante en las dos sub-pruebas, para obtenerlas, se realizó por parte del ICFES y de la autora la identificación de los estudiantes en cada subprueba, comparando la información de los cuestionarios adicionales que fueron aplicados.

6.1. Análisis para detectar la dimensionalidad del espacio de los trazos latentes

Para detectar la dimensión de los trazos latentes se usó el análisis paralelo propuesto por Horn (1965). De acuerdo con Reckase (2009, pp. 216), este procedimiento se ha sugerido por Ledesma (2007) y otros y tiene una larga historia en la literatura sobre análisis factorial, y es tan bueno como los métodos más elaborados.

El análisis paralelo consta de dos pasos: un análisis dimensional que proporciona los primerosn valores

propios de la matriz de correlaciones entre items, y la generación de un conjunto de datos que no tienen relación entre los items, pero tiene la misma proporción de respuestas correctas de los datos reales para cada item. Se analizan los datos generados con el mismo procedimiento de los datos reales, para obtener valores propios. Posteriormente, se dibujan los valores propios de los datos generados y los valores propios de los datos reales que son más grandes que los de los generados. Este es el número de dimensiones sugerido para el análisis (Reckase 2009, pp- 216). El análisis paralelo se encuentra implementado en R, en paquetes como pcaPA desarrollado por el ICFES y paran de Dinno (2012).

El análisis paralelo aplicado a la matriz de la muestra de datos de las dos subpruebas con el paquete paran de R (Dinno 2012), mostró que puede ser adecuado el uso de 3 dimensiones para los trazos latentes de la muestra. En la figura 2 izquierda se observa que hay 3 valores propios de los datos más grandes que los valores propios de los datos generados, por lo que el análisis sugiere el uso de 3 dimensiones de los trazos latentes. Este resultado se contrastó con un análisis en componentes principales, que sugirió igualmente la retención de 3 dimensiones, como se observa en el histograma de valores propios de la figura 2 derecha.

(16)

1 4 7 10 14 18 22 26 30 34 38 42 46 50 0 1 2 3 4 5 6 7 8 9 10 11 12 Parallel Analysis Components Eigen v alues Adjusted Ev (retained) Adjusted Ev (unretained) Unadjusted Ev Random Ev 0 2 4 6

Figura 2:_{Análisis de dimensiones de los trazos latentes de la muestra de datos de la prueba PERCE}

Izquierda: análisis paralelo. Derecha: histograma de valores propios del análisis en componentes prin-cipales.

Para estimar los parámetros haciendo uso del modelo TRIMJ, se usó el código de Winbugs que se encuen-tra en el apéndice Apéndice A. Se desarrollaron 1000 iteraciones para calentamiento, 10000 iteraciones para el muestreo y 2000 adicionales para calcular los estadísticos de bondad de ajuste. Se fijaron los vectores de parámetros de discriminación de los items 1, 15 y 51 para definir las direcciones, con los siguientes valores: (0,0,1), (1,0,0) y (0,1,0), respectivamente. Se fijo el parámetro de intercepto del item 1 en 0. Se asumió que la matriz de covarianza de los trazos latentes es igual a la identidad. En la figura 3 se observan algunas cadenas.

d[35] iteration 1001 5000 10000 -40.0 -20.0 0.0 20.0 40.0 b2[41] iteration 1001 5000 10000 0.0 0.5 1.0 1.5 2.0 2.5 theta3[527,3] iteration 1001 5000 10000 -1.0 0.0 1.0 2.0

Figura 3:_{Muestra de las cadenas de Markov de la aplicación del modelo TRIMJ}

Izquierda: parámetro d internacional, centro: parámetroa2 Colombia, derecha: parámetroθ3 de uno de los estudiantes de Cuba.

6.2. Estimación de los parámetros de los items

Se estimaron dos conjuntos de parámetros de los items con el modelo TRIMJ: los parámetros globales, que en adelante se nombran parámetros internacionales, y los parámetros locales, que corresponden a un conjunto de parámetros en cada país, que en adelante se nombran parámetros nacionales. En el Apéndice G pueden leerse los resultados de las estimaciones con el modelo TRIMJ.

Los resultados de la estimación de los parámetros de los items fueron coherentes con lo que se esperaba observar. En la subprueba de matemática, se presentaron diferencias entre países especialmente en los parámetros de discriminación nacionales. En la subprueba de lenguaje, se presentaron diferencias entre países especialmente en los parámetros de intercepto, y las diferencias entre los parámetros internacionales y nacionales fueron también más grandes en los items de esta subprueba.

En los resultados de la subprueba de matemática, los valores de los parámetros de intercepto oscilaron entre -1.926 y 3.2. Los parámetros de intercepto nacionales tuvieron valores diferentes en Cuba, en los items 2, 10, 12, 15, y 16. En Colombia, los items 6, 7 y 17 tuvieron diferencias en los valores de los parámetros, y en Bolivia el item 18 tuvo un valor diferente. Los resultados pueden leerse en la tabla 18 del Apéndice G.

A continuación, se describen los parámetros de discriminación de la subprueba de matemática por di-mensión. En la dimensión 1, los parámetros de discriminación tuvieron valores que oscilaron entre 0.19 y

(17)

1.9. En esta dimensión, el item 28 tuvo un valor más grande en Cuba. Los parámetros de discriminación de la dimensión 2, tuvieron un valor promedio de 1. En la dimensión 3, los valores de los parámetros de discriminación oscilaron entre 0.15 y 3.82, además de un valor extremo de 7.8 en el item 7. En esta dimensión se pueden observar las diferencias más grandes entre países en los valores de los parámetros de discriminación. Los items 5, 7, 8, 12, 13, 14 y 28, tuvieron valores más grandes en Cuba en esta dimensión. Estos resultados pueden leerse en las tablas 15, 16 y 17 del Apéndice G.

En cuanto a la subprueba de lenguaje, los valores de los parámetros de intercepto oscilaron entre -1.4 y 3.3. Se observa que 12 de los 19 items de lenguaje fueron más fáciles en Cuba. Los resultados pueden leerse en la tabla 18 del Apéndice G. Las diferencias entre los parámetros de intercepto nacionales e internacionales, son más grandes en los parámetros de intercepto, en las dos subpruebas. De acuerdo con Fox (2010, pp. 218), esta variación se presenta porque las dificultades de los items incluyen la variación en las medias de los trazos latentes entre países, que no es explícitamente modelada.

Los parámetros de discriminación por dimensión de la subprueba de lenguaje, se describen a continuación. En la dimensión 1, los valores de los parámetros oscilaron entre 0.12 y 0.84. El item 34 tuvo un valor más grande en Cuba, el item 37 en Colombia, y los items 36, 42, 47 y 48 en Bolivia. En la dimensión 2, los valores de los parámetros oscilaron entre 0.47 y 1.82. Los items 34, 35 y 38 tuvieron valores más grandes en Cuba, el item 44 en Colombia y el item 36 en Bolivia. En la dimensión 3, los valores de los parámetros oscilaron entre 0.28 y 1, el item 38 tuvo un valor más grande en Cuba y el item 36 en Colombia. Para una mejor interpretación de los parámetros de discriminación e intercepto estimados con el modelo TRIMJ, se calcularon los parámetros MDISC y MDIFF, con el objetivo de hacer una interpretación análoga al caso unidimensional. La definición de estos parámetros puede leerse en la sección 3, y las estimaciones respectivas aparecen en las tablas 19 y 20 del Apéndice G.

El parámetro de discriminación multidimensional MDISC, es la pendiente de la superficie de respuesta

del item en el punto de máxima pendiente y en dirección del origen del espacio θ. Éste parámetro es

análogo al parámetro de discriminación en el modelo TRI unidimensional. El parámetro de dificultad

multidimensional MDIFF, se interpreta como el parámetro b del modelo TRI unidimensional, es decir,

un item es más difícil entre mayor sea su valor de MDIFF, y más fácil entre menor sea su valor de MDIFF.

Esta interpretación solo aplica en la dirección especificada por el vectorα(Reckase 2009, pp. 117-118).

Los resultados de los parámetros MDISC y MDIFF mostraron diferencias entre países, y con el parámetro internacional. A continuación se describen los resultados de los items por subpruebas.

En la subprueba de matemática, se presentaron mayores diferencias en el parámetro MDISC respecto al MDIFF. El parámetro MDISC de Cuba tuvo valores marcadamente diferentes con el parámetro MDISC internacional. En los items 2, 3, 5, 7 y 8 el valor del parámetro MDISC de Cuba fue más grande respecto al parámetro MDISC internacional, y en los items 4, 10 y 28 el valor fue menor. En Colombia, el item 16 tuvo un parámetro MDISC con menor valor respecto al internacional e igualmente en Bolivia en el item 18. Con relación a los valores del parámetro MDIFF, en 17 de los 32 items de matemática se presentaron diferencias notorias entre los parámetros MDIFF internacionales y los nacionales. Se destacan nuevamente las diferencias de los valores del parámetro en Cuba, donde 14 de los 32 items tuvieron un valor de MDIFF menor al parámetro MDIFF internacional, y los items 14, 16, 19, 21, 28, 29 y 31 tuvieron un valor de MDIFF mayor al del parámetro internacional. En Colombia, el item 16 tuvo un valor de MDIFF mayor al internacional. En Bolivia, los items 21 y 28 tuvieron un MDIFF mayor al internacional.

En la subprueba de lenguaje, se presentaron mayores diferencias en el parámetro MDIFF respecto al MDISC. El parámetro MDISC tomó valores similares en los tres países, solo se destacó la diferencia del valor del parámetro MDISC del item 36 de Bolivia, que fue mayor que el parámetro internacional. En cuanto al parámetro MDIFF, este tuvo valores más pequeños respecto al parámetro internacional en Cuba, en 11 de los 19 items de la subprueba. En Colombia, los items 44 y 48 tuvieron valores de MDIFF menores al internacional y lo mismo ocurrió en Bolivia, en el item 43.

6.3. Estimación de los trazos latentes básicos

En el modelo TRIMJ las diferencias son modeladas con la estrategia usada en los modelos jerárquicos. Siguiendo a Fox (2010), se asumió que los trazos latentes provienen de una única distribución. Para estimar los trazos latentes, se fijó la matriz de covarianza como la identidad, por lo cual estos parámetros

(18)

no tienen interpretación directa (Montenegro 2011). Los resultados de la estimación de los trazos latentes se encuentran en las tablas 18 a la 23 del Apéndice G.

−3 −2 −1 0 1 2 3 0.0 0.2 0.4 0.6 0.8

Densidad θ1 por país

θ1 Density ******************************************************************* ***************************** *********** ********** ****** ****** ****** ******* ****** *** ****** ****** ******* ******** ********************************** *******_******* ******** *************************************_*********** ********_******* *******_******** *********_********** **********_********* ********* **********_{**************} *********************************_{************************} **********************_{**************************************************} − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba −3 −2 −1 0 1 2 3 0.0 0.2 0.4 0.6 0.8

θ2 Density ************************************************************* *********************** ******************* ****************** ****************** ************** ******** ******* *** ********* ******** ********* ***********************************************_************ *****************************************************_********** *******_****** ******_****** ******_******* *******_******* ********_******** ********** ****************_{**********************************} ***************************************************************** − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba −3 −2 −1 0 1 2 3 0.0 0.2 0.4 0.6 0.8

θ3 Density ************************************************************************************************* ************** *************** ******** ******** ******** ******** ************* ************************ ******************** ******* *** ****** ********** *********************************_******* *******_********* ***************************_*********** *******_****** ******_****** ******_****** *******_******* *******_******* *******_********* *********** ****************_{**************************************} ******************************* − − − − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba

Figura 4:_{Densidad de los trazos latentes estimados}θpor país

−3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 Densidad θ1 Global θ1 Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 Densidad θ2 Global θ2 Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 Densidad θ3 Global θ3 Density

Figura 5:_{Densidad de los trazos latentes estimados}θ globales

Los trazos latentes básicos estimados con el modelo TRIMJ, mostraron diferencias en las densidades

por país. En la figura 4, se observa que la densidad del parámetro θ en Cuba no parece coincidir con

los supuestos, porque parece ser asimétrica. La densidad de los parámetrosθ de Bolivia y Colombia es

bastante similar.

6.4. Estimación de los trazos latentes principales

Aunque en el modelo TRIMJ los componentes del vector de trazos latentes no tienen una interpretación directa, es posible intentar hacerla. Por ejemplo, se puede calcular el ángulo entre la dirección de cada item y cada uno de los ejes de coordenadas, y con base en esta información, tratar de construir una interpretación. Por otro lado, como el interés de la prueba es la estimación de los trazos latentes atribuibles a matemática y lenguaje, Montenegro (2011) propuso calcular la dirección principal de cada subprueba. Otros autores han trabajado en el mismo problema, ver por ejemplo, Wang (1986), Stout (1990) y Yen (1985).

En este trabajo, se usó la transformación de Wang (1986) para calcular el trazo latente unidimensional.

Sea A la matriz cuyas columnas son los vectores de parámetros de discriminación de cada subprueba,

y sea θ el trazo latente estimado por el modelo TRIMJ, se realizó para cada subprueba la siguiente

transformación:

(19)

donde w es el primer vector propio de la matriz A∗A′_{, que se conoce como la dirección principal de}

la subprueba (Stout 1990) y (Montenegro 2011). G es el trazo latente unidimensional en el modelo

aproximado, asociado a la dirección principal de la prueba (Montenegro & Cepeda 2010), por lo que en

este caso G corresponde al trazo latente asociado a la subprueba (matemática ó lenguaje). Sea A1 la

matriz cuyas columnas son los vectores de parámetros de discriminación de la subprueba de matemática,

para calcular el trazo latente asociado a la componente de matemática G1, se calculó el primer vector

propio de la matrizA1∗A′1, que corresponde a la dirección principal de la subprueba de matemática, que

se denotaráw1. SeaA2 la matriz cuyas columnas son los vectores de parámetros de discriminación de la

subprueba de lenguaje, para calcular el trazo latente asociado a la componente de lenguajeG2, se calculó

el primer vector propio de la matrizA2∗A′2, el vector la dirección principal de la subprueba de lenguaje,

que se denotará w2. Se calculó un trazo latente unidimensional G para cada país, con los parámetros

de discriminación nacionales,y un trazo latente G internacional, con los parámetros de discriminación

internacionales. En las tablas 4 y 5 se encuentran los vectoresw calculados para matemática y lenguaje,

respectivamente.

Tabla 4:_{Vectores de dirección principal}_w _{de Matemática}

w1 Dimensión 1 Dimensión 2 Dimensión 3

Internacional 0.65 0.38 0.65

Bolivia 0.65 0.37 0.65

Colombia 0.65 0.38 0.65

Cuba 0.28 0.16 0.94

Tabla 5:_{Vectores de dirección principal}_w _{de Lenguaje}

w2 Dimensión 1 Dimensión 2 Dimensión 3

Internacional 0.26 0.85 0.44

Bolivia 0.29 0.85 0.43

Colombia 0.25 0.84 0.45

Cuba 0.24 0.85 0.44

Las densidades de los trazos latentes G tienen diferencias entre Cuba y los demás países en las dos

subpruebas, como se puede observar en la figura 6. En Bolivia y Colombia, las gráficas de densidad son similares en las dos subpruebas. En Cuba, la media de la distribución es mayor a cero en las dos subpruebas, además, las distribuciones parecen ser asimétricas.

−3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Densidad G Matemática por país

G matemática Density *************************************************************************************************************** ******* ****** ****** ****** **** **** **** **** **** **** ***** ****** ********* ********************** *********************************_****** *****_****** ********_{********************} *********** ******_***** ***** *****_***** ******_******* ***********_************ ********_******* ******_******* **********_{*****************************************************} *********************************** − − − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Densidad G Lenguaje por país

G lenguaje Density ************************************************************************************************************ *************** ******* ****** ***** ****** **** **** **** **** **** **** ** ***** ****** ***************************************_{*****************}************************************ *****_**** ****_**** **** ****_***** ******_********* **************_*********** ********_******** ********_********* *********_********* **********_{***************} ************************************************************* − − − −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba

(20)

−3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Densidad G Matemática Global por país

G matemática global Density *********************************************************************************************************** ******** ****** ****** ***** **** **** **** **** **** ** **** ******* ****** ***************** ******************** ************************* ******_***** ******_******* ****************_{***************} *******_***** ***** ***** *****_***** *******_********** ************_********* *******_****** *******_********* ******************************************************************************************* −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 0.5 0.6

Densidad G Lenguaje Global por país

G lenguaje global Density ****************************************************************************************************** ****************** ******** ********* ****** **** ****** **** **** **** **** **** ******* ****** ****************************************************************************************** *****_**** ****_**** **** ****_***** ******_********* **************_*********** ********_******** ********_********* *********_********** ***********_{***************} ************************************************************ −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− * − Bolivia Colombia Cuba

Figura 7: _{Densidad del trazo latente unidimensional}G1yG2 Internacional por país

−3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4

Densidad G Matemática Global

G Matemática Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4

Densidad G Lenguaje Global

G Lenguaje

Density

Figura 8:_{Densidad del trazo latente}G1 yG2 Internacional

En la figura 8 se observa la densidad del trazo latente unidimensionalG internacional de matemática y

lenguaje, respectivamente. Esta densidad tiene distribución simétrica, contrario a lo ocurrido en Cuba

con la densidad de los trazos latentes G estimados por país. En la figura 9 se encuentra la densidad

conjunta de los trazos latentesG internacionales estimada por métodos Kernel. Para estimar la gráfica

de la izquierda, se usó la función kcde del paquete ks (Duong 2013) de R y para estimar la gráfica en tres dimensiones de la derecha, se usaron las funciones kde2d del paquete MASS (Ripley 2013) de R y persp de R.

(21)

−3 −2 −1 0 1 2 −3 −2 −1 0 1 2 G Lenguaje G Matemática 25 50 75 Densidad Y Z

Figura 9:_{Densidad del trazo latente}G1yG2 Internacional

En la tabla 6 se pueden leer las correlaciones del puntaje clásico (media de las respuestas correctas por

individuo), con el trazo latente unidimensionalGde cada subprueba, el internacional y los parámetrosθ,

por subprueba. La correlación entre el puntaje clásico y el trazo latenteGpor país en las dos subpruebas,

estuvo en un rango de 0.88 a 0.97. La correlación más baja por país estuvo en Cuba en la subprueba de

lenguaje. En cuanto a la correlación del puntaje clásico con los trazos latentes θ, el puntaje clásico de

la subprueba de matemática tuvo mayor correlación con los parámetrosθ1 y θ3, y de la subprueba de

lenguaje con los parámetrosθ2.

Se calculó la correlación del puntaje clásico entre los datos de matemática y lenguaje, el resultado fue

0.716, y la correlación entre los trazos latentesG1yG2fue de 0.874, por lo que pueden existir dimensiones

de los trazos latentes de los individuos presentes en las dos subpruebas. Lo anterior ilustra el hecho de que las componentes del vector de trazos latentes no puede interpretarse directamente, como los constructos teóricos.

Tabla 6:_{Correlaciones entre el puntaje clásico y los trazos estimados con el modelo TRIMJ}

Puntaje clásico/trazos estimados GBolivia GColombia GCuba GInternacional θ1 θ2 θ3

Matemática 0.97 0.97 0.90 0.97 0.776 0.447 0.791

Lenguaje 0.96 0.954 0.88 0.94 0.347 0.881 0.586

En la figura 10 se puede observar la comparación entre el puntaje clásico de las pruebas de matemática

y lenguaje y los trazos latentes G calculados con los parámetros internacionales de discriminación. La

gráfica de lenguaje tiene mayor dispersion que la gráfica de matemática, porque estudiantes con el mismo