Tipo de error de especificación y sensibilidad de los índices descriptivos de

1.4. Evidencias sobre la varianza común de las variables latentes: clústers independientes y

1.4.2. Tipo de error de especificación y sensibilidad de los índices descriptivos de

El concepto de clústers independientes permite realizar una distinción adicional, relacionada con el tipo de variables observables y su vinculación con la estructura factorial de la que forman parte. Se trata de la distinción entre variables observables factorialmente simples y factorialmente complejas (McDonald, 1999, p. 179). En una estructura formada por clústers o grupo de variables independientes, se puede considerar que cada variable latente es factorialmente simple al representar únicamente a un factor. Por su parte, la especificación de medidas multidimensionales (generalmente, como consecuencia de procesos de re- especificación mediante índices de modificación (MI), según refleja la práctica convencional del AFC), puede considerarse como factorialmente compleja. En el primer caso, el error de especificación se hará patente cuando en el modelo evaluado se especifiquen clústers de variables observables escasamente correlacionadas, ya que el modelo especificará un número mayor de parámetros del que es necesario estimar, además de proponer hipótesis sustantivas que no tienen consistencia empírica. Se trata de un tipo de error de especificación por exceso de parámetros.

En el segundo caso, el error de especificación vendrá determinado por la falta de especificación de parámetros (por omisión), especialmente en el caso de cross-loading o

double-loading (se puede entender que la presencia de errores correlacionados es consecuencia

de cargas factoriales salientes en más de un factor que están sin especificar en el modelo, especialmente cuando las cargas son muy altas o también por la presencia de colinealidad). La no especificación de los parámetros relacionados con la correlación entre factores también es un error de especificación de este segundo tipo.

La mayoría de aplicaciones AFC conceden una relevancia prácticamente absoluta a la evaluación del ajuste del modelo mediante los denominados índices descriptivos de bondad de ajuste (RMSEA, SRMR, NNFI, CFI, etc.) y mediante estrategia inferencial a partir de la prueba χ2_{. Además, la revisión de las prácticas de publicación comentada en el apartado anterior (a}

partir de ahora, la denominaremos revisión de las prácticas de publicación o RPP), muestran una mayor preeminencia de este tipo de evaluaciones frente a la evaluación de la validez de constructo de los modelos. El problema fundamental es que este tipo de evaluación, además de haber recibido varias e importantes críticas en los últimos años (Barret, 2007; Fan y Sivo, 2005, 2007), es insensible a la presencia de variables observables con cargas factoriales bajas (error por sobreparametrización), es decir, a la presencia de factores o clústers VCL. En este sentido, Heene et al. (2011) han mostrado que los valores de χ2

0, RMSEA y SRMR decrecen a medida

que disminuye la comunalidad (en el caso de CFI los valores se aproximan más a 1). Eliminar variables observables medidas con escasa fiabilidad no produce ninguna mejoría en el ajuste (Brown, 2015; Kline 2015). En otras palabras, en ausencia de otros errores de especificación, los índices descriptivos de ajuste3 no son capaces de detectar el error por sobreparametrización. Los índices descriptivos, tal y como muestra la literatura, tienen cierta capacidad para identificar errores de especificación del segundo tipo, es decir, son sensibles a la omisión de parámetros en el modelo cuyo valor poblacional es distinto de cero (infraparametrización).

Cuando se utiliza AFC en contextos aplicados, los investigadores por norma general desconocen el valor de los parámetros a nivel poblacional que subyace a los datos. En consecuencia, debemos recurrir a los índices descriptivos de ajuste para decidir si existe ajuste entre el modelo hipotetizado y los datos disponibles (Olsson, Foss, Troye, & Howell, 2000). La

3_{Por simplicidad, y siguiendo la clasificación propuesta por Brown (2015, pp. 67-75) denominaremos así a todas} las medidas de bondad de ajuste (tanto las propiamente descriptivas, las comparativas y la estrategia inferencial

utilización de estos índices se ha extendido enormemente en la investigación aplicada durante los últimos años, sirviendo como criterio para la aceptación y publicación de modelos factoriales en numerosas revistas (el uso de los índices descriptivos viene acompañado de una serie de recomendaciones sobre los puntos de corte que se deben superar como medida de adecuación o de aproximación). Especialmente influyente en este campo han sido los trabajos de simulación de Hu y Bentler (1998, 1999). En estos trabajos se elaboró una estrategia para la evaluación del ajuste de modelos AFC (estrategia “dos-índices”) en la que se diferenciaba, por un lado, a Standardizer Root Mean Residual (SRMR) como el índice con más capacidad para identificar covarianzas entre factores incorrectamente especificadas (φjk) y, por otro lado, a un

grupo de índices (Non-normed Fit Index - NNFI, Relative Noncentrality Index - RNI,

Comparative Fit Index - CFI, Root Mean Squared Error of Approximation - RMSEA, entre

otros), como los que tienen mayor capacidad o sensibilidad para identificar cargas factoriales incorrectamente especificadas (λij). En estos trabajos los autores evaluaron la sensibilidad de

todos estos índices bajo condiciones o diseños de infraparametrización, esto es, en condiciones en las que el error de especificación es del segundo tipo propuesto (omisión o fijación a cero de parámetros cuyos valores poblacionales son distintos de cero). Otro aspecto a señalar es que las cargas factoriales simuladas fueron bastante elevadas por lo que resulta todavía más difícil su generalización al campo aplicado.

Actualmente, existen importantes limitaciones y críticas sobre la parcialidad de los índices descriptivos de ajuste (por ejemplo, Barrett, 2007; Fan y Sivo, 2005, 2007; Yuan, 2005). De hecho, los propios Hu y Bentler (1999) ya advertían en sus conclusiones de la necesidad de evaluar el comportamiento de este tipo de índices en una tipología amplia de modelos y de condiciones. Mulaik (2009) mantiene una postura más o menos intermedia o de compromiso entre la utilización de la prueba χ2_{y la utilización de los índices que no siguen una estrategia}

inferencial. Para este autor, los modelos que se encuentran en las etapas iniciales de investigación pueden simplificarse mediante aproximaciones empíricas más gruesas, utilizando la información sobre el grado de aproximación para valorar si el investigador se encuentra en el camino correcto. Esta postura se adapta bastante bien al contexto de generación de modelos (MG) que está presente en muchas de las aplicaciones AFC actuales (tal y como se desprende de los resultados de la RPP).

Nuestro punto de vista es coincidente con el propuesto por Mulaik (ibíd.), en el sentido de que si bien los índices descriptivos presentan importantes limitaciones, todavía pueden ser útiles para evaluar el ajuste de los modelos. A pesar de las críticas recibidas por su uso excesivamente generalizado, la cuestión fundamental que se quiere destacar aquí es que dichos índices son sensibles a errores de especificación por omisión de parámetros y no por selección de variables observables poco correlacionadas, que es el tipo de situación que interesa identificar con garantías en el presente trabajo.

Nuestro planteamiento es que el uso de índices descriptivos de ajuste tiene más sentido en una segunda etapa, tras el proceso de pre-evaluación del factor VCL o clúster independiente de variables. Superada esta evaluación inicial, los índices de ajuste pueden ser de interés. Otra forma de expresar lo anterior es dar prioridad a la estrategia inferencial, como sugiere Barrett (2007), pero sin descartar la información que nos ofrecen las medidas de ajuste descriptivo. En una primera fase se realizaría una prueba inferencial como principal fuente de evidencia sobre la consistencia empírica de la varianza común de cada clúster (evaluando la presencia de error de especificación por sobreparametrización), y en una segunda fase se evaluaría la presencia de errores de especificación por infraparametrización a partir de los índices descriptivos. Esta última evaluación se puede dividir también secuencialmente, realizando un primer análisis en cada clúster comprometido, y un segundo análisis sobre el modelo multidimensional. En las

fases finales del análisis se puede realizar la prueba t bajo la hipótesis nula de que las cargas factoriales son cero para interpretar con mayor precisión cuáles son los parámetros estimados más importantes y cuáles tal vez habría que depurar, aunque siendo precavidos respecto al Error Tipo I (Mulaik, 2009).

Asumiendo la existencia de clústers independientes a nivel sustantivo, en la primera fase de evaluación del modelo “local” la identificación de sobreparametrización se realiza en ausencia de errores de especificación por omisión, salvo tal vez la presencia de errores correlacionados fruto de la existencia de colinealidad entre variables observables que pertenecen al mismo clúster. Esta situación es óptima para “poner a prueba” los factores en términos de varianza común, lo que permitirá obtener evidencias que orienten la inclusión de factores VCL dentro del modelo, o la evaluación de las condiciones de aplicación, evitando así el sesgo de selección y la utilización arbitraria de puntos de corte en los valores de las cargas factoriales. La utilización de índices descriptivos de ajuste en esta fase puede ser de interés para identificar la presencia de errores correlacionados y, también, para ayudar a tomar decisiones en aquellos casos en los que la varianza común se encuentre en el límite.

Siguiendo la lógica expuesta, con las estrategias habituales de la práctica convencional del AFC la presencia de factores VCL sustantivos puede ser desestimada antes de tiempo (sin evidencias empíricas) en el proceso de selección de variables observables. A la inversa, puede ocurrir que en determinadas condiciones el AFC no sea una herramienta lo suficientemente sensible para la detección de este tipo de factores. Por último, si las condiciones son suficientes para la detección de factores VCL “verdaderos” y aun así no se acumulan evidencias de consistencia empírica, la pre-evaluación del clúster independiente puede prevenir la inclusión de factores “falsos” enmascarados tras una adecuada medida de ajuste del modelo multidimensional (y lo que resulta más preocupante, puede prevenir potenciar una mejoría en

el ajuste por la especificación de factores “falsos”). Como Schermelleh-Engel, Moosbrugger, y Müller (2003, p. 33) han señalado, “a good model fit may result either from a correctly specified model or from a highly overparameterized model”. Por tanto, todas estas situaciones plantean

la necesidad de pre-evaluar los clústers comprometidos por mediciones realizadas con fiabilidad limitada. Y la estrategia de evaluación que proponemos en este trabajo como mejor opción se basa en la prueba inferencial χ2_{sobre el modelo de independencia, como se detalla}

en el siguiente apartado.

In document Uso de la prueba Chi-cuadrado del modelo de independencia como fuente de evidencia empírica en Análisis Factorial Confirmatorio (página 95-100)