Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015
Modelos de ecuaciones estructurales vía PLS
Structural equation models via PLSDeisy Alejandra Mazo1,a, Raúl Alberto Pérez1,b
1
Escuela de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Medellín, Colombia
Resumen
Los modelos de ecuaciones estructurales han sido ampliamente utilizados a través de los años y en la actualidad, su uso ha ido en aumento debido a su empleo como herramienta en la solución de proble-mas de identificación y estimación de relaciones entre procesos en distintas áreas como las ciencias humanas, ciencias sociales, economía, entre otras, en las cuales algunas variables no se pueden medir directamente.
Hoy en día la sociedad se encuentra interesada en conocer si los productos o servicios que ofrecen las grandes y pequeñas empresas, generan la satisfacción planeada. Para responder a este tipo de inquietudes se han venido desarrollando técnicas como los modelos de ecuaciones estructurales, los cuales usan como variable principal (latente) la satisfacción o la felicidad, entre otras, medida a través de variables directamente medibles como percepción, imagen, nivel socio-económico, entre otras. El objetivo de este trabajo es establecer las relaciones entre las variables medibles y no medibles usando regresión PLS. Para ilustar lo anterior, se presentará un ejemplo práctico de estimación de las relaciones usando la técnica implementada en el software estadístico R.
Palabras clave: Regresión PLS, regresión PCA, modelos de ecuaciones estructurales, variables la-tentes .
Abstract
Structural equation models have been widely used through the years and today, its use has been increasing due to its use as a tool in the solution of problems of identification and estimation of relations between processes in different areas such as the human sciences, social sciences, economics, among others, in which some variables cannot be measured directly.
Today the society is interested in knowing if the products or services that offer large and small com-panies, generate the satisfaction planned. To respond to this type of concerns have been developed techniques such as structural equation models, which use as main variable (latent) satisfaction or happiness measure through directly measurable variables such as perception, image, socio-economic level, among others.
The goal of this work is to establish the relationships between measurable and not measurable variables using PCA regression and PLS regression. To ilustar foregoing, an example of estimation of relations will be presented using both techniques implemented in the statistical software R.
Key words: PLS regression, PCA regression, structural equation models, latent variables .
aEstudiante de Maestría en Ciencias estadística. E-mail: [email protected] bProfesor Asociado. E-mail: [email protected]
1. Introducción
Los modelos de ecuaciones estructurales son una técnica en la que se combina la regresión múltiple y el análisis factorial, por lo que permite a los investigadores, evaluar las relaciones complejas de dependencia e incorporar efectos del error de medida sobre los coeficientes estructurales de tiempo.
Este método ha sido ampliamente utilizado en la actualidad, ya que con él se logra obtener información difícil de calcular, tal como el coeficiente intelectual, el estado de felicidad de una persona, el índice de satisfacción de los clientes al evaluar un servicio, entre otros, lo que puede ser indispensable en una compañía para evaluar sus servicios y aplicar estrategias de mejora en cuanto a la calidad. Todo esto se puede llevar a cabo por medio de la medición de variables no observables (Variables latentes) a través de variables observables.
Aunado a lo anterior, asumimos que para evaluar las relaciones entre las variables se utiliza la regresión PLS, la cual fue creada por Wold (Wold 1975) , como una técnica que permite establecer relaciones entre el conjunto de p variables predictoras X con una o más variables de respuesta Y, implementando concep-tos de análisis de componentes principales y de regresión simple. Con ayuda de Y, logra descomponer la matriz predictora X, extrayendo de forma secuencial h(< p) componentes PLS ortogonales, las cuales a su vez resumen las variables exógenas y nos permiten modelar y predecir las variables de respuesta. En años posteriores es renombrada como Partial Least Squares Regression (PLS-R) por Wold et al. 1983, (Tenenhuas 1998)
Por lo citado anteriormente, tenemos que el objetivo de esta investigación es establecer las relaciones dentro del modelo de ecuaciones estructurales, haciendo uso de la regresión PLS. Su aplicación se demos-trará haciendo uso de una base de datos en la que se evaluaron los conocimientos, actitudes y prácticas de adolescentes de una universidad de Colombia, por medio de diferentes preguntas. Dichas preguntas se dividieron en tres grupos, donde cada grupo estaba asociado a una variable latente.
2. Modelos de ecuaciones estructurales
Un modelo de ecuaciones estructurales se describe a través de dos modelos: un modelo interior o estruc-tural, que relaciona las variables latentes (o no medibles) entre sí y un modelo interior o de medida que relaciona las variables latentes con su respectivo grupo de variables observables (o medibles).
x
1x
2x
3x
4x
5x
6x
7y
1y
2y
2a
b
c
A
El modelo estructural:
α = Aα + Bβ + (1)
donde α representa al vector de variables aleatorias latentes endógenas, β el vector de variables aleato-rias latentes exógenas, A representa la matriz de coeficientes que rigen las relaciones entre las variables endógenas y B la matriz de coeficientes que rigen las relaciones entre las variables exógenas y cada una de las endógenas, o dicho de otro modo, los efectos de β sobre α.
El modelo de medida a su vez se rige por dos ecuaciones, la primera, que mide las relaciones entre las variables latentes endógenas y sus variables observables:
y = Λyα + (2)
donde y es el vector de p variables observables y Λyes la matriz de coeficientes que muestran las relaciones
entre las variables latentes y las observadas,también llamada matriz de cargas.
La segunda ecuación, rige las relaciones entre las variables latentes exógenas y sus variables observables:
x = Λxα + δ (3)
donde: x es el vector de p variables observables, Λxes la matriz de coeficientes que muestra las relaciones
entre las variables latentes y las observadas, también llamada matriz de cargas.
La forma del modelo de medición depende de la dirección de la relación entre la variable latente y las correspondientes variables observables, por lo cual el modelo puede ser reflectivo, (la variable latente es la causa de las variables observables),formativo(cada variable observable implica una dimensión diferente del concepto subyacente,) o ambos(cuando se presentan relaciones reflectivas y contructivas dentro del mismo modelo) y cada una de estas relaciones conlleva a un análisis e interpretación diferente.
Para la estimación de las relaciones antes descritas se hace uso de la regresión PLS, la cual consta de dos partes fundamentales; la primera se inicia con la transformación de la matriz de predictoras X, con ayuda del vector de respuestas Y, en una matriz de variables latentes no correlacionadas, T = (T1, . . . , Tp),
llamados componentes PLS; esto contrasta con el análisis de componentes principales, en el cual los componentes son obtenidos usando sólo la matriz de variables predictoras X. La segunda parte, hace un ajuste del modelo de regresión usando el vector de respuestas original y como covariables, los componentes PLS. (Vega 2011)
3. Aplicación
Para realizar la aplicación del modelo de ecuaciones estructurales usando regresión PLS se utilizó informa-ción de una encuesta realizada a jovenes universitarios sobre conocimientos, actitudes y practicas frente al VIH. las preguntas eran de tipo dicótomas, politómicas y otras en escala Likert de cinco niveles, entre las cuales se tenían 28 preguntas para medir los conocimientos, 17 de actitudes frente a la enfermedad y 12 sobre las prácticas.(Mazo & Cardona 2014)
De acuerdo a lo que se espera desde e área de la psicología, el modelo estructural para este caso tiene la forma descrita en la figura 1, donde asociada a la variable latente conocimiento hay 27 variables obser-vables, asociado a la variable actitudes hay 14 variables y a la variable prácticas hay 14, cuyas relaciones variable latente-variable observada fueron todastomadas como reflectivas
Figura 2: modelo estructural.
Para la estimación, se utilizaron varias funciones en el software estadístico (R Development Core Team 2015), con el cual se obtuvo, tanto los parámetros de las regresiones y sus respectivas evaluaciones, como los valores para validar los supuestos que debe cumplir todo modelo de ecuaciones estructurales para que suministre información confiable.
Tabla 1: Parámetros estimados para el modelo estructural. Factor de variación Estimación Error de estimación t valor valor p Intercepto 2.742690e-16 0.06817722 4.022883e-15 1.00000000 Conocimiento 1.821762e-01 0.06817722 2.672098e+00 0.00813513 Intercepto -9.650621e-17 0.06436908 -1.499263e-15 1.0000e+00 Conocimiento 2.107899e-01 0.06546457 3.219908e+00 1.4889e-03
Actitudes 2.768181e-01 0.06546457 4.228518e+00 3.5298e-05
De acuerdo a la tabla 1, los interceptos de ambas regresiones no son significativas a un nivel de signifi-cancia de 0.05., además se evidencian problemas con el ajuste ya que en ambos casos se pesentan R2 de 0.033 para el ajute de practicas y de 0.14 para el ajuste de actitudes. sin embargo la información obte-nida no es muy confiable ya que de entrada se violan los supuestos del modelo de ecuaciones estructurales. Al realizar un análisis de los valores arrojados para verificar los supuestos del modelo, se obtienen valores AVE de 0.35 y 0.36, que demuestran problemas de la validez de la convergencia, alpha de Cronbach y DG ρ muy inferiores a 0.7, lo que demuestra problemas con la confiabilidad de la consistencia interna, entre otros.
4. Conclusiones
Los resultados obtenidos através del modelo de ecuaciones estructurales usando la regresión PLS son de gran utilidad, perimiten al investihador tener una visión global del comportamiento del fenomeno estudiado y tiene como punto a favor el hecho de que al incluir la variable respuesta dentro de los cálcu-los internos se tiene mas información, lo que disminuye el porcentaje de error en las estimaciones, todo esto, siempre y cuando se cumplan los supuestos especificados por los modelos de ecuaciones estructurales.
Aunque los resultados obtenidos en el ejemplo práctico son poco confiables, nos llevan a pensar que aún cuando se disponga de técnicas con muy buenas cualidades para realizar el análisis de unos datos, es indispensable realizar un buen análisis exploratorio inicial, que nos garantice que se cumplan las especificaiones necesarias dentro de cualquiera de las técnicas que se desee emplear.
5. Agradecimientos
A la escuela de estadística, Universidad Nacional de Colombia sede Medellín y al profesor Raúl Alberto Pérez por su acompaãmiento en el desarrollo del trabajo.
Referencias
Mazo, Y. Dominguez, L. & Cardona, J. (2014), ‘Conocimientos, actitudes y prácticas en adolescen-tes universitarios entre 15 y 20 años sobre VIH/ SIDA en Medellín, Colombia 2013’, MÉD.UIS. 27(3), 35–45.
R Development Core Team (2015), R: A Language and Environment for Statistical Computing, R Foun-dation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
*http://www.R-project.org
Tenenhuas, M. (1998), La régression PLS: théorie et pratique, Editions Technip, Paris.
Vega, J. Guzmán, J. (2011), ‘Regresión pls y pca como solución al problema de multicolinealidad en regresión múltiple’, Revista de Matemática: Teoría y Aplicaciones 18(1), 9–20.
Wold, H. (1975), ‘Path models with latent variables: The non-linear iterative partial least squares (NI-PALS) approach’, Journal of the American Statistical Association pp. 307–357.