Análisis multivariante - Métodos de análisis

NIVELES DE NECESIDAD

3.3. Métodos de análisis

3.3.3. Análisis multivariante

Una vez llevado a cabo el análisis bivariante, en el que se busca dar respuesta a las hipótesis planteadas sobre la relación entre el índice de orientaciones laborales y varias variables independientes por separado, se va a tratar de elaborar un modelo de regresión multivariante que resuma, del modo más parsimonioso posible, las relaciones de las variables independientes con el índice.

El punto de partida será un modelo inicial que consistirá en una ecuación de regresión en la que se incluirán todas las variables independientes39 que se han empleado en los análisis bivariantes, permitiendo que su efecto varíe en el tiempo. Es decir, se tendrán en cuenta las variables correspondientes a nivel de estudios, situación laboral, materialismo-postmaterialismo, género, categoría profesional, nivel de ingresos40 y edad, todas ellas con coeficientes distintos por años y, además, el efecto período, que se identificará con el año en que fue realizada la recogida de datos.

39_{Aunque en el análisis bivariante para algunas de las variables independientes, como el género, no se}

han obtenido resultados que muestren un impacto significativo sobre la variable dependiente, se ha optado por incluirlas en el modelo general, para no descartar la posibilidad de que jueguen un papel explicativo adicional al conjugarlas con otras variables independientes, mientras que si efectivamente no tienen ningún efecto sobre el índice de orientaciones laborales serán eliminadas en el proceso de depuración.

El hecho de introducir el nivel de ingresos en el modelo inicial reduce notablemente el tamaño de la muestra, debido al elevado número de no respuestas que se producen en esta pregunta. Por ello se han construido dos modelos iniciales, uno incluyendo las variables correspondientes al nivel de ingresos y otro sin incluirlas. Puesto que los resultados obtenidos por ambos procedimientos son similares se ha optado por presentar en la sección de análisis multivariante los modelos correspondientes a la muestra de mayor tamaño, es decir el modelo que no incluye el nivel de ingresos familiares como variable explicativa.

Puesto que las variables independientes con las que estamos trabajando son de tipo categórico, a cada una de ellas le corresponderá un bloque de variables ficticias (dummy variables) compuesto por tantas como categorías tenga la variable independiente y, además, teniendo en cuenta que en el modelo inicial se permite que haya un impacto variable en cada momento del tiempo, habrá que introducir una variable ficticia por cada categoría en cada año. Por ejemplo, al considerar el nivel de estudios, puesto que se han establecido cuatro niveles (muy bajo, bajo, medio y alto) y son tres los años para los que se dispone de información, tendríamos que usar doce variables ficticias.

Dado que la estimación del modelo así lo requiere, es necesario eliminar una de las categorías de cada variable independiente o, lo que es lo mismo, una de las variables ficticias, para evitar problemas de multicolinearidad. Se ha eliminado la primera categoría en todos los casos, es decir que, por ejemplo, en el caso del nivel de estudios se ha eliminado la categoría “muy bajo” para cada uno de los tres años. Esta eliminación no presupone que el índice tome el mismo valor para el nivel de estudios muy bajo en todos los años considerados, puesto que en el modelo se incluyen las variables ficticias correspondientes al año de recogida de los datos.

Debe recordarse en este punto que el hecho de eliminar alguna categoría en el proceso de estimación no significa que se prescinda de la misma, es decir que no se eliminan del análisis los casos que cumplen dicha característica, ni tampoco implica que el modelo de regresión ofrezca resultados en los que no se tenga en cuenta la categoría eliminada. La eliminación ha de realizarse puesto que en caso contrario habría redundancia entre los coeficientes y se alcanzaría el límite de tolerancia.

Para seleccionar el modelo multivariante final se partirá del modelo inicial descrito más arriba y se seguirá un método de eliminación sucesiva41.

Este procedimiento es semejante al método de “regresión hacia atrás” que lleva a cabo SPSS de forma automática. Sin embargo en este caso el tipo de variables con el que se trabaja no permite la utilización del procedimiento automático y ha de realizarse un proceso secuencial.

En el primer paso del proceso de eliminación se estimarán tantas ecuaciones de regresión como variables independientes haya en el modelo inicial. En cada una de ella se permite que todas las variables independientes, excepto una, tengan sobre el índice un impacto diferente en el tiempo. Es decir, que en cada una de esas ecuaciones una de las variables independientes tendrá un efecto constante en el tiempo. Por ejemplo, si la variable independiente que ha de tener efecto constante en el tiempo es el nivel de estudios, el número de variables ficticias que le corresponderán será de cuatro y no de doce, como en el ejemplo mencionado más arriba, en el que se permitía que cada categoría variase en el tiempo. No obstante, por los motivos antes referidos, en la estimación de la ecuación se ha de eliminar una de las variables ficticias, por lo que el número de parámetros correspondientes al nivel de estudios, en este ejemplo, será de tres y no de cuatro.

Una vez obtenidos los resultados de dichas ecuaciones, se llevará a cabo una prueba de decisión estadística por cada una de ellas, semejante a la planteada más arriba para seleccionar los modelos bivariantes, para concluir si es posible eliminar los efectos cambiantes en el tiempo de algunas de las variables independientes. En caso de que sea posible más de una eliminación, se elegirá la que presente el resultado más desfavorable al rechazo de la hipótesis nula en la prueba de decisión estadística, es decir que haya alcanzado el mayor nivel de significación (que en cualquier caso ha de ser superior al 5%). Cuando se decide la eliminación se retiran de la ecuación los efectos variables en el tiempo de la correspondiente variable independiente, pero permanecerán en la ecuación las variables ficticias que dan cuenta de su efecto constante en el tiempo.

A continuación se repite el proceso, estimando otra vez tantas ecuaciones de regresión como variables independientes permanezcan en el modelo, teniendo en cuenta, como punto de comparación, la eliminación que se ha seleccionado en el paso anterior. En relación a la variable independiente cuyo efecto cambiante en el tiempo se ha eliminado en el paso anterior se estimará una ecuación en la que se elimina por completo el efecto de dicha variable. En las ecuaciones restantes se introducen los efectos constantes en el tiempo para la variable independiente antes mencionada y se intentan eliminar los efectos cambiantes en el tiempo para todas las otras variables independientes. A partir

de aquí se continúa como en el primer paso, siguiendo del mismo modo tantas veces como sea necesario. La posible eliminación del año de recogida de los datos sólo se considerará cuando se hayan excluido del modelo todos los efectos cambiantes en el tiempo del resto de las variables independientes. Cuando ya no existan efectos temporales o variables independientes susceptibles de eliminación, porque en todas las ecuaciones de regresión se obtiene un nivel de significación superior al 5%, se detendrá el proceso, llegando así a la propuesta de modelo multivariante final.

Antes de interpretar los resultados de este modelo se realizará una comprobación que consistirá en reintroducir las variables independientes que se han ido eliminando a lo largo del proceso, para confirmar si en algún caso se incrementa la capacidad explicativa del modelo por el hecho de añadir alguna de estas variables. La razón de esta última comprobación radica en que es posible que, en un momento dado del proceso, una variable no añada una explicación significativa del índice, pero que al haber eliminado algunas de las variables incluidas en el modelo en dicho momento la variable que había sido eliminada con anterioridad sí juegue un papel importante en la explicación del índice. Tras esta comprobación se obtendrá el modelo multivariante final estimado.

El resultado de la estimación ha de interpretarse, como se ha hecho en el caso de los análisis bivariantes, teniendo en cuenta que los coeficientes obtenidos están en relación a la categoría de referencia, es decir que si, por ejemplo, se trabaja con la variable de nivel de estudios los coeficientes que se estiman serán los de nivel bajo, medio y alto y han de interpretarse respecto al nivel muy bajo.

Para poder dar información sobre los coeficientes de todas las categorías de cada variable independiente resultará necesario recalcular los coeficientes diferenciales y su interpretación será distinta a la de los coeficientes obtenidos directamente del modelo de regresión estimado.

Los coeficientes diferenciales muestran el impacto de todas las categorías de cada variable independiente sobre el índice y, puesto que en conjunto suman cero para cada

variable, indican cuáles de las categorías tienen un impacto positivo o negativo sobre el índice, sin necesidad de tener en cuenta la categoría de referencia, o lo que es lo mismo, considerando una media general del modelo.

In document Las orientaciones laborales en España y sus determinantes sociodemográficos (página 152-157)