CAPÍTULO 2. LA SELECCIÓN DE LA MUESTRA: EL CASO DE LAS
2.4. Selección de la muestra para el caso español
2.4.1. Metodología aplicada a las UU.PP.PP españolas
El análisis cluster será la técnica que nos permita homogeneizar la muestra de Universidades Públicas Presenciales españolas objeto de evaluación, basándonos en la propuesta de Gómez Sancho y Mancebón Torrubia (2008).
Dichos autores para resolver el problema de la heterogeneidad en las UUPPPP españolas, realizan dos análisis. En el primero, aplican la técnica cluster con medidas de distancia para obtener la similitud y utilizan el encadenamiento medio como algoritmo de aglomeración, y obtienen datos confusos en la clasificación. La insatisfacción con los resultados del primer análisis, los lleva a explorar un segundo análisis con base en la agrupación atendiendo a medidas de correlación, donde realmente buscan un patrón en la oferta de titulaciones por parte de las universidades en estudio. La matriz de correlaciones está en función de las titulaciones ofertadas por rama de experimentalidad. Dichas correlaciones pueden agruparse de forma directa o ser reagrupadas aplicando un
42
Existe una clasificación efectuada por el Ministerio de Educación, donde el Sistema Universitario Español se clasifica en universidades públicas y privadas, éstas a su vez se subdividen en presenciales, no presenciales y especiales. Sin embargo, dicha clasificación no responde a los intereses del actual estudio.
76
nuevo análisis cluster. Y como el objetivo planteado fue identificar un patrón en la oferta de titulaciones por las universidades públicas españolas, por tanto, se diseñó la agrupación aplicando un nuevo análisis cluster a la matriz de correlación.
A continuación, se desglosa el procedimiento realizado para homogeneizar la muestra:
1º) Definir el objetivo: Segmentar las 47 Universidades Públicas Presenciales españolas en grupos que reflejen un comportamiento similar entre sí, con respecto a la variable analizada (PDIETC), pero que fuesen lo más diferente posible unos grupos a otros, para diversos cursos académicos (2000/01, 2002/03, 2004/05, 2006/07 y 2008/09). En primer lugar, es preciso concretar el criterio de segmentación de las universidades, en este caso se ha elegido la rama de enseñanza o conocimiento (Humanidades, Sociales y Jurídicas, Experimentales, Ciencias de la Salud, y Técnicas). A continuación, se debe especificar la variable que permita diferenciar las ramas de enseñanza entre distintas universidades, esto es, definir la variable de agrupación. En nuestro caso, hemos optado por el Personal Docente e Investigador Equivalente a Tiempo Completo clasificado por universidades públicas y rama de enseñanza, esta variable ha sido seleccionada con base en el método inductivo43 y en el objetivo de la investigación.
2º) Antes de iniciar el proceso de partición, es necesario tratar tres cuestiones. Primera, identificar cualquier atípico de la muestra. La información sobre las universidades para los cursos académicos en estudio ha sido revisada y no se observan atípicos. Se identifica una ausencia de datos debido a la inexistencia de la rama de enseñanza o bien por la no disponibilidad de para ciertas universidades según el año de estudio44.
43
Este método consiste en que ni las variables, ni el número de grupos que se espera obtener tienen un nexo con una teoría, y es el que más se utiliza en estudios exploratorios (para más detalle véase Hair et al. 2001)
44
Donde no existe la rama de enseñanza se escriben ceros, mientras que donde la información no está disponible se tratan estos casos. El procedimiento para tratar los valores perdidos consta de dos opciones: 1) eliminación de los casos que los contienen, y 2) imputación de un valor estimado a la variable cuando toma un valor perdido (Hair et al. 2001). En nuestro caso, se prefirió la segunda opción porque la inclusión de estos valores enriquece la homogeneidad de la muestra.
77
Segunda, establecer una medida de proximidad o distancia entre ellos que cuantifique el grado de similitud entre cada par de objetos. En la literatura existen multitud de medidas de semejanza y de distancia dependiendo del tipo de variables y
datos considerados45. En este caso, los datos que se utilizan son del tipo de intervalo y
la variable es cuantitativa, lo que nos lleva a optar por la medida de distancia46. Entre
las medidas de distancia, se distinguen entre aquellas que se basan en la distancia euclídea al cuadrado y las que caben en el enfoque de distancia absoluta. Para éstas últimas es preciso considerar, que si las variables muestran correlación alguna, los conglomerados no serían válidos.
Como en nuestro estudio las variables si están correlacionadas se rechaza el uso de este tipo de medidas, y se elige la distancia euclídea al cuadrado como medida de distancia. Esta distancia, al igual que otras medidas para variables cuantitativas como: la distancia euclídea, distancia métrica de Chebychev, distancia de Manhattan y distancia de Minkowski, no son invariantes a cambios de escala, por lo que Peña (2002) recomienda estandarizar los datos si las unidades de medida de las variables no son comparables.
Tercera, ¿deberían estandarizarse los datos? En este análisis, si bien es cierto no hay problema con la comparabilidad de la unidad de medida de la variable, aunque si se requiere estandarizar los valores para eliminar el efecto de la escala de medida, y así poder aplicar el análisis sobre variables que presentan similares valores medios y desviaciones estándar, lo cual facilita la interpretación. La estandarización se efectúa mediante el coeficiente de correlación entre objetos de estudio, habiendo antes invertido filas por columnas y viceversa, donde ahora las observaciones son las ramas de enseñanza y las variables son las 47 universidades en estudio, como indica la propuesta de Gómez Sancho y Mancebón Torrubia (2008, 2010).
45
Para un desglose de estas medidas véase el libro de Hair et al. (2001).
46“Las medidas de disimilitud, desemejanza o distancia miden la distancia entre dos objetos de forma que, cuanto mayor (resp. menor) es su valor, más (resp. menos) diferentes son los objetos y menor (resp. mayor)la probabilidad de que los métodos de clasificación los pongan en el mismo grupo” (Peña, 2002).
78
Por tanto, se calculan las matrices de correlación correspondientes, donde el
coeficiente47 entre las dos columnas de números indica la similitud (correlación) entre
los perfiles de los dos objetos (universidades). Una medida de correlación de similitudes observa los patrones y no las magnitudes de los valores (Hair et al. 2001). Teniendo las correlaciones entre universidades es posible agruparlas en función al valor del coeficiente (-1 a 1), o bien de nuevo podrían agruparse mediante un análisis cluster.
Al calcular la correlación entre las universidades se obtiene de cierta forma la homogeneidad de las mismas, destacando el supuesto de que se consideran homogéneas aquellas universidades que tienen una estructura de Personal Docente e Investigador Equivalente a Tiempo Completo parecida. Mediante la matriz de correlación se puede visualizar que el Sistema Universitario Público Español está conformado por universidades parecidas entre sí en la estructura del PDIETC (esto es, con correlaciones superiores a 0,5), y por universidades muy diferentes (muestran coeficientes de correlación negativos o menores a 0,5).
En nuestro caso, para comprender mejor la información de la matriz de correlación se aplica un nuevo análisis cluster con medidas de distancia, tomando la distancia euclídea al cuadrado como medida de intervalo.
3º) Una vez establecida la variable, los objetos a clasificar, y la medida de distancia seleccionada, se inicia el proceso de partición (obtención de grupos y valoración del ajuste conjunto). Para lo cual, se escogió el método de clasificación jerárquico con un algoritmo de encadenamiento medio dentro de los métodos aglomerativos para identificar el número apropiado de conglomerados.
La selección de una solución cluster, implica responder la pregunta ¿Cuántos conglomerados debería haber? Existen diversos métodos de determinación del número de grupos, y están basados en: i) reconstruir la matriz de distancias original; ii) los coeficientes de concordancia de Kendall, o; iii) realizar análisis de la varianza entre los
47
De acuerdo a Hair et al. (2001) “el coeficiente de correlación indica la fuerza de asociación entre las variables independientes y la variable dependiente. El signo (+ o -) indica la dirección de la relación. Puede tomar valores entre -1 y +1, con +1 indicando una relación positiva perfecta, 0 indicando una ausencia de relación y -1 indicando una relación inversa o negativa perfecta (a medida que una crece, otra disminuye)”.
79
grupos obtenidos. No existe un criterio universalmente aceptado (Figueras, 2001). La respuesta queda a juicio del investigador.
Dado que la mayoría de software estadísticos proveen las distancias de aglomeración48, es decir, las distancias a las que se forma cada grupo, una forma de determinar el número de grupos consiste en localizar en qué iteraciones del método utilizado dichas distancias pegan grandes saltos. Hair et al. (2001) proponen realizar el cálculo de las tasas de variación entre los coeficientes de aglomeración entre etapas sucesivas. Así, cuando una tasa de variación sea drásticamente superior a la anterior, será el momento de detener las fusiones (Uriel, 2005). Por otro lado, utilizando las distancias de aglomeración se pueden emplear criterios como el criterio de Mojena que determina el primer sN tal que as+1 > + ksa si se utilizan distancias y < si son
similitudes donde {aj ;j=1,...,n-1} son las distancias de aglomeración, , sa su media y
su desviación típica respectivamente y k una constante entre 2.5 y 3.5 (Figueras, 2001). En esta investigación, hemos utilizado las tasas de variación para observar los mayores saltos de los coeficientes de aglomeración, y así determinar el número de conglomerados (dichos saltos están señalados con líneas gruesas punteadas en los
dendrogramas49, véase apéndice 2B).
5º) Interpretar la clasificación obtenida por el análisis cluster. Este paso implica el examen de cada grupo en términos de valor teórico del conglomerado o asignar una etiqueta adecuada que describa la naturaleza de los conglomerados. De acuerdo a Figueras (2001), para la interpretación se requiere un conocimiento suficiente del problema analizado. Es preciso estar abierto a la posibilidad de que no todos los grupos obtenidos tienen porqué ser significativos.
Dentro de las herramientas para apoyar dicha interpretación se sugiere realizar análisis de varianzas y análisis multivariante de la varianza, análisis discriminantes,
48
El historial de aglomeración muestra las distancias de aglomeración y los grupos que se han ido formando al aplicar el algoritmo. El diagrama de témpanos y el dendograma proporcionan dicha información de forma gráfica. 49
El dendograma es un tipo de representación gráfica o diagrama de datos en forma de árbol del proceso aglomerativo jerárquico, que organiza los grupos que se han ido formando al aplicar el algoritmo (Hair et al. 2001). Este gráfico permite visualizar los atípicos, donde un atípico sería una rama que no se unió hasta muy tarde.
80
análisis factorial o de componentes principales y calcular perfiles medios por grupos. Si el procedimiento de aglomeración se realizó sobre los datos tal y como se obtuvieron, esto sería una descripción lógica, mientras que si los datos se estandarizaron el investigador tendrá que calcular los perfiles medios empleando estos datos.
Los perfiles y la interpretación de los conglomerados logran algo más que una descripción. Por un lado, proporcionan un medio de evaluar la correspondencia de los conglomerados derivados de aquellos propuestos por una teoría a priori o por la experiencia práctica. Por otro lado, los perfiles de los conglomerados ofrecen una vía para efectuar evaluaciones de significación práctica (Hair et al. 2001).
6º) Validación de resultados y perfil de los grupos. En lo que corresponde a la validación de los grupos, en esta fase se debe determinar tanto la fiabilidad como la validez de las soluciones que se han logrado. La fiabilidad puede observarse mediante un análisis cluster para muestras distintas, también se puede calcular este análisis con una variable diferente (por ejemplo, la oferta de titulaciones), o emplear un algoritmo de aglomeración diferente, o bien utilizar un método de encadenamiento distinto, entre otras alternativas. En esta investigación, para validar los resultados de las agrupaciones de universidades hemos utilizado dos opciones: a) análisis cluster a través del método de aglomeración vinculación con centroides, y b) análisis cluster con la variable de titulaciones.
Cabe abrir un espacio para mencionar el por qué hemos utilizado la metodología
de clasificación de universidades propuesta por Gómez Sancho y Mancebón Torrubia50
(2008, 2010). En un principio, al disponer de la base de datos original (matriz) con n observaciones (47 universidades) y la información sobre k variables (cinco ramas de enseñanza), Xnxk, se calcularon las correlaciones entre las variables. Así también,
aplicamos el análisis cluster utilizando medidas de distancia y un algoritmo de aglomeración promedio inter-grupos donde se observan en los dendogramas resultados no satisfactorios, lo que nos lleva a optar por la propuesta antes mencionada. Es preciso
50
Dichos autores emplean la clasificación de universidades en grupos homogéneos según su especialización en las diferentes áreas de conocimiento, como estrategia para corregir el sesgo provocado por la distinta representación del área de conocimiento en las revistas incluidas por ISI en sus JCR (Gómez Sancho y Mancebón Torrubia, 2010).
81
hacerse notar que los resultados obtenidos en este primer ejercicio coinciden con los hallazgos de Gómez Sancho y Mancebón Torrubia (2008).
En el estudio de Gómez Sancho (2003) donde explora el comportamiento de 47 universidades públicas españolas con datos de la Universidad en Cifras 2002 de la CRUE, y empleando como variable la oferta de titulaciones por rama de enseñanza, obtiene tres grupos de universidades para el curso académico 2000/01: 1) técnicas, son aquellas universidades donde destaca un predominio de las titulaciones técnicas; 2) no técnicas, integrado por las universidades con poco peso en las titulaciones técnicas; y 3) universidades generalistas, son las universidades con una oferta más variada entre titulaciones, sin observarse especialización.
En la presente investigación se obtienen más grupos aunque cambian en su composición, con la diferencia de que utilizamos la variable PDIETC, mientras que al utilizar la variable titulaciones si hay coincidencia de tres grupos para ese mismo curso académico 2000/2001.