ANÁLISIS DE CONGLOMERADOS
1.- Introducción ... 2
2.- Conglomerados jerárquicos ... 2
2.1.- Historial de la conglomeración ... 5
2.2.- Gráfico de témpanos ... 6
2.3.- Dendrograma ... 6
2.4.- Guardar conglomerados ... 7
2.5.- Conglomerado jerárquico de variables ... 11
3.- Conglomerado de k medias ... 13
Carlos Camacho Universidad de Sevilla
2
ANÁLISIS DE CONGLOMERADOS
1.- Introducción
Dada una muestra (de sujetos o bien variables) el propósito del análisis de conglomerados es obtener distintas agrupaciones de elementos que sean lo más similares posibles dentro de cada grupo y lo más diferentes con los restantes grupos.
Comenzaremos con los conglomerados jerárquicos, pensado para variables cuantitativas y que opera con el máximo de algoritmos permitiendo obtener todos los conglomerados posibles. Tiene la limitación que la complejidad de los cálculos no permite operar con una muestra amplia de objetos a clasificar. Para esta situación, cuando n es grande trabajaremos con conglomerado de k medias, que veremos igualmente en este tema.
2.- Conglomerados jerárquicos
Tengamos la siguiente matriz de datos, mundial.sav que hace referencia a distintos indicadores referentes a 26 países europeos tomados del anuario de EL PAIS 2000. Las variables consideradas son:
PAÍS País SUPERFI Superficie POBLACIÓ Población
DENSIDAD Densidad de población ESPERANZ Esperanza de vida TASA Tasa de fecundidad PNB Renta per cápita EXPORTA Exportaciones IMPORTA Importaciones INFLACIO Inflación
INGTURI Ingresos por turismo GASTOEDU Gasto en educación % GASTOSAL Gasto en salud %
TELÉFONO Teléfonos por 1000 habitantes ORDENADO Ordenadores por 1000 habitantes ENERELEC Energía eléctrica per cápita en kw/h ENERGIA Energía per cápita en kilos
Una imagen parcial de este fichero de datos aparece en el siguiente cuadro:
3
Procederemos a clasificar los distintos países europeos en función de estos indicadores (a excepción de Densidad de población, que es mera redundancia en función de Superficie y Población). Entramos en clasificar/conglomerados jerárquicos obteniendo el siguiente cuadro de diálogo. Seleccionamos las variables sobre las que realizaremos el análisis de conglomerado. Como los sujetos aquí son los países, se lo indicamos y además especificamos que sean etiquetados:
4 Ahora, dentro de este cuadro de diálogo principal seleccionamos gráficos y aquí, de nuevo, dendrograma:
Pulsamos Continuar y volvemos de nuevo al cuadro de diálogo principal. Pulsamos Métodos y seleccionamos Estandarizar las variables en Puntuaciones Z, ya que las magnitudes de las distintas variables son muy diferentes. Dejamos por defecto el algoritmo para proximidad de Distancia euclídea al cuadrado que es adecuado para variables medidas según una escala de intervalo. También dejamos por defecto como Método de conglomeración, Vinculación inter- grupos, en donde se define la distancia entre dos conglomerados como la media de todas las combinaciones posibles de los elementos de ambos conglomerados tomados de dos en dos.
Presionamos Continuar y luego otra vez Continuar y obtendremos la salida que se comenta a continuación.
5 2.1.- Historial de la conglomeración
Aquí se nos ofrece una idea del proceso seguido en las distintas agrupaciones. En este historial de la conglomeración se observa que los dos primeros países en agrupar, cuya distancia es la más próxima (2.340) son Eslovenia y República Checa, correspondiente a los números 8 y 23. Este conglomerado se vuelve a integrar con otro en el paso número 3 como se indica en la última columna.
El siguiente conglomerado lo constituyen los países 14 y 21 -Hungría y Portugal-. A continuación, el conglomerado formado por Eslovaquia y Eslovenia. Y además aquí se nos indica que este conglomerado abarca el número 8 (Eslovenia), que está en segundo lugar y que ya constituyó un conglomerado en el paso 1. Y de esta forma, se constituyen el resto de los conglomerados.
Historial de conglomeración
8 23 2,340 0 0 3
14 21 2,556 0 0 8
7 8 2,790 0 1 10
4 24 3,828 0 0 18
2 13 4,176 0 0 9
10 25 4,205 0 0 11
9 16 5,165 0 0 21
14 17 5,619 2 0 10
2 26 6,011 5 0 16
7 14 6,880 3 8 14
10 19 6,966 6 0 22
11 22 7,571 0 0 17
6 15 7,769 0 0 16
7 12 8,878 10 0 15
7 20 9,768 14 0 18
2 6 10,168 9 13 20
1 11 11,780 0 12 21
4 7 12,625 4 15 23
5 18 14,133 0 0 23
2 3 17,063 16 0 22
1 9 19,031 17 7 25
2 10 21,766 20 11 24
4 5 24,631 18 19 24
2 4 34,329 22 23 25
1 2 41,847 21 24 0
Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Conglom erado 1
Conglom erado 2 Conglomerado que se
combina
Coeficientes
Conglom erado 1
Conglom erado 2 Etapa en la que el
conglomerado aparece por primera
vez
Próxima etapa
6 2.2.- Gráfico de témpanos
Luego está el gráfico de témpanos o carámbanos, que parecen mas bien palabrotas, pero que nos será extraordinariamente útil para establecer el corte en el número de conglomerados que deseemos.
Por ejemplo, si queremos conocer los países que configuran cinco conglomerados, tan sólo tenemos que marcar una línea horizontal debajo del conglomerado cinco Veremos diferentes bloques de la forma “xxxxx”. Cuando veamos un espacio en blanco, aparece el siguiente bloque. Así pues, los bloque quedan definidos por las zonas compactas formadas por “x”.
2.3.- Dendrograma
El dendrograma, que ya se conoce, es la forma gráfica más usual para saber la configuración de los diferentes conglomerados. En la primera línea horizontal vienen marcadas las distancias (de 0 a 25).
Y a continuación, la unión de los distintos países en función de la distancia entre ellos. Por ejemplo, Eslovenia y República Checa se unen a pequeña distancia. También lo hacen República Checa y Eslovaquia. Al final estos tres países forman un bloque que se unen a otro bloque formado por Hungría, Portugal y Lituania. La proximidad en los últimos bloques formados es menor y de ahí que se unan a una distancia mayor. Al final se comprueba que países como España, Italia, Francia Reino Unido y Alemania forman un bloque, que se unen a la máxima distancia con el resto.
D iag r am a d e té m p an o s ver tic al
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X
N úm e ro d e co nglo m erado s 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
18:Moldavia 5:Croacia 20:Polonia 12:Grecia 17:Lituania 21:Portugal 14:Hungría 23:República Checa 8:Eslovenia 7:Eslovaquia 24:Rumania 4:Bulgaria 19:Noruega 25:Suecia 10:Finlandia 3:Bélgica 15:Irlanda 6:Dinamarca 26:Suiza 13:Holanda 2:Austria 16:Italia 9:España 22:Reino Unido 11:Francia 1:Alemania
C as o
7 2.4.- Guardar conglomerados
Una opción conveniente para futuros análisis consiste en grabar como si fuera una nueva variable el número del conglomerado al que pertenece cada sujeto –aquí país-. De esta forma, disponemos de una variable de cruce que no permita conocer mejor las características de los distintos conglomerados. Por ejemplo, supongamos que consideramos 3 bloques. Para ello pulsamos el botón guardar del cuadro de diálogo principal obteniendo el siguiente subcuadro:
8 Se ha generado una nueva variable, cuya denominación es clu3_1 (Average Linkage Between Groups) tal como se ve en la siguiente figura:
Si deseamos saber qué países son, vamos a informes/Resúmenes de casos y allí hacemos la siguiente selección:
9 Obteniendo la siguiente tabla donde vienen identificados los países que configuran cada conglomerado, junto a algunos estadísticos de referencia:
10 Con estos conglomerados podemos proceder a contrastes tales como el análisis de la varianza para comprobar si hay diferencias estadísticamente significativas con aquellas variables que nos interesen. Por ejemplo, renta per cápita:
11 2.5.- Conglomerados jerárquico de variables
Aunque normalmente las agrupaciones se hacen por sujetos, suele ser interesante hacerlo también por variables. Los conglomerados quedan constituidos por variables semejantes entre sí. Tiene ciertas concomitancias con el análisis factorial aunque es conceptualmente distinto a éste. A través del análisis de conglomerados se agrupan variables parecidas, lo que no significa (aunque puede ocurrir) que además pertenezcan a la misma dimensión subyacente.
Para realizar un conglomerado por variables tan sólo hemos de efectuar una pequeña modificación en el cuadro de diálogo principal. En vez de indicarle conglomerar por casos lo hacemos como conglomerar por variables:
12 Con lo que obtendremos el siguiente dendrograma:
13 3.- Conglomerado de k medias
Para un número no excesivamente grande de objetos el procedimiento de conglomerados jerárquicos expuesto, por su exhaustividad en los análisis resulta el más conveniente. No obstante frecuentemente interesa con muestras muy amplias de varios cientos o miles de objetos donde resulta excesivo el cálculo con este procedimiento. Para ello tenemos otra alternativa con menos profusión de análisis, donde con algunas restricciones podemos obtener resultados similares. Nos referimos al Conglomerado de k medias. En este caso el sistema no trata de determinar todos los distintos conglomerados posibles, sino que hemos de establecer previamente un número fijado de antemano. Normalmente se realizan diferentes ensayos con distintos conglomerados hasta que se obtiene el que resulta más satisfactorio para nuestros propósitos. Como en este caso trabajaremos con los mismos casos vistos anteriormente, ya decidimos que 3 conglomerados es nuestro objetivo inmediato. A este respecto:
Nos aparecerá:
14 En este caso, las alternativas son bastante más sencillas que en los conglomerados jerárquicos ya que es un procedimiento menos sofisticado. Simplemente le indicamos las variables que debe seleccionar y que calcule 3 conglomerados. Le indicamos también que guarde los conglomerados a efecto de comprobación:
A continuación:
Observamos que los países asignados a los conglomerados no coinciden con el obtenido anteriormente mediante procedimientos jerárquicos. La razón es que las variables no están estandarizadas y como consecuencia, las de mayor escala tienen más peso en la determinación de los conglomerados. Hemos de reescalarlas todas ellas en la misma medida, pero ello no se
15 contempla en este tipo de conglomerados. Hemos de ir a descriptivos y allí indicarle que guarde las variables tipificadas:
Nos lo hace y obtenemos las mismas variables (antecedidas con la letra Z) ya estandarizadas:
Procedemos como anteriormente:
16 Y obtenemos:
Donde hay coincidencia total con los conglomerados jerárquicos en la distribución de países. La única diferencia es que ahora el conglomerados 2 es el 3 anterior y viceversa.