1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan

20  18  Descargar (0)

Texto completo

(1)

Joaquín Aldás Manzano

Universitat de València

Dpto. de Dirección de Empresas “Juan José Renau Piqueras”

1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan

(2)

El análisis cluster

1. ¿Qué es el análisis cluster?

(Ferrán, 1996)

Dada una muestra de observaciones en un conjunto grande de variables cuantitativas, el análisis de conglomerados es una técnica para agrupar a los

elementos de la muestra en grupos, denominados conglomerados (clusters), de

tal forma que, respecto a la distribución de los valores de las variables, por un lado, cada conglomerado sea lo más homogéneo posible y, por otro, los conglo-merados sean muy distintos entre sí.

La forma más intuitiva de entender esta definición puede ser mediante un ejemplo tomado de Johnson y Wichern (1998). Supongamos que queremos clasificar a 11 idiomas distintos: inglés (E), noruego (N), danés (Da), holandés (Du), alemán (D), español (Sp), italiano (I), polaco (P), húngaro (H) y finlan-dés (Fi) según se parezcan más o menos unos a otros. Para ello, analizamos cómo se deletrean los números uno al diez en cada uno de los idiomas y tomaremos como medida de similitud cuántos de estos números comienzan por la misma letra en distintos idiomas. El cuadro 1 ofrece la información de parti-da:

Cuadro 1. Números en 11 idiomas

kymmenen tiz dziesiec dieci diez diz zehn tien ti ti ten yhdeksan kilenc dziewiec nove nueve neuf neun negen ni ni nine kahdeksan nyolc osiem otto ocho huit acht acht otte atte eight seitseman het siedem sette siete sept sieben zeven syv sju seven kuusi hat szesc sei seis six sechs zes seks seks six viisi ot piec cinque cinco cinq funf vijf fem fem five neua negy cztery quattro cuatro quatre vier vier fire fire four kolme harom trzy tre tres trois drei drie tre tre three kaksi ketto dwa due dos deux zwei twee to to two yksi egy jeden uno uno un eins een en en

oneE N DA DU G FR SP I P H FI

(3)

Cuadro 2. Número de primeras letras concordantes

10 2 1 1 1 1 1 1

1 1 1

FI 1 2 2 2 1 0 0 0 0 10

H 3 3 4 0 2 5 7 6 10

P 4 4 5 1 3 9 9 10

I 4 4 5 1 3 8 10

SP 4 4 4 1 3 10

FR 4 6 5 5 10

G 3 5 4 10

DU 8 9 10

DA 8 10

N 10

E E N DA DU G FR SP I P H FI

Para entender esta tabla, comentaremos el caso del español (Sp) y el inglés (E). El número de concordancias es 4, que corresponden a los números tres (three), seis (six), siete (seven) y nueve (nine). A simple vista, ya se observa que hay idiomas que tienen un número muy alto de concordancias, como es el caso del inglés, el noruego y el danés y otros que se parecen muy poco a todos los demás, como el finlandés o el húngaro. Pues bien, el análisis cluster, nos permi-tirá analizar de una manera más objetiva estas similitudes y diferencias, haciendo grupos de idiomas que se parecerán mucho entre sí y que diferirán lo máximo posible unos de otros.

(4)

Gráfico 1. Dendograma

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---+---+---+---+---+

SP 7 -+ I 8 -+---+

FR 6 -+ +---+ P 9 ---+ I H 10 ---+---+ I FI 11 ---+ I I N 2 -+ +---+ DA 3 -+---+ I

E 1 -+ +---+ DU 4 ---+---+

G 5 ---+

En este dendograma podemos observar que, en un primer momento, son agrupadas entre sí, por ser las lenguas más cercanas el español, italiano y francés en un grupo y el noruego, danés e inglés en otro. En una segunda etapa se asocian el alemán y el holandés y se une el polaco al grupo del español. En la medida en que queramos ser menos precisos con la clasificación, podemos desplazarnos hacia la derecha en la escala de distancias reescaladas y, si lo hacemos, podremos agrupar al holandés y alemán con el grupo del norue-go, juntar el húngaro con el finlandés e incluso, incluir en un solo grupo al noruego, danés, inglés, holandés, húngaro y finlandés.

(5)

2. Un ejemplo de aplicación del análisis cluster

(Hair, Anderson, Tatham y Black, 1995)

Mantendremos en el desarrollo del análisis cluster, los mismos pasos que hemos venido siguiendo en temas anteriores y que son los seis que debe seguir el establecimiento de cualquier modelo multivariante. Ilustraremos cada uno de ellos con la aplicación de un análisis cluster a la base de datos de ejemplo de HATCO.

Paso 1. Objetivos del análisis cluster

El principal objetivo del análisis cluster es dividir un conjunto de objetos en dos o mas grupos, basándose en la similitud de un conjunto de variables que los caracterizan. El uso más tradicional del análisis cluster ha sido el explorato-rio, es decir, pretendiendo clasificar un conjunto de objetos. Pero el análisis cluster también puede utilizarse con fines confirmatorios. Si en base a los fundamentos teóricos del problema que estamos analizando, podemos suponer que existe determinada estructura que siguen los individuos, ésta puede compa-rarse con la que se deriva del análisis cluster.

En nuestro caso de ejemplo, podemos aplicar el análisis cluster para uno de sus usos más habituales, el establecimiento de segmentos del mercado. Trataremos de establecer grupos de clientes de HATCO, atendiendo a la imagen que tienen de esta empresa de acuerdo con los habituales siete atributos X1 a X7. Nuestro objetivo es segmentar a los clientes en grupos con percepciones similares de HATCO. Si esto se lograra se podría, por ejemplo, formular distintas estrate-gias de comunicación para cada uno de ellos.

La selección de las variables que van a incluirse en el análisis cluster debe hacerse atendiendo tanto a cuestiones teóricas como prácticas, es decir, debe basarse tanto en la revisión de la literatura sobre el tema, como en investigacio-nes pasadas. En todo caso, deben incluirse aquellas variables que: (1) caracteri-cen a los objetos que van a clasificarse y (2) estén vinculadas a los objetivos de la clasificación. Es muy importante saber que el análisis cluster no tiene forma de saber qué variables son relevantes y cuáles no (no disponemos de coeficien-tes con coeficien-tests de significatividad). El análisis cluster forma los grupos

atendiendo a todas las variables. El incluir variables irrelevantes, aumenta la

probabilidad de que aparezcan outliers que afecten a los resultados. Es muy

(6)

En nuestro caso, los análisis anteriores que hemos realizado sobre la base de datos de HATCO, parecen confirmar la relevancia de las variables introducidas, sin embargo, no debe descartarse eliminar alguna que no difiera entre los grupos formados.

Paso 2. Desarrollo del plan de análisis

Una vez definidos los objetivos y seleccionadas las variables, el investigador debe tomar tres decisiones antes de comenzar el proceso de análisis:

1. ¿Existen outliers? y si existen, ¿deben ser eliminados?

2. ¿Qué medida de la similitud entre los objetos debe utilizarse? 3. ¿Deben estandarizarse los datos?

Debemos decir que no hay por lo general una respuesta definitiva para todas estas preguntas y, según el procedimiento que apliquemos, puede llegarse a resultados diferentes con la misma base de datos. Al igual que ocurría con el análisis factorial, el análisis cluster tiene, en algunos momentos, algo más de arte que de ciencia.

El análisis cluster, como hemos dicho, es muy sensible a la existencia de outliers

(casos que son muy distintos de otros). Los outliers pueden representar, o bien

casos que de verdad difieren de la media de la población, o bien que en nuestro proceso de selección muestral hemos infrarrepresentado un segmento de pobla-ción determinado.

Un procedimiento habitual de detección es la distancia D2 de Mahalanobis, que

es una medida de la distancia en un espacio multidimensional de cada observa-ción del centro (media) de todas las observaciones. Esta medida tiene propieda-des estadísticas que permiten analizar la significatividad de las diferencias detectadas. Se recomienda ser muy exigente en el nivel de significación exigido

para clasificar a una observación como outlier: 0.01. Otra alternativa es recurrir

a gráficos que representen los valores que toman cada variable en los distintos casos y ver si existe alguno con patrones muy distintos, pero para un número importante de casos, este procedimiento puede ser farragoso.

La siguiente decisión es elegir la medida de similaridad que vaya a utilizarse. Hemos dicho que dos objetos se podrán en un mismo grupo si están “cerca” uno de otro respecto a las variables que empleemos. Pero esa distancia debe ser medida de alguna manera. Existen muchas medidas de la distancia. La más

común es la distancia euclídea o variaciones de la misma como la distancia

(7)

Ward, dado que al no calcular la raíz cuadrada facilita los cálculos del ordena-dor. Estas medidas se caracterizan porque no utilizan datos estandarizados y plantean el problema de que pueden dar soluciones muy distintas con sólo cambiar la escala de medida de una variable determinada (pasar el tiempo de minutos a segundos, por ejemplo). Por ello, si conceptualmente es posible, debería estandarizarse los datos antes de aplicar este tipo de escalas, como discutiremos más tarde.

Existe otra medida de distancia, la distancia de Mahalanobis que incorpora

directamente un procedimiento de estandarización de los datos. Tiene el problema, sin embargo, de que en caso de que exista un grupo de variables muy correlacionadas, estas tengan un peso desproporcionado en la formación de los grupos.

En general, la recomendación es que, dado que distintas medidas de distancia pueden conducir a diferentes resultados del análisis cluster, deben emplearse varias y comparar los resultados buscando los que sean conceptualmente más coherentes. En el caso de que no se detecten correlaciones significativas entre grupos de variables, la distancia de Mahalanobis es muy recomendable.

La tercera decisión que debe adoptarse, y que ya hemos apuntado, es si deben o no estandarizarse los datos antes de aplicar el análisis cluster. Recordemos que muchas medidas de distancias son muy sensibles a variaciones de escala o magnitud entre variables. Así, por ejemplo, si quisiéramos agrupar a los indivi-duos por su edad, nivel de ingresos y actitud hacia un producto (medido en una escala de 1 a 7), la mayor dispersión provendría del nivel de ingresos y ocultaría las diferencias de edad y de actitud hacia el producto. La forma más lógica de proceder es estandarizar las variables, es decir, restarles a cada una de las puntuaciones su media y dividir por la desviación típica.

En nuestro ejemplo de HATCO no tiene sentido utilizar la distancia de Mahalanobis porque ya detectamos elevadas correlaciones entre algunas varia-bles y no hemos aplicado ningún tipo de estandarización, porque todas ellas estaban medidas en una misma escala, como vimos en el primer tema.

Paso 3. Condiciones de aplicabilidad del análisis cluster

(8)

complejos, no son demasiado relevantes las propiedades estadísticas de normali-dad, linealidad y homoscedasticidad. El investigador, por el contrario, debe prestar especial atención a otros dos aspectos: la representatividad de la muestra y la multicolinealidad.

El investigador debe ser consciente de que un análisis cluster es tan bueno como representativa sea la muestra a la que se ha aplicado, por lo tanto debe prestarse tanta atención como sea posible a llevar a cabo un muestreo

adecua-do. La eliminación de outliers, es también muy importante para un buen

análi-sis cluster.

La multicolinealidad afecta muchísimo a los resultados porque, como hemos indicado, aquellas variables que estén afectadas de esta propiedad tendrán una influencia mayor en el establecimiento de los grupos. Veámoslo con un ejemplo. Supongamos que queremos clasificar a una población atendiendo a diez varia-bles, ocho de las cuales tienen mucho que ver unas con otras (llevando el ejemplo al extremo: el nivel de estudios y el número de años de estudio...) y las otras dos son independientes de las anteriores. Como el análisis cluster pondera a todas las variables por igual, el grupo de ocho, que no están midiendo ocho cosas distintas, sino la misma realidad, tendrán un peso muy superior a las otras dos. Por este motivo el investigador debe cuidar de analizar la multicoli-nealidad, tal y como describimos en el tema 1 y cuidarse de utilizar medidas de distancia muy sensibles a esta propiedad, como la de Mahalanobis.

En nuestro ejemplo, supusimos que la muestra de encuestados de HATCO estaba seleccionada correctamente y, como vimos en el tema 1, no se detecta-ron problemas de multicolinealidad significativos.

Paso 4. Estimación del modelo y ajuste global.

(9)

Figura 2 Ejemplo de distancias intra y entre clusters

··

··

··

Variación entre clusters Variación intra clusters

En los métodos jerárquicos, el análisis comienza con tantos conglomerados como individuos (cada individuo es un conglomerado inicial). A partir de estas unidades iniciales se van formando nuevos conglomerados de forma ascendente agrupando en cada etapa a los individuos de los dos conglomerados más próxi-mos. Al final del proceso todos los individuos estarán agrupados en un único conglomerado. La diferencia entre los diversos métodos reside en la distancia considerada para medir la proximidad entre conglomerados. Como ejemplo, en

el promedio entre grupos se define la distancia entre dos conglomerados como

el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto. Si el número de individuos y variables es muy alto, requiere un número de cálculos muy elevados.

(10)

¿Qué metodo utilizar? la recomendación general es: ambos. Primero utilicemos un método jerárquico para establecer el número de clusters, una aproximación de los centroides y detectar los outliers. A continuación con esta información de partida se puede llevar a cabo un análisis no jerárquico.

La última decisión era decidir cuántos conglomerados elegir. Ya se ha dicho que no hay una solución objetiva, sino que depende del criterio del investigador y este criterio suele indicar: “aquella solución que sea más coherente con la lógica o los fundamentos teóricos del problema”.

Apliquemos lo expuesto al ejemplo de HATCO. En primer lugar llevaremos a cabo un análisis jerárquico mediante la siguiente sintaxis:

CLUSTER x1 x2 x3 x4 x5 x6 x7 /METHOD WARD

/MEASURE= SEUCLID /PRINT SCHEDULE /PLOT DENDROGRAM /SAVE CLUSTER(2,5) .

La primera salida que obtenemos es el historial de conglomeración que debe leerse de la siguiente forma: en primer lugar, ha combinado los casos 15 y 20 y que no volverá a agruparse con otro hasta la etapa 60 en que se junta con el 19. En segundo lugar se han unido los casos 5 y 42 que en la etapa 94 se han juntado con el caso número 7 y así sucesivamente. El historial nos proporciona un coeficiente que, si toma un valor pequeño, indica que los casos que se han unido eran parecidos y, por ello, no ha sido necesario realizar un gran esfuerzo para unirlos. Cuando este coeficiente aumenta, quiere decir que la unión es más artificial.

(11)

15 20 ,000 0 0 60

5 42 ,005 0 0 94

24 27 ,010 0 0 74

47 61 ,020 0 0 78

19 28 ,040 0 0 60

67 90 ,070 0 0 39

18 92 ,105 0 0 65

51 77 ,140 0 0 72

33 62 ,175 0 0 63

36 41 ,210 0 0 45

85 87 ,260 0 0 69

65 79 ,310 0 0 68

43 46 ,360 0 0 76

25 44 ,410 0 0 63

38 63 ,475 0 0 54

69 81 ,555 0 0 52

94 98 ,650 0 0 73

56 91 ,745 0 0 66

50 72 ,840 0 0 52

75 99 ,950 0 0 62

16 73 1,060 0 0 61

37 48 1,170 0 0 58

1 95 1,291 0 0 72

11 100 1,416 0 0 69

4 89 1,556 0 0 62

84 88 1,696 0 0 45

2 83 1,836 0 0 82

29 78 1,976 0 0 61

3 71 2,116 0 0 75

23 32 2,256 0 0 66

17 64 2,446 0 0 83

12 76 2,661 0 0 67

8 68 2,876 0 0 70

9 74 3,141 0 0 55

52 60 3,431 0 0 57

10 34 3,766 0 0 43

26 59 4,116 0 0 64

49 97 4,536 0 0 81

7 67 5,006 0 6 77

13 21 5,526 0 0 51

82 93 6,051 0 0 91

40 54 6,576 0 0 53

10 30 7,108 36 0 50

66 80 7,643 0 0 59

36 84 8,200 10 26 70

22 55 8,760 0 0 71

6 70 9,420 0 0 57

45 86 10,250 0 0 53

39 96 11,090 0 0 68

10 53 11,976 43 0 56

13 35 13,036 40 0 71

50 69 14,479 19 16 65

40 45 15,981 42 48 73

14 38 17,570 0 15 59

9 58 19,225 34 0 67

10 31 21,272 50 0 58

6 52 23,527 47 35 88

10 37 25,880 56 22 75

14 66 28,256 54 44 80

15 19 30,716 1 5 77

16 29 33,191 21 28 78

4 75 35,726 25 20 74

25 33 38,548 14 9 64

25 26 41,579 63 37 84

18 50 44,890 7 52 76

23 56 48,557 30 18 87

9 12 52,290 55 32 80

39 65 56,225 49 12 89

11 85 60,263 24 11 87

8 36 64,375 33 45 83

13 22 68,591 51 46 90

1 51 73,077 23 8 84

40 94 77,881 53 17 85

4 24 82,779 62 3 82

3 10 88,128 29 58 79

18 43 93,517 65 13 92

7 15 98,971 39 60 86

16 47 104,829 61 4 90

3 57 111,619 75 0 91

9 14 118,524 67 59 81

9 49 126,001 80 38 86

2 4 134,767 27 74 85

8 17 143,869 70 31 88

1 25 156,705 72 64 92

2 40 170,246 82 73 89

7 9 185,576 77 81 94

11 23 201,096 69 66 93

6 8 218,427 57 83 93

2 39 236,097 85 68 96

13 16 258,717 71 78 95

3 82 281,415 79 41 97

1 18 305,053 84 76 95

6 11 333,106 88 87 96

5 7 364,923 2 86 98

1 13 398,113 92 90 98

2 6 446,314 89 93 97

Etapa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 Conglomerado 1 Conglomerado 2 Conglomerado que se combina

Coeficientes

Conglomerado 1

Conglomerado 2 Etapa en la que el conglomerado

aparece por primera vez

(12)

Figura 5.2. Dendograma

* * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *

C A S E 0 5 10 15 20 25

Label Num +---+---+---+---+---+ 15 -+

20 -+

19 -+

28 -+-+

67 -+ I 90 -+ I 7 -+ +-+

49 -+ I I 97 -+ I I 66 -+-+ I 80 -+ I 38 -+ I 63 -+ +---+

14 -+ I I 12 -+ I I 76 -+ I I 9 -+ I I 74 -+ I I 58 -+ I I 5 -+---+ I 42 -+ I 22 -+ +---+

55 -+-+ I I 13 -+ I I I 21 -+ +-+ I I 35 -+ I I I I 47 -+ I I I I 61 -+-+ I I I 16 -+ I I I 73 -+ I I I 29 -+ I I I 78 -+ +---+ I 43 -+ I I 46 -+-+ I I 18 -+ I I I 92 -+ I I I 69 -+ I I I 81 -+ I I I 50 -+ +-+ I 72 -+ I I 26 -+ I I 59 -+ I I 33 -+ I I 62 -+ I I 25 -+-+ I 44 -+ I 51 -+ I 77 -+ I 1 -+ I 95 -+ I 82 -+-+ I 93 -+ I I 3 -+ I I 71 -+ +---+ I 37 -+ I I I 48 -+ I I I 10 -+ I I I 34 -+-+ I I 30 -+ I I 53 -+ I I 31 -+ I I 57 -+ I I 65 -+ I I 79 -+-+ I I 39 -+ I +---+ 96 -+ I I 94 -+ +---+ I 98 -+ I I I 40 -+ I I I 54 -+ I I I 45 -+-+ I I 86 -+ I I 2 -+ I I 83 -+ I I 24 -+ I I 27 -+ I I 75 -+ +---+

99 -+ I 4 -+ I 89 -+ I 56 -+ I 91 -+-+ I 23 -+ I I 32 -+ I I 85 -+ I I 87 -+-+ I 11 -+ I I 100 -+ +---+

52 -+ I 60 -+-+

6 -+ I 70 -+ I 17 -+ I 64 -+-+

8 -+

68 -+

36 -+

41 -+

84 -+

(13)

Analizando este dendograma vemos que la soluciòn natural es la de dos grupos, dado que a una distancia bastante cercana aparecen estas dos agrupaciones que, además, deben ser muy distintas puesto que sólo se agrupan en una a una distancia mucho mayor.

Dado que para pasar ahora al cluster no jerárquico, necesitamos informar al programa de cuáles son los centroides iniciales de esos dos grupos (es decir la media en los dos grupos de las siete variables que hemos utilizado en el cluster), necesitamos obtener esta información. Como se ve en la sintaxis, hemos pedido al programa que nos guarde en una variable a cuál de los dos grupos pertenece cada sujeto (realmente le hemos pedido que nos guarde el rango de soluciones desde dos grupos hasta cinco):

/SAVE CLUSTER(2,5) .

luego tenemos una variable, que nos dice si un individuo pertenece al grupo 1 o al 2. Basta que calculemos una tabla cruzada entre la pertenencia al grupo y las variables X1 a X7 como la recogida en el cuadro 3

Cuadro 3 Medias de X1 a X7 en cada conglomerado

4,46 1,58 8,90 4,93 2,99 2,51

5,90 2,57 3,15 6,89 5,57 2,84 2,82

8,04 Rapidez de

servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto 1

2 Ward Method

(14)

Pues bien, con esa información alimentamos el cluster no jerárquico mediante la siguiente sintaxis:

QUICK CLUSTER X1 TO X7

/INITIAL = (4.46 1.58 8.90 4.93 2.99 2.51 5.90 2.57 3.15 6.89 5.57 2.84 2.82 8.04) /CRITERIA = CLUSTERS (2)

/PRINT = CLUSTER ANOVA /SAVE CLUSTER.

que nos ofrece los siguientes resultados. En primer lugar debemos comparar si la solución óptima de dos cluster difiere mucho de la que obtuvimos mediante el cluster jerárquico. El cuadro 4, nos permite comprar los dos centroides:

Cuadro 4 Centroide jerárquico y no jerárquico

4.46 2.57 1.58 3.15 8.90 6.89 4.93 5.57 2.99 2.84 2.51 2.82

5.90 8.04 Rapidez de

servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

1 2

Conglomerado

Centros iniciales de los conglomerados

(15)

4,38 2,57 1,58 3,21 8,90 6,80 4,93 5,60 2,96 2,87 2,53 2,82

5,90 8,13 Rapidez de

servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

1 2

Conglomerado

Centros de los conglomerados finales

(16)

Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados

81,563 1 ,930 98 87,717 ,000

66,457 1 ,766 98 86,753 ,000

109,637 1 ,823 98 133,175 ,000

11,302 1 1,178 98 9,596 ,003

,188 1 ,568 98 ,331 ,566

2,109 1 ,578 98 3,647 ,059

123,372 1 1,280 98 96,404 ,000

Rapidez de servicio

nivel de precios flexibilidad de precios

Imagen del fabricante Servicio

Imagen de los vendedores Calidad del producto

Media

cuadrática gl

Conglomerado

Media

cuadrática gl

Error

F Sig.

ANOVA

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

Analizando los valores p, se observa que solamente la variable X5 (y en el extremo la X6) no presentan diferencias significativas entre los dos cluster, luego la calidad del análisis efectuado se confirma.

Paso 5. Interpretacion de los conglomerados

(17)

4,38 2,57 1,58 3,21 8,90 6,80 4,93 5,60 2,96 2,87 2,53 2,82

5,90 8,13 Rapidez de

servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

1 2

Conglomerado

Centros de los conglomerados finales

Si eliminamos del análisis la variable X5 (Servicio) que hemos visto que no presenta resultados distintos en los dos conglomerados, y nos centramos en las demás, podremos concluir que el conglomerado 1 está formado por aquellos clientes que prestan especial atención, respecto al segundo, a la rapidez del servicio y la flexibilidad de precios. Por el contrario, el conglomerado 2 enfatiza el nivel de precios, la imagen del fabricante y la de los vendedores y la calidad del producto.

Paso 6. Validación del modelo

La validación del modelo pasa por que el investigador se asegure de que la solución es representativa de la población y que será aplicable a otros indivi-duos que no estén en la muestra y será estable en el tiempo. La forma habitual de contrastar este hecho, es llevar a cabo otro análisis no jerárquico, pero no indicándole al programa el centroide de partida, sino dejando que este lo establezca aleatoriamente. Si el análisis es robusto, la solución final no debería diferir de la que se ha obtenido con anterioridad.

(18)

Cuadro 6. Nuevo análisis no jerárquico

6,0 ,0

,9 2,1

9,6 6,9

7,8 5,4

3,4 1,1

4,6 2,6

4,5 8,9

Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

1 2

Conglomerado Centros iniciales de los

conglomerados

4,4 2,6

1,6 3,2

8,9 6,8

4,9 5,6

3,0 2,9

2,5 2,8

5,9 8,1

Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

1 2

Conglomerado Centros de los conglomerados

finales

(19)

Cuadro 7 Análisis de varianza

81,563 1 ,930 98 87,717 ,000

66,457 1 ,766 98 86,753 ,000

109,637 1 ,823 98 133,175 ,000

11,302 1 1,178 98 9,596 ,003

,188 1 ,568 98 ,331 ,566

2,109 1 ,578 98 3,647 ,059

123,372 1 1,280 98 96,404 ,000

Rapidez de servicio nivel de precios flexibilidad de precios Imagen del fabricante Servicio Imagen de los vendedores Calidad del producto

Media

cuadrática gl

Conglomerado

Media

cuadrática gl

Error

F Sig.

ANOVA

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

El último criterio para validar los cluster obtenidos, pasa por intentar determi-nar si los sujetos que pertenecen a cada grupo, se comportan de distinta manera respecto a variables que no se han incluido en el análisis. Es decir, si cada conglomerado está recogiendo a grupos con características distintas, cabe esperar que esta diferencia se traduzca en actitudes o comportamientos también distintos en otros ámbitos. Por ejemplo, podemos plantearnos si alguno de los dos grupos está más satisfecho que otro respecto a HATCO (X10) y utiliza más o menos sus productos (X9). Estamos, de nuevo, ante un análisis de varianza que plantea la hipótesis nula de que la satisfacción y el uso es el mismo entre los dos conglomerados y cuya solución se recoge en el cuadro 8.

Cuadro 8 Análisis de varianza.

50 49,880 8,552 1,209 47,450 52,310 31,0 65,0 50 42,320 7,807 1,104 40,101 44,539 25,0 62,0 100 46,100 8,989 ,899 44,316 47,884 25,0 65,0

50 5,164 ,778 ,110 4,943 5,385 3,3 6,8

50 4,378 ,747 ,106 4,166 4,590 3,2 6,2

100 4,771 ,856 8,556E-02 4,601 4,941 3,2 6,8 1

2 Total Ward Method

1 2 Total Ward Method Nivel de

uso

nivel de satisfacción

N Media

Desviación típica

Error típico

Límite inferior

Límite superior Intervalo de confianza para la media al 95%

(20)

1428,840 1 1428,840 21,312 ,000 6570,160 98 67,042

7999,000 99

15,445 1 15,445 26,545 ,000 57,021 98 ,582

72,466 99 Inter-grupos

Intra-grupos Total Inter-grupos Intra-grupos Total Nivel de

uso nivel de satisfacción

Suma de cuadrados gl

Media

cuadrática F Sig.

ANOVA

Se comprueba que el grupo 1 tiene un mayor nivel uso de los productos de HATCO (49,88) que el 2 (42,30) y de satisfacción (5,16 frente a 4.37) y que, además ambas diferencias son significativas (p<0.01). Este resultado tiene importantes implicaciones para HATCO que deberá mejorar los factores que han sido peor valorado por el grupo 2, dado que es un grupo menos satisfecho, concretamente, X1 y X3.

Referencias bibliográficas

FERRÁN, M. (1996): SPSS para Windows. Programación y análisis estadístico.

Madrid: McGraw-Hill.

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate

Data Analysis. 4ª Edición. Englewood Cliffs: Prentice Hall.

Figure

Cuadro 1. Números en 11 idiomas

Cuadro 1.

Números en 11 idiomas p.2
Cuadro 2. Número de primeras letras concordantes

Cuadro 2.

Número de primeras letras concordantes p.3
Figura 2 Ejemplo de distancias intra y entre clusters

Figura 2

Ejemplo de distancias intra y entre clusters p.9
Figura 5.2. Dendograma  * * * * H I E R A R C H I C A L  C L U S T E R   A N A L Y S I S * * * * *

Figura 5.2.

Dendograma * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * p.12
Cuadro 3 Medias de X1 a X7 en cada conglomerado

Cuadro 3

Medias de X1 a X7 en cada conglomerado p.13
Cuadro 4 Centroide jerárquico y no jerárquico

Cuadro 4

Centroide jerárquico y no jerárquico p.14
Cuadro 5. Diferencias de medias de cada variable en los dos conglomerados

Cuadro 5.

Diferencias de medias de cada variable en los dos conglomerados p.16
Cuadro 6. Nuevo análisis no jerárquico

Cuadro 6.

Nuevo análisis no jerárquico p.18
Cuadro 8 Análisis de varianza.

Cuadro 8

Análisis de varianza. p.19
Cuadro 7 Análisis de varianza

Cuadro 7

Análisis de varianza p.19

Referencias

Actualización...

Related subjects :