Algoritmo de clustering jerárquico aglomerativo

Capítulo 1. Marco teórico

1.3. Clustering jerárquico para series de tiempo

1.3.3. Algoritmo de clustering jerárquico aglomerativo

La idea detrás de esta medida de similitud es que si los parámetros de los modelos ajustados a las series de tiempo son cercanos, entonces las series temporales se comportan de manera similar. Esta medida es útil cuando se usa el enfoque basado en modelos para llevar a cabo el clustering de series de tiempo.

Entonces, como se mencionó antes, la elección de la medida de similitud de- penderá de varios factores: si la serie de tiempo es de valor discreto o de valor real, muestra uniforme o no uniforme, univariada o multivariada, si las secuencias de los intervalos tienen una longitud igual o desigual, si se trabaja con la serie original o con modelos construidos con base en las series y, finalmente, del objetivo del clustering y del método seleccionado para llevar a cabo la agrupación.

diferentes [14].

En el clustering jerárquico aglomerativo, la construcción de la secuencia de particiones inicia con una partición unitaria del conjuntoS,π¹={C₁¹,C₂¹, ...,C_n¹}, donde se considera a cada serie de tiempo como un cluster individual, es decir|S| = |π¹| =n.

Entonces, si la partición construida en el pasokes

π^k={C₁^k, ...,C_m^k_k},

los dos clusters más similares de esta partición, digamosC_p^kyC_q^k, se fusionan y se forma una nueva partición

π^k+1={C₁^k, ...,C_p^k₋₁,C_p^k₊₁, ...,C_q^k₋₁,C_q^k₊₁, ...,C_p^k∪C_q^k},

de tal forma que|π^k+1| = |π^k|−1. El algoritmo se detiene cuando se alcanza la partición de un único cluster.

Algoritmo 1:Algoritmo de clustering jerárquico aglomerativo Entrada:Matriz de distancia inicialD¹

Salida :Secuencia de particiones del conjunto de objetosS, donde|S| =n

1 k=1;

2 Se inicializa la partición:π¹={C₁¹,C₂¹, ...,C_n¹};

3 mientrasπ^kcontiene más de un clusterhacer

4 fusionar los dos clusters más cercanos en uno nuevo;

5 k+ +;

6 crear particiónπ^k;

7 calcular la matriz de distanciaD^kde la particiónπ^k;

8 fin

La forma general de este algoritmo se muestra como Algoritmo 1, donde, una vez que se seleccionó la medida de similitud, se toma como punto de partida la matriz de distanciasDpor pares de series de tiempo.

En el paso 7 del Algoritmo 1, se observa que a medida que se crean nuevos clusters fusionando dos clusters existentes, la matriz de distanciaDdebe actualizarse para reflejar las diferencias entre el cluster creado y los clusters ya existentes.

Para llevar a cabo esta actualización de la matriz de distancias, es necesario definir cómo se cuantificará la similitud entre dos clusters cuando éstos tienen más de un elemento. Es decir, se tiene que extender el concepto de distancia entre pares de series de tiempo para que sea aplicable a pares de grupos, cada uno formado por varias series. A este proceso se le conoce como enlace olinkage. A continuación, se describen los tipos de enlace más empleados y sus definiciones [2].

1.3.3.1. Tipos de enlace (linkage)

• Enlace simple: La distancia entre dos clusters,C_i yC_j, es el mínimo de las distancias entre un objeto de un cluster y un objeto del otro, es decir, minimiza la distancia de los objetos más cercanos entre pares de clusters. En este caso los objetos hacen referencia a las series de tiempo.

simple(Ci,Cj)=m´ın{d(Xt,Yt)|Xt∈Ci,Yt∈Cj} (1.16)

Figura 1.Enlace simple. Fuente: Elaboración propia.

• Enlace completo: La distancia entre dos clusters,Ci yCj, es el máximo de las distancias entre un objeto de un cluster y un objeto del otro, es decir, minimiza la

distancia máxima de los objetos entre pares de clusters. En este caso los objetos hacen referencia a las series de tiempo.

completo(Ci,Cj)=m´ax{d(Xt,Yt)|Xt∈Ci,Yt∈Cj} (1.17)

Figura 2.Enlace completo. Fuente: Elaboración propia.

• Enlace promedio: La distancia entre dos clusters,Ci yCj, es el valor promedio de todas las distancias entre los distintos elementos (series de tiempo) que con- forman cada cluster.

promedio(C_i,C_j)=

P{d(X_t,Y_t)|X_t∈C_i,Y_t ∈C_j}

|C_i||C_j| (1.18)

• Método de Ward: También conocido como método de varianza mínima, este mé- todo une los dos clusters,Ci yCj, que minimizan el aumento en la suma de los errores al cuadrado (SSE) que resulta de fusionar los dos clusters, es decir:

SSE_C_i_∪C_j−(SSE_C_i+SSE_C_j). (1.19)

La suma de los errores al cuadrado de cada clusterC, se define como la distancia entre cada elemento del cluster y el centroide del cluster al cuadrado, donde el centroide del cluster se puede calcular como el promedio de todos los elementos del cluster:

SSE_C =

|C|

k=1

(c_k−µC)². (1.20)

DondeµChace referencia al centroide del clusterC. De esta forma, si se sustituye 1.20 en 1.19, se tiene:

Ward(C_i,C_j)= |Ci||Cj|

|Ci| + |Cj|(µCi−µCj)². (1.21) De la ecuación 1.20 se sigue que la matriz de distancia inicial debe calcularse utilizando una medida de distancia proporcional a la distancia euclidiana al cuadrado.

Cada tipo de enlace define la distancia entre dos clusters de manera única. La elección del tipo de enlace a utilizar dependerá del objetivo del clustering y de la medida de distancia seleccionada.

1.3.3.2. Dendrograma

El clustering jerárquico tiene un gran poder de visualización en la agrupación de series de tiempo, lo que lo convierte en un algoritmo muy utilizado para la agrupación de este tipo de datos.

Una de las herramientas de visualización que proporciona el análisis de clustering jerárquico es el dendrograma, el cual es una representación gráfica en forma de árbol que resume el proceso de agrupación en el análisis jerárquico de clusters [55], lo cual permite comprender mejor el proceso de aglomeración en cada iteración del algoritmo.

En la Figura 3, se presenta de manera ilustrativa el ejemplo de dos dendrogramas generados con base en los resultados de un clustering jerárquico, el primero utilizando el enlace simple y el segundo con el enlace completo. Cada hoja de los dendrogramas corresponde a una observación; a medida que se avanza en el árbol, las observaciones que son similares entre sí se combinan en ramas, que se fusionan a una mayor altura.

Se puede ver que en el dendrograma genenerado utilizando el enlace simple, a una altura (distancia) de tres, los datos se encuentran agrupados en dos clusters, uno

muy grande y el otro formado por un elemento único; en general este tipo de enlace tiende a generar clusters demasiado grandes [55]. En el caso del enlace completo, se puede ver que a la altura (distancia) tres, son varios los clusters formados y éstos son más pequeños y compactos en comparación a los del enlace simple.

Figura 3.Ejemplo ilustrativo de dendrogramas generados con un algoritmo de clustering jerárquico algomerativo, utilizando el tipo de enlace simple (izquierda) y el tipo de enlace

completo (derecha). Fuente: Elaboración propia.

1.3.3.3. Selección del nivel de corte para determinar el número de clusters

El dendrograma puede ayudar a sugerir el número de clusters apropiado para el conjunto de datos analizado ya que, aunque no implica directamente un cierto número de clusters, se puede inducir uno. Una opción es evaluar visualmente el dendrograma para evaluar la altura a la que ocurre el mayor cambio en la disimilitud, cortando el dendrograma a dicha altura y extrayendo los grupos que se crean. Otra opción es espe- cificar el número de grupos que se desean y cortar el dendrograma de tal manera que se obtenga el número elegido. En este último caso, se pueden hacer varios recortes y se pueden usar índices de validez para decidir qué valor produce un mejor rendimien- to [40].

Una técnica que se puede utilizar para definir el nivel de corte en el dendro-

encontrar el paso en la jerarquía de agrupaciones donde la aceleración del crecimiento de la distancia es la mayor.

Es decir, dado el conjunto de distancias a las que se fusionan dos clusters en cada iteración del algoritmo (ver Algoritmo 1), {d₁, ...,dn}, la aceleración en cada pasoi se puede escribir comoacel er acion´ =d_i−2d_i₋₁−d_i₋₂, [56] , que es la segunda derivada de las distancias a las que se da la fusión (doble diferencia ya que las observaciones son equidistantes en el tiempo). Entonces, de acuerdo a esta variante del Método del codo, se puede definir el nivel del corte en el dendrograma con la siguiente fórmula:

k=n+2−arg max

i∈{3,...,n}

{di−2di−1−di−2}, (1.22)

dondekes el número de clusters a los que se corta el dendrograma ynel número total de iteraciones en el algoritmo.

Capítulo 2

In document SERIES DE TIEMPO” (página 49-56)