Criterio de enlace - Algoritmos de clusterización

2.5 Aprendizaje No Supervisado

2.5.1 Algoritmos de clusterización

2.5.1.4 Criterio de enlace

El criterio de enlace determina la distancia entre conjuntos de observaciones como una función de las distancias entre observaciones dos a dos. Algunos criterios de enlace entre dos conjuntos de observaciones A y B frecuentemente usados son:

Agrupamiento de máximo o completo enlace:

Agrupamiento de mínimo o simple enlace:

Agrupamiento de enlace media o promedio, o UPGMA:

Agrupamiento de mínima energía:

Donde d es la métrica escogida.

2.5.1.5 K-means

K-Means es un método de clustering de particionado y su nombre hace alusión al número k de grupos a conformar, que debe ser definido a priori. La idea principal es definir k centroides (uno para cada grupo) y luego tomar cada punto de la base de datos y situarlo en la clase de su centroide más cercano. El próximo paso es re-calcular el centroide de cada grupo y volver a distribuir todos los objetos según el centroide más cercano. El proceso se repite hasta que ya no hay cambio en los grupos de un paso al siguiente. El problema del empleo de estos esquemas es que fallan cuando los puntos de un grupo están muy cerca del centroide de otro grupo y también cuando los grupos tienen diferentes tamaños y formas [Pascual et al, 2007].

En otras palabras, este algoritmo minimiza la suma de las distancias al cuadrado de cada elemento de los datos a clasificar al centroide de su agrupamiento. Formalmente, dado un conjunto de observaciones (x ₁, x₂, …, x_n), donde cada observación es un vector real de d dimensiones, k-means tienda a construir una partición de las observaciones en k conjuntos (k ≤ n) a fin de minimizar la suma de los cuadrados dentro de cada grupo (WCSS): S = {S ₁, S ₂, …, S_k}.

donde µ_i es la media de puntos en S_i. En la Tabla 2.5.1.5.1, se muestran ventajas y desventajas del algoritmo.

Ventajas Desventajas

Entre los algoritmos de particionamiento es eficiente.

Necesito conocer k de antemano. Implementación sencilla. Sensible a ruido.

El resultado puede variar en base a las semillas elegidas al inicio.

Algunas semillas pueden resultar en una tasa de convergencia menor .

La selección de semillas se puede basar en heurísticas o resultados obtenidos por otros métodos.

Puede caer en mínimos locales. No trata datos nominales (K-Modes). Tabla 2.5.1.5.1: Ventajas y desventajas del algoritmo K-Means.

A continuación en la figura 2.5.1.3.2, se presenta un ejemplo donde podremos observar el estado inicial del algoritmos con k=3 centroides iniciales mostrados en color generados aleatoriamente dentro de un conjunto de datos.

El primer paso del algoritmo es asignar cada objeto al grupo que tiene el centroide más cercano. Las particiones generadas por los grupos resultantes representan el diagrama de voronoi .6 En la figura 2.5.1.5.3 se puede ver como k grupos son generados.

Figura 2.5.1.5.3: Segundo paso del algoritmo k-means.

Cuando todos los objetos del conjunto de datos sin asignados a un grupo, se vuelve a calcular las posiciones de los centroides K. En la figura 2.5.1.5.4 se puede ver como se re-calcula el centroide de cada cluster.

Figura 2.5.1.5.4: Tercer paso del algoritmo k-means.

Finalmente se repite los pasos 2 y 3 hasta que los centroides ya no se muevan y se llega a una convergencia como se ve en la figura 2.5.1.5.5.

6_{El diagrama de Voronoi es una construcción de teoría de grafos en la que se crean las regiones con menor}

Figura 2.5.1.5.5: Convergencia del algoritmo k-means.

Los resultados de la convergencia del algoritmo depende del valor de k. Este valor, será determinante a la hora de generar la estructura de grupos del algoritmo. Esto puede ser particularmente problemático, ya que a menudo no se sabe cuántos clusters existen para el conjunto de datos. Lo que se puede afirmar es que un valor grande de k, generará clusters más juntos y a su vez más densos. Por lo tanto, la selección del valor de k no es trivial [Berkhin, 2006]. Una posible solución a este problema es comparar los resultados de múltiples ejecuciones con diferentes valores de k y elegir la mejor de acuerdo algún criterio dado.

2.5.1.6 COBWEB

COBWEB es un algoritmo incremental jerárquico de clustering, que organiza incrementalmente las observaciones en un árbol de clasificación, cuyos nodos del árbol representan un concepto o clase y además está etiquetado por una distribución probabilística de ese concepto que resume los objetos clasificados bajo ese nodo.

La descripción probabilística incluye la probabilidad del concepto (P(Ci)) y las probabilidades condicionales de pares atributos-valor dado el concepto (P(Ai = Vij | Ck )) donde Ai = Vij es un par atributo-valor y Ck es una clase. Cuanto más grande sea esta probabilidad, mayor será la proporción de clase miembros que comparten el valor y es cuanto más predecible es el valor de la clase miembros.

Durante la ejecución del algoritmo se forma un árbol, donde las hojas representan los segmentos y el nodo raíz engloba por completo el conjunto de datos de entrada. El árbol consiste en un único nodo raíz. Las instancias se van añadiendo una a una y el árbol se va actualizando en cada paso. Esta actualización consiste en encontrar el mejor sitio donde incluir la nueva instancia operación que puede necesitar de la reestructuración de todo el árbol o simplemente la inclusión de la instancia en un nodo que ya existía. El árbol de clasificación se puede utilizar para predecir los atributos que faltan o la clase de un nuevo objeto.

COBWEB emplea cuatro operaciones básicas para construir el árbol de clasificación. Las operaciones disponibles son:

● Fusionar dos nodos: significa sustituirlos por un nodo cuyos hijos son la unión de los nodos originales y que resume las distribuciones de atributo-valor de todos los objetos clasificados bajo ellos.

● División de un nodo: Un nodo se divide mediante la sustitución con sus hijos.

● Inserción de un nuevo nodo: Se crea un nodo correspondiente al objeto que se está insertando en el árbol.

● Pasar un objeto por la jerarquía: Llamando al algoritmo COBWEB al objeto y el subárbol redireccionado en el nodo.

El componente clave del algoritmo COBWEB es la medida de similitud que se usa para establecer relaciones entre instancias. Tanto la función de adición y el mecanismo utilizado para buscar instancias dentro del árbol, emplea una medida heurística llamada categoría utilidad [Mulani et al, 2015]. Esta proporciona la clave para saber como y donde se debe actualizar el árbol y se representa como la siguiente fórmula:

donde: n es el número de clases en un nivel del árbol. La utilidad mide la calidad general de una partición de instancias en un segmento. Mide el valor esperado de valores de atributos que pueden ser adivinados a partir de la partición sobre los valores que se pueden adivinar sin esa partición Si la partición no ayuda en esto, entonces no es buena Entre más grande es la proporción de elementos de la clase que tienen ese atributo-valor, el atributo valor es más predictivo sobre la clase. La reestructuración que mayor utilidad de categoría proporcione es la que se adopta en ese paso. También hay que tener en cuenta otros dos parámetros muy importantes que son los siguientes:

• Acuity: Este parámetro representa la medida de error de un nodo con una sola instancia, es decir, establece la varianza mínima de un atributo. Tiene un gran impacto sobre la utilidad de la categoría ya que se basa en en una estimación de la media y la desviación estándar del valor de los atributos.

• Cut-off: Este valor se utiliza para controlar el crecimiento desmesurado del número de los nodos, es decir, regular el umbral de similitud. Indica el grado de mejoría que se debe producir en la utilidad de categoría para que la instancia sea tenida en cuenta de manera individual. En otras palabras, cuando el aumento de la utilidad de la categoría producido por la adición de un nuevo nodo es lo suficientemente pequeño, ese nodo se corta y la instancia se reubica en otro nodo ya existente. Esto sucede cuando dos o más instancias se consideran lo suficientemente similares como para no garantizar la formación del propio nodo de una de ellas.

In document Un enfoque para evaluar y diseñar nuevas técnicas de refactoring de aplicaciones SOA (página 34-39)