Algoritmos de clustering - Algoritmos de Aprendizaje automático

3. Antecedentes 9

3.3. Algoritmos de Aprendizaje automático

3.3.1. Algoritmos de clustering

Si consideramos los datos como objetos, el concepto básico declusteringes encontrar un agrupamiento natural de estos objetos, de tal forma que los objetos de un grupo sean similares entre sí y distintos a los de otros grupos. Los algoritmos declusteringse emplean en multitud de aplicaciones como la exploración de distribución de datos, la transformación de atributos para entrada a otros algoritmos y el reconocimiento de patrones entre otros. Por tanto, el objetivo de estos algoritmos consiste en descubrir estructuras en los datos de entrada. Los algoritmos de agrupamiento se clasifican en dos grandes grupos, jerárquicos, cuya estructura conforma un árbol jerárquico, y planos, que parten de una estructura no definida (ver figura 3.5) [ROM08].

Figura 3.5: Clasificación de algoritmos de clustering¹¹

3.3.1.1. Algoritmos jerárquicos

En los algoritmos jerárquicos existen dos elementos que influyen de forma importante sobre la calidad de los resultados, el criterio de parada y la función de similitud. Los tipos de clúster jerárquico existentes según la estrategia aplicada a la construcción son:

Aglomerativos: Los grupos inicialmente están formados por elementos individuales, y en cada iteración, utilizando una función de similitud, se mezclan los dos clústeres similares. El criterio de parada puede considerarse un número de iteraciones. Este tipo de algoritmos son los más utilizados.

Divisivos: Al contrario que los algoritmos aglomerativos, se parte de un único conjunto con todos los elementos, y se realizan divisiones de acuerdo a una heurística hasta formar grupos de un elemento. Este tipo de algoritmos son los menos utilizados.

11Extraída de [ROM08].

Existen distintas aproximaciones de estos algoritmos, que se diferencian en las reglas utili- zadas en la estrategia de división o fusión de grupos. Existen los algoritmos de enlace simple (Single-Link), donde la distancia entre dos grupos se determina por la distancia de los dos objetos más cercanos en los diferentes grupos. Por tanto, la similitud entre dos grupos es la máxima similitud entre dos miembros, uno de cada grupo. Lo contrario sucede con los algoritmos de enlace completo (Complete-Link), cuya estrategia se basa en la mínima similitud. Otros utilizan la media de la similitud, denominados grupos de enlaces de medias (Group Average-Link). Por último, existen algunos más complejos, como losWards linkcuya medida consiste en minimizar la varianza de los grupos fusionados [ROM08], [DHS12].

La representación gráfica generada en forma de árbol por estos algoritmos se conoce como dendrograma. Dentro de esta estructura, organizada jerárquicamente, el nodo raíz incluye todos los elementos, mientras que los nodos hijos representan a los grupos con una mayor similitud. Los niveles intermedios combinan grupos de niveles inferiores. En la figura 3.6 puede verse un ejemplo de la representación de un dendrograma.

Figura 3.6: Ejemplo de dendrograma¹²

3.3.1.2. Algoritmos planos

Los algoritmos planos son de una naturaleza heurística y necesitan una serie de factores de entrada para su funcionamiento, como es el número de grupos deseados. Existen dos tipos de algoritmos planos:

Particionantes: Producen grupos de elementos disjuntos, donde cada elemento se aso- cia solamente al grupo con el que guarde más similitud. El algoritmo principal de es-

12Extraída de [ROM08].

te grupo es elK-Means. Este algoritmo de agrupamiento por particiones produce un número de clúster, previamente conocido, que tienen asociado un centroide (centro geométrico del clúster). En cada iteración, los elementos se asignan al clúster cuyo centroide sea el más cercando y se recalculan los centroides. Este algoritmo tiene un componente aleatorio, ya que en la primera iteración los centroides son asignados al azar [WU12].

No particionantes: Su principal capacidad es la de encontrar estructuras no detecta- das por los algoritmos particionantes. En estos algoritmos, también conocidos como borrosos, los elementos están asignados a uno o varios grupos con una cierta proba- bilidad de pertenencia, ponderando las distancias a los centroides. El algoritmo más utilizado es elFuzzy C-Means.

Estos algoritmos se caracterizan por producir grupos sin ninguna estructura específica.

Requieren conocer de antemano factores como el número de grupos o criterios de pertenencia, ya que estos algoritmos son heurísticos por naturaleza. A partir de los grupos iniciales definidos se busca una optimización.

Existen una serie de propiedades deseables comunes a los algoritmos declusteringque se detallan a continuación:

Manejo de distintos tipos de datos.

Escalabilidad en términos de espacio y tiempo.

Tratamiento de ruido en los datos y valores extremos.

Interpretación y facilidad de uso.

3.3.1.3. Ventajas y desventajas

Los algoritmos jerárquicos poseen bastantes ventajas. La principal es que al no depender de resultados aleatorios y parámetros heurísticos, siempre ofrecen los mismos resultados an- te los mismos elementos. No es necesario especificar como entrada del algoritmo el número de grupos y los resultados generados suelen ser de gran calidad. En cuanto a sus inconve- nientes cabe destacar que no son demasiado escalables, ya que su complejidad temporal es cuadrática. Por otro lado, la interpretación de resultados es bastante objetiva y en algunos dominios, los mapas de naturaleza jerárquica corresponden a una intuición humana.

En cuanto a los algoritmos planos, la baja complejidad y el bajo consumo de recursos son sus puntos fuertes. Su mayor desventaja es el uso de parámetros heurísticos de entrada, cuya dependencia es muy fuerte para obtener un buen funcionamiento del algoritmo.

3.3.1.4. Criterios de calidad

Los criterios de calidad son importantes para evaluar la calidad y fiabilidad de los grupos generados por los algoritmos de clustering. Usando criterios se intenta evitar los grupos formados por azar. También se utilizan para comparar grupos y para elegir un número óptimo de estos. Los criterios de calidad se han dividido en tres validaciones: externa, interna y estadística.

Validación externa

La validación externa compara los resultados del clustering con los resultados externa- mente conocidos. No obstante, este tipo de validación está más relacionada con elaprendi- zaje supervisado. Para determinar el grado de calidad del agrupamiento realizado, existen dos métricas externas conocidas comoentropíaypureza, que serán detallas a continuación [LIU07].

Laentropíatrata de medir y cuantificar la incertidumbre del conjunto de datos, con el fin de valorar la eliminación o reducción de esta incertidumbre. Para cada clúster, la formula de laentropíaes la siguiente:

Ent(D_i) =−

j=1

P r_i(c_j)log₂P r_i(c_j)

Siendokel número de grupos,Cel conjunto de clases del conjunto de datos yP r_i(c_j)la proporción de puntos de la clase(c_j)localizados en el grupoD_i. Por tanto la fórmula de la entropía totales:

Ent_{T otal}(D) =

i=1

|D_i|

|D|xEnt(D_i)

La pureza mide si un clúster contiene una sola clase entre sus datos. Se calcula de la siguiente manera:

P ur(D_i) =max_j(P r_i(c_j))

Lapureza totalconsiderando todos los grupos es:

P urT otal(D) =

i=1

|D_i|

|D|xP ur(Di)

Validación interna

La validación interna sólo es utilizada para medir la calidad del clúster. Mide tanto su cohesióncomo suseparacióncon otros grupos, y a diferencia de la validación externa, no utiliza información exterior. A continuación se detallan ambas métricas [ZXF09].

Lacohesiónestablece que el miembro de cada grupo debe ser lo más cercano posible a otros miembros del mismo grupo. La medida utilizada para evaluar la cohesión de los clusters es Sum of Squared Within (SSW).

SSW =

i=1

xCi

dist²(m_i, x)

Siendok el número de clústeres, xun punto del clúster C_i y m_i el centroide del clúster Ci.

Laseparaciónevalúa la distancia entre grupos. La medida se denomina Sum of Squared Between (SSB).

SSB=

j=1

n_jdist²(c_j −x)

Siendokel número de grupos,nj el número de elementos del grupoj,cj el centroide del clúster yxla media aritmética de los elementos.

El coeficiente deSilhouettecombina las ideas de la cohesión y separación. Si definimos cohesiónc(x)como la distancia promedio de x al resto de puntos del mismo clúster y se- paración s(x) como la distancia promedio de x al resto de puntos del grupo más cercano [MR07], la fórmula del coeficiente deSilhouettese define como:

S(x) = s(x)−c(x) max{c(x), s(x)}

El valor resultante puede variar entre -1 y 1, siendo el mejor resultado un número cercano a 1. Por último, el coeficiente deSilhouette totalpara todo el agrupamiento es:

SC = 1 N

i=1

S(x)

Validación estadística

La validación estadística determina la fiabilidad de las agrupaciones, intentando obtener un nivel de confianza que verifique que los grupos no han sido producidos por azar. Estos enfoques son mas complicados de tratar y entender. Básicamente, la estadística proporciona un marco para la validación de los grupos. Cuanto más atípico es el resultado declustering es más probable que exista una estructura de datos válida para su representación. Se puede comparar el valor de un índice derivado de datos al azar con un resultado declustering.

In document CRONOS-ANALYZER: Herramienta para el anÃ¡lisis y extracciÃ³n de conocimiento a partir de (página 54-59)