Análisis de algoritmos de clustering para datos categóricos

(1)

An´ alisis de algoritmos de clustering para datos categ´ oricos

Juan Felipe Cer´ on Uribe

Proyecto de grado de Matem´aticas

Asesor: Adolfo Jos´e Quiroz Salazar Departamento de Matem´aticas

Universidad de los Andes Bogot´a, Colombia 5 de diciembre de 2018

(2)

An´alisis del ROCK

y otros algoritmos de clustering de datos categ´oricos

Juan Felipe Cer´on Uribe

Resumen

En el campo de la estad´ıstica, el análisis de clusters se puede definir como la tarea de encontrar grupos relevantes de una población a partir de una muestra, de modo que los miembros de cada grupo sean más similares entre si que con respecto a los miembros de otros grupos en algún sentido. Nuestro objetivo principal para este proyecto fue analizar algoritmos de clustering adaptados a datos con atributos ca- tegóricos. Con este fin, realizamos una lectura cr´ıtica del planteamiento del algoritmo ROCK, un algoritmo moderno basado en la atractiva idea de considerar la vecindad que rodea a cada uno de los datos. Finalmente, propusimos una modificación a este algoritmo y comparamos su desempeño con el original (y otros algoritmos clásicos de clustering) mediante conjuntos de datos simulados.

(3)

Agradecimientos

Gracias a mis pap´as, a mis amigos y a mis hermanos por hacer de mi mundo un lugar feliz y tranquilo. A Adolfo Quiroz, gracias por guiarme en este y tantos otros proyectos acad´emicos; te debo mucho.

(4)

´Indice general

Abstract ii

Acknowledgements iii

1. El problema de an´alisis de clusters 1

1.1. Definiciones del problema . . . . 1

1.1.1. Homogeneidad y separaci´on . . . . 2

1.1.2. Identificaci´on de subpoblaciones . . . . 4

1.1.3. El problema de plantear el problema . . . . 5

1.2. Clasificaci´on del an´alisis de clusters . . . . 6

1.3. Algoritmos Cl´asicos . . . . 6

1.3.1. Algoritmos jer´arquicos . . . . 6

1.3.2. Clustering the k medias . . . . 9

1.4. Determinaci´on del n´umero de clusters . . . . 11

1.5. Medidas de similaridad de datos categ´oricos . . . . 13

2. ROCK: Un algoritmo robusto de clustering de datos categ´oricos 16 2.1. Modelos de clusters de canastas de mercado . . . . 17

2.2. Caracterizaci´on de homogeneidad y separaci´on . . . . 18

2.2.1. El n´umero de enlaces . . . . 18

2.2.2. Criterio de bondad de un clustering . . . . 20

2.2.3. Aproximaci´on de E[links(C)] . . . . 20

2.3. Algoritmo aglomerativo . . . . 21

2.4. Reevaluaci´on de la aproximaci´on de E[links(C)] . . . . 23

2.4.1. Factibilidad del modelo . . . . 23

(5)

´Indice general v

2.4.2. C´alculo de E[links(C)] . . . . 23

2.5. Modificaci´on del algoritmo . . . . 29

3. Comparaci´on de algoritmos de clustering de datos categ´oricos 31 3.1. Distancia entre clusterings . . . . 32

3.1.1. El concepto de entrop´ıa . . . . 32

3.1.2. La entrop´ıa condicional . . . . 34

3.1.3. La variaci´on de la informaci´on . . . . 36

3.2. Enunciado del problema . . . . 39

3.3. Descripci´on de las simulaciones . . . . 40

3.4. Algoritmos a comparar . . . . 41

3.5. Resultados . . . . 43

3.6. Discusi´on . . . . 45

3.6.1. Single linkage . . . . 45

3.6.2. Complete linkage . . . . 46

3.6.3. Average linkage . . . . 47

3.6.4. CROCK . . . . 48

3.6.5. ROCK . . . . 50

3.7. Conclusiones . . . . 50

(6)

´Indice de figuras

1.1. Dendrogramas del clustering de la base de datos simulada obtenidos a partir de single, average y complete linkage. . . . 8 1.2. Dendrograma de la ejecuci´on de complete linkage sobre un conjunto

de datos de distribuci´on normal, la mitad con media 0 y la otra con media 50. . . . 10 1.3. Suma interna de cuadrados total en el resultado del algoritmo de

k-medias. Los datos corresponden a una mezcla de 4 distribuciones normales con medias 10, 20, 30 y 40. . . . 11 2.1. Valores emp´ıricos de links(C)/ log n para clusters de cada modelo,

con θ fijo y n variable. . . . 24 2.2. Error relativo del n´umero de links observado en cada uno de los clus-

ters simulados. . . . 29 3.1. Ultimas 25 aglomeraciones de la ejecuci´´ on de average linkage con el

n´umero de enlaces como medida. . . . 42 3.2. Comparaci´on del ´ındice V I del resultado de cada algoritmo al variar

el tama˜no del conjunto de datos. . . . 43 3.3. Comparaci´on del ´ındice V I del resultado de cada algoritmo al variar

el grado de exclusividad de cada cluster. . . . 44 3.4. ´Indice V I del resultado de cada algoritmo en cuatro escenarios de

sobrerrepresentaci´on de algunas de las poblaciones. . . . 46

(7)

Cap´ıtulo 1

El problema de an´ alisis de clusters

Este cap´ıtulo es una introducción a la teor´ıa básica del análisis de clusters. Da- do que este tipo de problema suele presentarse informalmente, comenzaremos por presentar algunas de las formas disponibles en la literatura de definirlo con rigor matem´atico. En particular, estableceremos definiciones de cluster y de clustering. Luego presentaremos algunos algoritmos comunes de clustering. Finalmente, discutiremos las caracter´ısticas de diferentes medidas de similaridad entre datos categóricos. Es- to último servirá de introducción al contexto del clustering de datos con atributos categóricos, que es el tema central de este trabajo.

Para este cap´ıtulo, considere X un multiconjunto de datos en R^d de tama˜no n (contando multiplicidades).

1.1. Definiciones del problema

El an´alisis de clusters o clustering se puede describir informalmente como la tarea de presentar una partici´on informativa de un conjunto de datos. Formalmente:

Definici´on 1.1 SeaX un multiconjunto de datos. Un clustering de X es una partici´on de X . Llamamos clusters a cada uno de sus elementos.

Para facilitar el lenguaje a lo largo de este trabajo, en adelante utilizaremos los t´erminos conjunto y subconjunto para referirnos a multiconjuntos y submulticonjuntos de datos u observaciones.

(8)

1.1. Definiciones del problema 2

Notablemente, la anterior descripci´on no delimita el problema satisfactoriamente;

¿qué tipo de partición estamos buscando? Existen varias posibilidades porque la necesidad de particiones informativas ha surgido en varios contextos. De modo que se tienen varias formas de especificar (totalmente) el problema, ninguna de las cuales pretende ser aplicable en todos los contextos de lo que actualmente se considera análisis de clusters.

A lo largo de la literatura consultada, existen dos perspectivas principales a partir de las cuales es posible formalizar el problema. La primera consiste en buscar un clustering que maximice criterios tanto de cohesión interna como de mutua exclusión de los clusters. La segunda consiste en identificar subpoblaciones en la distribución de la cual provienen los datos. En las próximas subsecciones citaremos algunas de las definiciones formales que surgen a partir de cada una de estas perspectivas. Fi- nalmente discutiremos La dificultad de plantear un problema matemático de análisis de clusters que se adapte a las necesidades de una aplicación en particular.

1.1.1. Homogeneidad y separaci´on

Varios criterios de la calidad de un clustering se basan en los conceptos de homogeneidad y separaci´on. En un clustering, el primero se refiere a la cohesividad interna de cada uno de los clusters, y el segundo a su mutuo aislamiento. Podemos juzgar la calidad de un clustering a trav´es de ´ındices que midan estas propiedades.

En el cuadro 1.1 citamos algunos de estos ´ındices, los cuales se definen a partir de una medida de disimilitud entre datos δ ∶ X × X → R. Con respecto a la selección de la última, Gower y Legendre señalan que esta debe estar bien adaptada a la naturaleza de los datos y al tipo de análisis que se pretende realizar [5].

Los primeros; h1, h2 y h3, miden la heterogeneidad, o ausencia de homogeneidad de un cluster. Los últimos; s1 y s2, miden la separación de un cluster del resto en una partición. La agregación de estos ´ındices a través de los clusters de un clustering resulta en indicadores de la homogeneidad y de separación del mismo. Cualquiera de estos, o una agregación de ellos, podr´ıa utilizarse para formalizar el problema de análisis de clusters:

(9)

Criterio Medida de

h₁(C) = ∑

p,q∈C

δ(p, q) Heterogeneidad h₂(C) = m´ax_p,q∈Cδ(p, q) Heterogeneidad h₃(C) = m´ın

p∈C ∑

q∈C

δ(p, q) Heterogeneidad s₁(Cⁱ) = ∑

p∈Ci

j /∑=i ∑

q∈Cj

δ(p, q) Separaci´on s₂(Cⁱ) = m´ın_p∈C

i,q∈Cj

j /=i

δ(p, q) Separaci´on

Cuadro 1.1: Criterios de bondad de un cluster C de un clustering C = {C1, . . . , C_k}, seg´un los describe Everitt [1].

Ejemplo 1.1 Dado un conjunto de datosX y k ∈ N, hallar el clustering C = {C¹, . . . , C_k} que minimice

c₁(C) = ∑

C∈C

h(C).

En el anterior ejemplo buscamos un clustering de tamaño k de clusters altamente homogéneos. Existe una descripción famosa del problema que sigue este formato, conocida como el clustering the k medias:

Ejemplo 1.2 Dado un conjunto de datos x1, . . . , x_n∈ R^d y k∈ N, hallar el clustering C = {C¹, . . . , C_k} que minimice la suma interna de cuadrados en los clusters. Esta est´a dada por

c₂(C) = ∑

C∈ C ∑

x∈ C

∥x − µ^C∥², donde µC es el promedio de los puntos de C.

En este la medida de heterogeneidad h(C) es la suma de cuadrados interna de cada cluster. Tambi´en es posible formular criterios que tengan en cuenta tanto la homogeneidad como la separaci´on de los clusters.

Ejemplo 1.3 Dado un conjunto de datos X y α, β ∈ R^≥0, hallar el clustering C = {C¹, . . . , C_k} que minimice

c₃(C) = α m´ax

i=1,...,kh(Cⁱ) − β m´ın

i=1,...,ks(Cⁱ).

(10)

1.1.2. Identificaci´on de subpoblaciones

Desde esta perspectiva, el problema de análisis de clusters consiste en identificar las clases naturales de individuos en la población de la cual provienen los datos, si es que estas existen [12]. Siguiendo este paradigma, Meil˘a y Heckerman [8] presentan el problema de an´alisis de clusters mediante su modelo de clustering, en el cu´al, si X se compone de observaciones de la variable aleatoria X, la distribución de esta

´

ultima es de la forma

P(X ∈ A) =∑^k

i=1

λ_iP(X ∈ A∣clase = i) (1.1.1)

k

∑i=1

λi= 1 , λⁱ> 0.

El problema se describe entonces como, dada la muestra X , encontrar el modelo (número de clases y distribución de cada una) que mejor se acomode a la muestra según algún criterio. En el siguiente ejemplo veremos una instancia de este problema, tomado del libro de Duda [10].

Ejemplo 1.4 Suponga que la muestra X proviene de la densidad mezclada p_X(x, ⃗θ) =∑^k

i=1

p_X(x∣ci, θ_i)P(ci) acerca de la cual:

Conocemos el n´umero de clases y la probabilidad P(cⁱ) de pertenencia a cada clase.

Conocemos la forma de cada funci´on de densidad pX(x∣ci, θ_i), dependiente de c_i y θi.

No conocemos ninguno de los par´ametros θi.

Estime el vector de parámetros ⃗θ. Una aproximaci´on natural a este problema es buscar el vector de parámetros ⃗θ que maximiza la función de verosimilitud de los datos.

En muchas aplicaciones del an´alisis de clustering, definir a priori la forma de la distribuci´on de cada clase, como se hace en el ejemplo anterior, puede no ser factible.

(11)

Sin embargo, de no imponer restricciones sobre las distribuciones P(X ∈ A∣clase = i), las soluciones que encontremos para el problema de clustering (según lo plantea Meil˘a) son vulnerables al sobreajuste. Suponga, por ejemplo, que seleccionamos cualquier partición C1, . . . , C_kdeX y, para cada Cⁱ, declaramos que este corresponde a los representantes de una clase (es un cluster). Luego afirmamos que la distribución de esta clase es la distribución muestral de Ci. Bajo muchos criterios, incluyendo la máxima verosimilitud, el modelo se ajusta mejor a los datos que cualquier modelo con densidades continuas. Sin embargo, esta metodolog´ıa no describirá una estructura presente en la distribución de los datos en casi ningún caso.

Una forma de restringir estas distribuciones es exigirles cierto tipo de suavidad.

Teniendo esto en cuenta, la optimización de criterios de homogeneidad y separación se puede ver como una heur´ıstica para encontrar las subpoblaciones presentes en una muestra. En este caso nos limitar´ıamos a la búsqueda de subpoblaciones unimodales y bien separadas entre si.

1.1.3. El problema de plantear el problema

En la mayor´ıa de sus aplicaciones por fuera de las matemáticas, un investigador aplica el análisis de clusters para ganar alguna intuición útil sobre un conjunto de datos. Sin embargo, puede ser imposible dar una noción general de lo que un investigador considere útil. Por esta razón, varios autores coinciden en que una definición formal del análisis de clusters no vendr´ıa al caso. Bonner [2], por ejemplo, considera que una concepci´on de cluster o de clustering es buena si produce una respuesta valiosa para un investigador.

Hemos visto varios ejemplos de cómo plantear matem´aticamente un problema de análisis de clustering. Sin embargo, en cualquier contexto de aplicación, una de las dificultades principales es precisamente especificar un problema matemático de análisis de clusters cuya solución sea subjetivamente valiosa para el investigador.

En este sentido se podr´ıa decir que el problema de análisis de clusters consiste en primero plantear el problema matemáticamente, y después resolverlo.

(12)

1.2. Clasificaci´on del an´alisis de clusters 6

1.2. Clasificaci´on del an´alisis de clusters

El análisis de clusters pertenece a la categor´ıa de aprendizaje no supervisado. En este tipo de problema se busca describir la estructura de un conjunto de datos que no cuentan con una clasificación. Otros ejemplos de esta son el análisis de componentes principales (PCA) y el aprendizaje por refuerzo (mejor conocido como reinforcement learning).

También guarda una relación con el problema de clasificación estad´ıstica, pues un clustering puede verse también como una clasificación de los datos. Sin embargo es importante tener en cuenta que una población puede tener muchas subclasificaciones relevantes. Por ejemplo, una población de personas se puede clasificar según su etnicidad, grupo de edad, nivel de ingreso económico, etc. Por esta razón, juzgar la calidad de un clustering mediante una clasificación preexistente en los datos no siempre es apropiado.

1.3. Algoritmos Cl´asicos

En esta sección discutimos algunos algoritmos clásicos de clustering. Recuerde que X es un multiconjunto de datos en R^d de tamaño n (contando multiplicidades).

1.3.1. Algoritmos jer´arquicos

Se trata de una familia de algoritmos que generan iterativamente una secuencia de clusterings C¹, . . . ,Cⁿ de X donde C^k se obtiene de C^k+1 al unir dos de sus elementos ∀k = 1, . . . , m − 1. En particular C¹ = {X } y Cⁿ = {{x} ∶ x ∈ X }. Estos buscan optimizar heur´ısticamente medidas de homogeneidad y separación en los clusterings resultantes mediante algoritmos greedy, los cuales se caracterizan por tomar desiciones localmente óptimas en la búsqueda de un óptimo global. En el caso de los algoritmos jerárquicos estas desiciones locales pueden ser aglomerar dos clusters o dividir uno en dos, con la expectativa de al final obtener un clustering que maximice alguna medida globalmente.

Esta categor´ıa se subdivide en m´etodos aglomerativos y divisivos:

(13)

1.3. Algoritmos Cl´asicos 7

Algoritmo aglomerativo

Aglomera puntos cercanos deX sucesivamente según alguna noción de distancia entre clusters D ∶ 2^X × 2^X → R (no necesariamente es una métrica). El siguiente algoritmo fue tomado del libro de Härdle [12]:

1. Inicialmente declarar que cada observaci´on enX es un cluster de un elemento.

Se obtiene un primer clustering C de X .

2. Calcular la distancia D entre cada par de clusters en C.

3. Encontrar dos clusters con la menor distancia D y juntarlos.

4. Iterar sobre los pasos 2, 3 y 4 hasta haber combinado todas las observaciones en un solo cluster.

La mayor´ıa de distancias entre clusters D en la literatura provienen de una distancia entre puntos δ ∶ R^d× R^d → R. Esta, a su vez, suele tomarse como la distancia euclidiana. Sean C1, C₂∈ 2^X, algunas formas comunes de definir D, vistas en el libro de Everitt [1], son:

Single linkage: D(C1, C₂) = m´ın{δ(x, y) ∶ x ∈ C1, y∈ C2}.

Complete linkage: D(C¹, C₂) = m´ax{δ(x, y) ∶ x ∈ C¹, y∈ C²}.

Average linkage: D(C¹, C2) =_∣C₁¹_∣∣C₂∣∑^x∈C¹^,y∈C²δ(x, y).

Centroid: Podemos definir el centroide de Ci como µ(Cⁱ) = ∣C¹i∣∑^x∈Cix. A partir de esto definimos D(C¹, C2) = δ(µ(C¹), µ(C²)).

Median: D(C¹, C₂) = δ(c(C¹), c(C²)) donde c se define as´ı: Si en una iteraci´on unimos C1 y C2 para formar C3, entonces c(C³) = ^c(C¹^)+c(C2 ²⁾. Para un singleton definimos c({x}) = x. Esto previene que los elementos del cluster m´as numeroso entre C1 y C2 dominen a los elementos del otro.

(14)

Algoritmos divisivos

Los algoritmos divisivos proceden en el orden contrario; dividiendo un elemento de la actual partición deX en dos en cada iteración. No discutimos ningún algoritmo divisivo pues son poco comunes en la literatura.

Dendrogramas

El procedimiento habitual tras la ejecución de estos algoritmos es visualizar la estructura jerárquica de particiones resultante. Esto es posible mediante un dendrograma; un diagrama en forma de árbol que muestra cada aglomeración o división realizada durante la ejecución y el valor de D entre los clusters aglomerados, lo cual se conoce como su altura.

A modo de ejemplo presentamos los dendrogramas obtenidos al aplicar los algoritmos de single, average y complete linkage a un conjunto de datos cuyos primeros 10 elementos son observaciones de la distribución normal estándar y los siguientes 10 de la normal con media 3 y desviación estándar 5.

Figura 1.1: Dendrogramas del clustering de la base de datos simulada obtenidos a partir de single, average y complete linkage.

El comportamiento observado en los dendrogramas es el t´ıpico al comparar estos algoritmos. En single linkage los clusters grandes tienden a unirse r´apidamente y

(15)

los puntos más lejanos son aislados hasta el final. Esto nos impide identificar las dos poblaciones presentes en el conjunto de datos, pero puede ser útil para identificar datos aislados o outliers. Complete linkage favorece clusters de tama˜no similar en cada partición. Average linkage es un punto intermedio entre single y complete linkage en cuanto al tamaño relativo de los clusters que se forman.

Selecci´on de una partici´on

El clustering jer´arquico resulta en una estructura de varias particiones, de las cuales nos interesa elegir una por como hemos planteado el problema de clustering.

En la sección 1.4 discutiremos algunos métodos formales para determinar el número de clusters que existe en la muestra. Ahora veremos cómo utilizar el dendrograma informalmente para este propósito.

Esta técnica consiste en identificar las l´ıneas verticales más largas en el dendrograma, y declarar que lo que hay debajo de cada una es un cluster. La longitud de cada vertical representa el cambio de altura entre la aglomeración que conformó a un cluster y la que lo unir´ıa a otro. Entonces una vertical larga indica que la siguiente aglomeración de un cluster (los elementos debajo de la linea) implicó una pérdida de cohesividad relativamente mayor a las aglomeraciones que lo conformaron.

Para ejemplificar este proceso simulamos un conjunto de 40 datos provenientes de distrubuciones normales de varianza 1, la mitad con media 0 y la otra mitad con media 50. La figura 1.2 muestra el dendrograma obtenido de la ejecución de complete linkage sobre estos datos. Note que los cambios de altura asociados a las aglomeraciones de cada submuestra son pequeños con respecto al cambio de altura asociado a la aglomeración de las dos, lo cual ocurre en el último paso.

Esto nos indica que en la penúltima iteración del algoritmo quedaban dos clusters internamente cohesivos y mutuamente separados, lo cual como vimos es un criterio común en el análisis de clusters.

1.3.2. Clustering the k medias

Este término se utiliza para referirse tanto a un problema de análisis de clustering, como a su solución heur´ıstica más conocida. En este problema, buscamos un

(16)

Figura 1.2: Dendrograma de la ejecuci´on de complete linkage sobre un conjunto de datos de distribuci´on normal, la mitad con media 0 y la otra con media 50.

clustering C de X que minimice la suma interna de cuadrados de cada cluster, es decir, buscamos

arg m´ın

∣C∣=k ∑

C∈C∑

x∈C

∥x − µ^C∥².

Como antes, µC es el promedio de las observaciones del cluster C. Este problema es NP-complejo, sin embargo se han planteado algoritmos heur´ısticos de complejidad computacional razonable. El algoritmo estándar se conoce como el algoritmo de k medias. En este, los clusters Ci ∈ C son representados por sus medias µ^C. Dado un conjunto inicial de centroides m1, . . . , m_k, el algoritmo consiste en la iteración de un paso de asignación, seguido de un paso de actualización, hasta alcanzar la convergencia:

Paso de asignaci´on: Asignar cada x∈ X al cluster cuyo centroide se encuentra a menor distancia euclidiana de x.

Paso de actualizaci´on: Calcular el promedio de cada cluster y actualizar los centroides con estos valores, es decir, mi ← µ^Ci.

Consideramos que el algoritmo ha convergido cuando las nuevas asignaciones no cambian el conjunto de centroides. En cuanto a la elección inicial del conjunto de centroides, los métodos más comunes son la elección aleatoria de k elementos deX , y la partición aleatoria deX en k clusters, seguida de un paso inicial de actualización.

(17)

1.4. Determinaci´on del n´umero de clusters 11

1.4. Determinaci´on del n´umero de clusters

En muchas de las aplicaciones del análisis de clusters, no se tiene una preferencia sobre el tamaño k que debe tener el clustering resultante. Existen métodos formales e informales de selección del parámetro k, comenzaremos por uno informal.

Si contamos con un algoritmo de clustering que tiene a k como parámetro, una estrategia razonable es obtener clusterings de varios tamaños (por ejemplo a través del método de k-medias) y compararlos según alguna medida de homogeneidad. Sin embargo, la gran mayor´ıa de medidas de homogeneidad disponibles en la literatura decrecen trivialmente a medida que incrementamos k; mientras más clusters podamos formar, mayor será la homogeneidad interna de cada uno. La figura 1.3 ejemplifica este fenómeno en la aplicación del algoritmo de k-medias.

Figura 1.3: Suma interna de cuadrados total en el resultado del algoritmo de k- medias. Los datos corresponden a una mezcla de 4 distribuciones normales con medias 10, 20, 30 y 40.

El conjunto de datos que corresponde a esta figura es una mezcla de 4 distribuciones normales. En esta, note que la disminución en la suma interna de cuadrados al aumentar k en 1 se hace muy pequeña para k ≥ 4. Esto implica que los clusters obtenidos no se hacen mucho más homogéneos de lo que ya eran al aumentar k más

(18)

1.4. Determinaci´on del n´umero de clusters 12

allá de 4, y por lo tanto sugiere la selección informal de k= 4. Podemos aplicar este método siempre que contemos con una medida de homogeneidad bien adaptada al problema en cuestión.

En cuanto a métodos formales de selección de k, Milligan y Copper [9] realizaron un extenso análisis comparativo, incluyendo 30 procedimientos diferentes. La mayor´ıa de estos son aplicables únicamente si los datos toman valores continuos. Ya que este trabajo está dirigido al clustering de datos con atributos categóricos, presentaremos el ´ındice con el mejor desempeño según el estudio de Milligan y Copper que además es aplicable a este tipo de datos.

El ´ındice Gamma de Baker-Hubert se basa en el ordenamiento de las similia- ridades entre cada par de puntos en el conjunto de datos. Este se define, para un clustering C de un conjunto de datos X dada una medida de similaridad entre datos s. Sea ⃗a el vector de similaridades sij entre parejas de datos en X . Un segundo vector ⃗b es un vector binario de la misma longitud de ⃗a tal que, en la coordenada que corresponde al par (i, j) de datos, este es 1 si los datos pertenecen al mismo cluster enC, y 0 de lo contrario.

Definici´on 1.2 Sean ⃗a y ⃗b dos vectores de igual longitud. Para dos ´ındices i y j, decimos que(i, j) son concordantes si ai < aj∧bi< bj, o discordante si ai< aj∧bi > bj. En otras palabras, C cuenta el n´umero de ocasiones en las cuales una pareja de datos del mismo cluster en C es m´as similar que una pareja de diferentes clusters.

Análogamente, D cuenta en número de ocasiones en las cuales dos datos de diferentes clusters son más similares entre si que dos que están en el mismo cluster. Ya que es deseable un clustering en el cual el mayor grado de similaridad se encuentra entre parejas de datos del mismo cluster, es quisieramos que C sea grande con respecto a D.

Definici´on 1.3 Sean⃗a y ⃗b vectores como los describimos anteriormente (⃗a es el vector de similaridades, . . . ). Sea C el n´umero de pares de ´ındices concordantes entre ⃗a y

⃗b, y D el n´umero de pares discordantes. El ´ındice de Gamma de Baker-Hubert del clustering C y la medida s est´a dado por

Γ(C, s) = C− D C+ D.

(19)

1.5. Medidas de similaridad de datos categ´oricos 13

Este ´ındice toma valores en [−1, 1]. Su valor máximo corresponde a la situación en la cual la similaridad entre cualquier pareja de puntos de un mismo cluster es mayor a la de cualquier pareja de puntos de clusters diferentes. Para utilizarlo como regla de desición del parámetro k (el número de clusters presentes en un conjunto de datos), primero obtenemos el clustering optimo para varios tamaños∣C^j∣ = j. Luego seleccionamos k como

arg m´ın

j Γ(C^j, s).

1.5. Medidas de similaridad de datos categ´oricos

La gran mayor´ıa de los métodos de clustering disponibles en la literatura parten de una noción de similaridad entre las observaciones enX . De modo que contar con una que refleje la similaridad intuitiva entre dos datos juega un papel fundamental en el análisis de clustering, considerando que queremos que los clusters resultantes sean intuitivamente similares internamente.

En una proporción considerable de las aplicaciones del análisis de clusters, el conjunto de observaciones se compone de vectores de variables categóricas. El siguiente ejemplo busca ilustrar la importancia de elegir una noción de similaridad bien adaptada a las caracter´ısticas de los datos, en lugar de utilizar la distancia euclidiana por defecto.

Ejemplo 1.5 Suponga que las observaciones deX ⊂ {0, 1}³ corresponden a los pro- ductos comprados por los clientes de un supermercado que ofrece tres productos, donde un 1 en la coordenada i significa que el cliente adquiri´o el producto i. Con- sidere las observaciones x= (1, 0, 0), y = (0, 0, 1), u = (1, 1, 0) y v = (0, 1, 1). Si d es la distancia euclidiana tendremos que

d(x, y) = d(u, v) =√ 2.

Sin embargo, las transacciones u y v tienen un producto en com´un, mientras que x y y no tienen nada en com´un. De modo que, intuitivamente, dir´ıamos que u y v son m´as similares entre si que x y y, lo cual no es reflejado por la distancia d.

(20)

Una variable categórica X de c categor´ıas se puede expresar como un vector binario X^b ∈ {0, 1}^c, donde X_i^b = 1 ⇐⇒ X = i. Por esta razón restringiremos esta discusión a vectores binarios. Sean x y y vectores binarios de dimensión n.

Para este tipo de datos, tal vez el factor m´as importante que diferencia a una medida de similaridad de otra es el efecto de las coincidencias xi = yⁱ = 0. Por ejemplo, en el contexto de las transacciones de un supermercado que ofrece miles de productos, que dos transacciones coincidan en la no compra de un producto (xi = y_i = 0) no las hace tan similares como la coincidencia en una compra (xⁱ= yⁱ = 1). En cambio, si los datos representan una encuesta de preguntas de respuesta positiva o negativa, es razonable que cualquier coincidencia, sea negativa o positiva, tenga el mismo peso sobre el nivel de similaridad.

Por lo discutido anteriormente, las medidas de similaridad presentadas en el cuadro 1.2 se expresan en t´erminos de los siguientes conteos:

a es el n´umero de ´ındices i tales que xi = yⁱ = 1.

b es el n´umero de ´ındices i tales que xⁱ= 1 ∧ yⁱ= 0.

c es el n´umero de ´ındices i tales que xi= 0 ∧ yi= 1.

d es el n´umero de ´ındices i tales que xi = yⁱ= 0.

Medida F´ormula

S1: Coeficiente de coincidencia (a + d)/(a + b + c + d) S2: Coeficiente de Jaccard a/(a + b + c)

S3: Rogers y Tanimoto (a + d)/[a + 2(b + c) + d]

S4: Sneath y Sokal a/[a + 2(b + c)]

Cuadro 1.2: Medidas de similaridad entre datos binarios descritas por Everitt [1].

El coeficiente de coincidencia describe la proporci´on de coincidencias sobre el n´umero total de bits. Es aplicable cuando la ausencia de un bit en x y y es tan informativa como su presencia en ambos, como en el caso de la encuesta. El coeficiente de Jaccard, en cambio, no considera informativas las mutuas ausencias de un bit. Este

(21)

ser´ıa m´as apropiado para datos como los del supermercado. Podemos enunciar este coeficiente de forma intuitiva si consideramos a x y y como subconjuntos A y B de {1, . . . , n}, donde i ∈ A ⇐⇒ xi = 1 y B se define an´alogamente. Entonces podemos escribir el coeficiente de Jaccard como

J(x, y) = ∣A∩ B∣

∣A ∪ B∣.

Las medidas S3 y S4 son muy similares a S1 y S2, respectivamente. Sin embargo estas dan un peso mayor a las no coincidencias. Como estos, existen muchos coeficientes que asignan diferentes pesos a las coincidencias y no coincidencias, siguiendo las necesidades de los diferentes contextos de aplicación del análisis de clusters. En la secci´on ?? veremos una ´ultima medida de similaridad entre datos ca- tegóricos, en la cual no solo son relevantes los dos puntos en cuestión, sino también sus vecindades.

(22)

Cap´ıtulo 2

ROCK: Un algoritmo robusto de clustering de datos categ´ oricos

En este cap´ıtulo presentamos el algoritmo de clustering de datos categóricos ROCK (A Robust Clustering Algorithm for Categorical Attributes), desarrollado por Sudipto Guha, Rajeev Rastogi y Kyuseok Shim [11]. Este es de particular interés pues, además de ser reciente, se apoya en la idea intuitiva de considerar la inter- sección entre las vecindades de dos puntos para medir su similaridad. Esta idea, además, ha sido aplicada con gran éxito fuera del análisis de clustering, por ejemplo en la identificación de la dimensionalidad intr´ınseca de un conjunto de datos [3] y como aproximación al problema de dos muestras [6].

Este algoritmo fue diseñado para tratar el problema de clustering de canastas de mercado, el cual podemos enunciar de la siguiente manera: Sea X un conjunto de datos en {0, 1}^M. Llamaremos transacciones a estas observaciones, y diremos que x∈ X contiene al i-ésimo producto si y solo si xⁱ = 1. De modo que podemos ver cada transacción como un vector en {0, 1}^M o como un conjunto de productos. Queremos obtener un clustering informativo de este multiconjunto de observaciones.

Como vimos en la sección 1.1.3, el primer paso es definir un problema matemático que se ajuste a nuestra intuición de lo que podr´ıa ser un buen clustering de las transacciones de un supermercado. ROCK, en particular, es una heur´ıstica de maxi- mización de un criterio de homogeneidad y mutua separacion de los clusters en C, el cual presentaremos en la sección 2.2.2.

(23)

2.1. Modelos de clusters de canastas de mercado 17

2.1. Modelos de clusters de canastas de mercado

Como lo hace Guha [11], un tipo razonable de cluster que podr´ıamos buscar en el contexto de canastas de mercado es un conjunto de transacciones C cuyos productos se tomaron aleatoriamente de un subconjunto de tamaño m≤ M del conjunto de todos los productos disponibles. Este modelo de cluster es congruente con la concepci´on probabil´ıstica del análisis de clusters vista en la sección 1.1.2, pues describe (aunque incompletamente) la distribución de una subpoblación. En esta sección planteamos tres modelos simples pero razonables de dicha aleatoreidad. En cada uno de ellos, el cluster C se compone de observaciones iid de una variable aleatoria T . Dado su tamaño ∣T∣ = t ≤ m, T se distribuye uniformemente sobre todos los subconjuntos de tamaño t del conjunto de m productos que define a C. En cada uno de los modelos asumiremos que cada transacción tiene al menos un producto, pues no es razonable registrar una compra vac´ıa. En todos los casos E[∣T∣] = t.

Modelo con tama˜no de transaccion constante

El modelo más simple de este tipo es aquel en el cual todas las transacciones en C tienen un tamaño fijo 0< t ≤ m. Este es el modelo considerado por Guha en la construcción del algoritmo ROCK [11].

Modelo con tama˜no de transacci´on binomial

En este modelo, el tamaño de cada transacción tiene una distribución binomial (pero no permitimos transacciones vac´ıas) con m ensayos, cada uno con probabilidad t/m de éxito, independiente de los demás. La lógica detrás de este modelo es que cada uno de los m productos que definen a C tiene una probabilidad igual de ser inclu´ıda en la transacción T , independientemente de los demás productos y bajo la condición de que al menos un producto sea inclu´ıdo en la canasta.

Modelo con tama˜no de transacci´on Poisson

En este ´ultimo modelo concebimos a T como el resultado de un proceso de compra durante el cual un cliente atraviesa un supermercado, y en cada instante

(24)

2.2. Caracterizaci´on de homogeneidad y separaci´on 18

tiene una probabilidad infinitesimal de encontrar un producto que quiere a˜nadir a su canasta, permaneciendo en el supermercado por un tiempo fijo para todos los clientes.

Entonces∣T∣ tiene una distribución de Poisson con media t, sujeta a 0 < ∣T∣ ≤ m. Por esta razón definimos la distribución de ∣T∣ por

P(∣T∣ = k) =⎧⎪⎪⎪⎪

⎨⎪⎪⎪⎪⎩

0 k /∈ N ∨ k = 0 ∨ k > m

P (P oisson(t)=k)

P (P oisson(t)>m)+P (P oisson(t)=0) 0< k ≤ m

.

En las siguientes secciones discutiremos el algoritmo ROCK de clustering de datos categ´oricos.

2.2. Caracterizaci´on de homogeneidad y separaci´on

Queremos construir un algoritmo de clustering basado en un criterio de homogeneidad y separación de un cluster que refleje nuestra intuición acerca de la bondad de un clustering en el contexto de canastas de mercado. Como vimos en la sección 1.1.1, estos suelen definirse a partir de una medida de similaridad entre datos.

2.2.1. El n´umero de enlaces

Comenzaremos por definir una medida de similaridad bien adaptado al contexto del problema. Sean x, y∈ {0, 1}^M dos transacciones. Según vimos en la sección 1.5, debemos considerar la relevancia de las coincidencias xi = yⁱ = 0. Un supermercado ofrece una enorme variedad de productos, por lo cual es de esperarse que el ta- maño de las transacciones sea muy pequeño con relación al número de productos M . Entonces para cualquier par de transacciones tendremos un gran número de coincidencias de este tipo, lo cual indica que estas no son muy informativas y por lo tanto no debemos tenerlas en cuenta. Esto descarta a las medidas S1 y S3 de la sección 1.5.

Por otro lado, dos clientes con patrones muy similares de compra pueden haber adquirido conjuntos pequeños de productos sin intersección, pero que pertenecen a una clase de productos que definen un patrón de compra. Veamos un ejemplo de esta situación.

(25)

Ejemplo 2.1 Suponga que el producto 1 es un jab´on y el producto 2 es un shampoo, y que x = (1, 0, . . . , 0) y y = (0, 1, 0, . . . , 0). Suponga, además, que el conjunto de datos contiene un gran número de transacciones z1 = ⋅ ⋅ ⋅ = zN = (1, 1, 0, . . . , 0). Por virtud de las transacciones zi, es razonable pensar que x y y son representantes de un patrón de compra de elementos de aseo personal, a pesar de que x∩ y = ∅.

Para capturar este tipo de asociación entre datos, Guha [11] formuló el concepto de número de enlaces o número de links. En la siguiente definición, recuerde que los datos enX están en {0, 1}^M.

Definici´on 2.1 Considere una medida de similaridad entre datos binarios sim ∶ {0, 1}^M × {0, 1}^M → [0, 1] y θ ∈ [0, 1]. Decimos que el dato x es un vecino de y, lo cual denotaremos por x∼ y, si

sim(x, y) ≥ θ.

Definimos el n´umero de enlaces entre x y y como su n´umero de vecinos en com´un en el conjunto total de datosX :

links(x, y) = #{z ∈ X ∣ x ∼ z ∧ y ∼ z}.

Definici´on 2.2 Para C ⊂ X , definimos su n´umero interno de enlaces por links(C) = ∑

(x,y)∈C²

links(x, y).

En la anterior definición, note que, ya que x ∈ X es vecino de si mismo en todas las definiciones razonables de sim, x tiene un enlace con si mismo, a través de si mismo. Entonces links(C) ≥ ∣C∣. Para datos de canasta de mercado, tomaremos el coeficiente de Jaccard descrito en la sección 1.5 como medida de similaridad:

sim(x, y) = J(x, y) = ∣x∩ y∣

∣x ∪ y∣.

Esta elección se debe a que el coeficiente de Jaccard ignora las coincidencias xi = y_i = 0, las cuales vimos que no suelen ser informativas para datos de canastas de mercado. A continuación definiremos un criterio de homogeneidad para un clustering C basado en el número interno de enlaces de cada cluster.

(26)

2.2.2. Criterio de bondad de un clustering

Sea C un clustering de X . La función criterio descrita por Guha [11] para el problema en cuesión está dada por

E_l= ∑

C∈ C

n_Clinks(C)

n^{1+2f (θ)}_C , (2.2.1)

donde nC = ∣C∣. Analicemos este criterio. Comenzamos por sumar el número de links internos de cada cluster, pues queremos una alta conectividad entre los puntos de cada uno. Esta suma es máxima si agrupamos todos los puntos en un solo cluster, por lo cual normalizamos cada término links(C) por n^{1+2f (θ)}C . Este término es una aproximación gruesa del valor esperado de links(C), dado que C es un cluster ho- mogéneo y bien separado de los demás. En adelante denotaremos esta esperanza por E[links(C)]. En la siguiente sección explicaremos la derivación de esta aproxi- mación. Finalmente, multiplicamos cada término por nC para favorecer la formación de clusters grandes, los cuales suelen ser más informativos.

2.2.3. Aproximaci´on de E[links(C)]

En esta sección discutimos la aproximación E[links(C)] ≈ n^{1+2f (θ)}C según aparece en [11], la cual se basa en nociones intuitivas de homogeneidad y separación en cuanto al número de enlaces en C. Suponga que existe una función f(θ), dependiente del tipo de clusters que buscamos, tal que cada punto de un cluster homogéneo C tiene aproximadamente n^{f (θ)}_C vecinos en C (en un cluster no homogéneo este número será menor con relación a nC). Si, además, C está bien separado de los demás clusters, podemos asumir que existen pocos enlaces entre dos puntos de C que pasan por un punto fuera de este conjunto. Entonces cada punto de C contribuye n^{2f (θ)}_C enlaces a través de si mismo al número total de enlaces internos, uno por cada pareja de sus vecinos. Sumamos esta cantidad para cada uno de los puntos de C para obtener E[links(C)] ≈ n^{1+2f (θ)}C .

Una derivaci´on informal de f(θ)

Guha [11] presenta una posible derivaci´on de f(θ), la cual buscaremos contro- vertir. Esta se obtiene al asumir que todas las transacciones en C son del mismo

(27)

2.3. Algoritmo aglomerativo 21

tama˜no t, y se distribuyen uniformemente entre m productos que definen al cluster C. El autor comienza por afirmar que existe una constante c≤ 1 tal que n^C ≈ (^mct).

Sin embargo, para que el coeficiente binomial tenga sentido, debe ser el caso que mc∈ N. Para mc grande, aún la m´ınima variación de c tal que mc^′ ∈ N causa una gran variación de (^mc_t), de modo que muy probablemente no exista dicho c para nC

y t dados. La tabla 2.1 busca ilustrar este fen´omeno.

mc=16, t=5 mc=15, t=10 mc=25, t=20 (¹⁶₅) = 4368 (¹⁵₁₀) = 3003 (²⁵₂₀) = 53130 (¹⁵5) = 3003 (¹⁴10) = 1001 (²⁴20) = 10626 (¹⁴₅) = 2002 (¹³₁₀) = 286 (²³₂₀) = 1771 (¹³5) = 1287 (¹²10) = 66 (²²20) = 231

Cuadro 2.1: Impacto de la variaci´on de c en (^mc_t ) para ciertos valores de mc y t.

Observe, por ejemplo, que entre(²⁵20) y (²⁴20) hay una diferencia de m´as de 40000.

De modo que si t= 20 y nC = 30000, no es posible afirmar que existe c tal que (^mc_t) aproxima a nC para alg´un m. Luego, el autor utiliza otras aproximaciones gruesas para concluir que, si C sigue el modelo de cluster descrito, cada punto de C tiene

≈ nC^1−θ^1+θ vecinos en C, de donde se obtiene que f(θ) = ^1−θ1+θ.

De modo que, hasta el momento, queda por resolver el problema de cómo encontrar una función f(θ) que tenga la caracter´ıstica de aproximación deseada (para un cluster homogéneo y bien separado de los demás, E[links(C)] ≈ n^{1+2f (θ)}C ). En la sección 2.4.1 exploraremos experimentalmente si en realidad existe una función como esta para los modelos de cluster presentados en la sección 2.1.

2.3. Algoritmo aglomerativo

El algoritmo ROCK es un algoritmo jerárquico que busca, heur´ısticamente, un clustering deX con un alto valor del criterio E^l. Con este propósito, en cada iteración aglomeramos dos clusters con un gran número de enlaces entre puntos en cada uno.

Definici´on 2.3 Sean C1, C₂ dos clusters de un clustering deX . Definimos su n´umero