ALGORITMO DE AGRUPAMIENTO - Agrupamiento de artículos científicos con formato semiestructurado

El algoritmo de agrupamiento (SemClustDML) que se utilizará para obtener los grupos de documentos afines se basa en la matriz de similitud SimRefBib.

Algoritmo 2. Algoritmo de agrupamiento SemClustDML

Entrada: Matriz de similitud SimRefBib, Conjunto de n

documentos (𝐷 = {𝑑1, 𝑑2, … , 𝑑𝑛}), longitud mínima de cada

cluster 𝑙, 𝑣 cantidad de elementos aleatorios a

seleccionar para comprobar si los clusters son

agrupables.

Salida: Lista de clusters formados (𝐶)

Paso 1. Estimación del umbral de similitud

Paso 2. Búsqueda de los centroides iniciales: 𝐶 = {𝑑1, 𝑑2, … , 𝑑𝑘}, 𝑘 ≤ 𝑛, donde cada 𝑑𝑖 se considera un nuevo

cluster 𝑐.

Paso 3. Asignación de cada documento 𝑑𝑖 ∉ 𝐶 al 𝑐𝑗

correspondiente.

Paso 4. Si 𝑐𝑢𝑝 ← ⋃𝑔,ℎ=1𝑘 𝑐𝑎𝑝(𝑐𝑔, 𝑐ℎ)= ∅, donde 𝑐𝑎𝑝 = 𝑐𝑔∩ 𝑐ℎ,

entonces ir al paso 6.

Paso 5. Determinar para cada 𝑑𝑖 ∈ 𝑐𝑎𝑝(𝑐𝑔, 𝑐ℎ) ≠ ∅, el 𝑐𝑗

correspondiente, donde 𝑠𝑖𝑚 ←∑ 𝑆𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑑𝑖,𝑐𝑗𝑟)

𝑚 𝑟=1

𝑚 es máxima, 𝑚

cantidad de elementos en 𝑐_𝑗. Ir paso 4.

Paso 6. ∀𝑑𝑖 ∉ 𝐶, 𝑐𝑗← (𝑐𝑗∪ 𝑑𝑖), donde 𝑠𝑖𝑚 ←

∑𝑚𝑟=1𝑆𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑑𝑖,𝑐𝑗𝑟)

𝑚 es

máxima.

Figura 2-3 Algoritmo de agrupamiento SemClustDML 2.3.1 Estimación del umbral de similitud

La estimación del umbral de similitud permite determinar la relación mínima de semejanza que debe existir entre un objeto y el centroide de un grupo i, para decidir incorporarlo o no como miembro de este. Sobre la base del cálculo de la similitud SimRefBib, se define una función booleana de semejanza de la siguiente manera:

Γ(𝑑_𝑘, 𝐶𝑔_𝑖) = {1, 𝑆𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑑𝑘, 𝐶𝑔𝑖) ≥ 𝛾 0, 𝑆𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑑𝑘, 𝐶𝑔𝑖) < 𝛾

(2.16) Donde γ es un parámetro numérico que funciona como una evaluación del umbral.

41 El umbral de similitud, en algunos casos, constituye una herramienta que tiene el usuario para hacer que el método se ajuste a sus requerimientos y características del problema (Arco, 2009). Algunos elementos importantes que influyen en la estimación del umbral son la variabilidad en la densidad de los grupos y la varianza y desviación estándar de las similitudes. La definición del criterio de semejanza debe estar basada en el conocimiento que se tenga al respecto del problema en concreto que se está tratando, para poder definir así el tipo de comportamiento entre los objetos a partir de sus semejanzas que resulte, según el problema en particular, significativo (Ruiz-Shulcloper, 1995). Para el caso de la similitud a partir de las referencias bibliográficas se obtiene una matriz con características especiales. Estas características especiales están dadas por el hecho de que para documentos que se suponen traten temas similares se obtienen valores de similitud mayor que cero pero para documentos que deben pertenecer a grupos diferentes en el agrupamiento se obtiene casi siempre como valor de semejanza cero. Si esta característica de la matriz se explota de una manera eficiente, se pueden lograr muy buenos resultados en el agrupamiento, es por ello que la selección correcta del umbral de similitud tiene suma importancia.

A continuación se exponen algunas variantes para el cálculo del umbral de similitud que requiere el algoritmo de agrupamiento propuesto. El cálculo en cada uno de los criterios se realiza a partir de la matriz de similitud y no se requiere información adicional del conjunto de datos que se procesa. Se considera m como la cantidad de objetos de la colección y s(Oi, Oj) el

valor de similitud entre los objetos Oi y Oj (Ruiz-Shulcloper, 1995).

1. La media de las similitudes entre todos los pares de objetos posibles; expresión 2.17:

𝑋̅ = 1 𝑚(𝑚 − 1)∑ ∑ 𝑠(𝑜𝑖 , 𝑜𝑗) 𝑛 𝑗=𝑖+1 𝑚−1 𝑖=1 (2.17)

2. La media de los valores máximos de las similitudes entre cualquier par de objetos; expresión 2.18: 𝑋̅𝑚𝑎𝑥 = 1 𝑚 ∑ i≠j max 𝑗=1..𝑚 [𝑠(𝑜𝑖 , 𝑜𝑗)] 𝑚−1 𝑖=1 (2.18)

42 3. La media de los valores mínimos de las similitudes entre cualquier par de objetos;

expresión 2.19: 𝑋̅𝑚𝑖𝑛= 1 𝑚 ∑ i≠j min 𝑗=1..𝑚 [𝑠(𝑜𝑖 , 𝑜𝑗)] 𝑚−1 𝑖=1 (2.19)

2.3.2 Búsqueda de los centroides iniciales

Los centroides iniciales van a ser aquellos elementos a partir de los cuales se van a formar los cluster preliminares. Dado que dos elementos que tengan similitud menor que γ/2, siendo γ el umbral de similitud que se define, difícilmente pertenecerán a un mismo cluster, el proceso de selección de los centroides iniciales se torna relativamente fácil y se convierte en la búsqueda de un grupo de elementos que tengan similitud menor que γ/2 tomados dos a dos. Si no se encuentra al menos un par de elementos cuya similitud sea menor que γ/2 el algoritmo devolverá un solo cluster formado por el conjunto de documentos de la colección.

2.3.3 Asignación de los elementos a los grupos

La asignación de cada elemento que no fue seleccionado como centroide a cada uno de los cluster es sencilla. Un elemento i pertenecerá a un cluster C si:

S𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑖, 𝐶𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑𝑒) ≥ γ (2.20)

Siendo 𝐶𝑐𝑒𝑛𝑡𝑟𝑜𝑖𝑑𝑒 el centroide del cluster C. 2.3.4 Grupos solapados

Definición 2.4 (Grupos solapados): Dos grupos 𝐶_𝑖, 𝐶_𝑗se dicen son solapados si 𝐶_𝑖∩ 𝐶_𝑗 ≠ ∅. Que un elemento supere el umbral de similitud con más de un centroide no es común dadas las características de la matriz, pero pudiera ocurrir; es por ello que se hace necesario calcular para cada par de clusters solapados, la pertenencia a cada uno de estos clusters de los

43 elementos que se encuentran en la intersección. La -pertenencia de un elemento i a un cluster 𝐶_𝑗 se define mediante la ecuación 2.21.

(𝑖, 𝐶_𝑗) = 1

𝑛∑ 𝑆𝑖𝑚𝑅𝑒𝑓𝐵𝑖𝑏(𝑖, 𝐶𝑗𝑘) 𝑛

𝑘=1

(2.21) En la ecuación anterior n indica la cantidad de elementos del cluster 𝐶𝑗.

2.3.5 Elementos sobrantes

Al calcular los centroides iniciales y asignar cada uno de los elementos restantes a estos centroides se tendrán algunos elementos que no superen el umbral con ninguno de los centroides, por lo cual no serán unidos a ningún grupo, estos son los llamados elementos sobrantes.

Una vez formados los grupos se calcula la -pertenencia de cada uno de estos elementos a cada uno de los clusters, el elemento será añadido al cluster para el cual se obtenga el mayor valor de pertenencia.

In document Agrupamiento de artículos científicos con formato semiestructurado basado en las referencias bibliográficas (página 49-52)