• No se han encontrado resultados

3.4 Una Aplicación para la Recomendación de Followees

4.1.2 Simetrización del Grafo

Una vez que las relaciones entre los nodos son encontradas y el grafo es construido, es posible analizar la naturaleza simétrica de las relaciones. En general, las relaciones sociales en el contexto de los medios sociales, así como en otros dominios, no son simétricas, es decir, el hecho de que un usuario siga a otro, no

implica que el segundo usuario corresponda a la relación. Por ejemplo, las relacionesfollowee/follower

enTwitteroInstagramno son recíprocas.

Mientras que las redes sociales presentan variados niveles de reciprocidad, la mayoría de las técni- cas de detección de comunidades se basan en el análisis de grafos no dirigidos (y quizás ponderados). Dichas técnicas ignoran la direccionalidad de los vínculos, causando la pérdida de la información de dicha direccionalidad, y por lo tanto no capturan con precisión la semántica de las relaciones asimétricas transmitidas por los arcos de una red dirigida (Malliaros and Vazirgiannis, 2013). En consecuencia, la semántica capturada por las técnicas que solo analizan relaciones no dirigidas difiere sustancialmente de la semántica de las relaciones dirigidas. Varios trabajos (Fortunato, 2010; Satuluri and Parthasarathy, 2011) han demostrado que la calidad de las comunidades encontradas puede ser mejorada tomando efec- tivamente en cuenta la direccionalidad de los arcos.

Para incluir efectivamente la direccionalidad de los arcos en el proceso de detección de comunida- des es posible aplicar dos enfoques. En primer lugar, redefinir las técnicas utilizadas para detectar las comunidades o para evaluar la calidad de las comunidades detectadas. Segundo, aplicar transformacio- nes al grafo dirigido para intentar retener la semántica original en un grafo no dirigido. Sin embargo, el desarrollo de técnicas para la detección de comunidades en grafos dirigido puede no ser una tarea fácil (Fortunato, 2010). Por ejemplo, un grafo dirigido se caracteriza por matrices asimétricas, lo que

4.1. DETECCIÓN DE COMUNIDADES BASADA EN INFORMACIÓN HETEROGÉNEA

Post1- Our prayers are with the missing

Nigerian girls and their families. It's time to

#BringBackOurGirls.

Post2- US military aircraft conduct strike

on ISIL artillery. Artillery was used against Kurdish forces defending Erbil, near US personnel. #stopTheWar #siria

#BringBackOurGirls

Post3- They stole the show at the

#Wimbledon& now they've taken the cake at the #USOpen! 2 grand slam titles on the trot!

Post4- Congratulations Novak Djokovic,

your#USOpenchampion Class Sports

Class Politics

Class Politics

Class Sports

(a) Datos Originales

Relations between posts: Social

Share Tag Share Class

Post1- Our prayers are with the missing Nigerian girls and their families. It's time to #BringBackOurGirls.

Post2- US military aircraft conduct strike on

ISIL artillery. Artillery was used against Kurdish forces defending Erbil, near US personnel. #stopTheWar #siria #BringBackOurGirls

Post3- They stole the show at the

#Wimbledon& now they've taken the cake at the #USOpen! 2 grand slam titles on the trot!

Post4- Congratulations Novak Djokovic, your

#USOpenchampion 1 1 1 1 1 0.33 0.5 1 1 1 1 (b) Relaciones Detectadas

Figura 4.1: Representación de Múltiples Relaciones en un Grafo

4.1. DETECCIÓN DE COMUNIDADES BASADA EN INFORMACIÓN HETEROGÉNEA

(a) Grafo Original

(b) Transformación Naïve (c) Simetrización Simple

(d) Simetrización Bibliométrica (e) Transformación Bipartita

Figura 4.2: Ejemplos de Transformación de Simetría de Grafos

conlleva a que el análisis espectral pueda ser más complejo. Por otra parte, aunque varios conceptos se encuentran teóricamente bien definidos para grafos no dirigidos (por ejemplo, densidad), no han sido ex- tendido a grafos dirigidos (Malliaros and Vazirgiannis, 2013). En consecuencia, solo unas pocas técnicas diseñadas para grafos no dirigidos pueden ser fácilmente extendidas para considerar grafos no dirigidos. Por otra parte, la transformación del grafo dirigido en un grafo no dirigido, es decir, la simetrización del grafo dirigido, permite emplear cualquiera de los algoritmos o métodos ya definidos para grafos no dirigidos. Esta evaluación explora varias de las estrategias de simetrización más comunes disponibles en la literatura, las cuales se describen a continuación.

Transformación Naïve

Esta transformación ignora la direccionalidad de los arcos y trata los grafos como si fuesen no dirigidos. Un ejemplo de aplicación de esta transformación a un grafo es presentado en la Figura 4.2b. Aunque este es un enfoque muy común para el tratamiento de grafos dirigidos, tiene varios inconvenientes que surgen del hecho de que la información representada por la dirección de los arcos es ignorada. En primer lugar, la existencia de la ambigüedad de los datos. Esta transformación puede introducir ambigüedades e información incorrecta en el grafo, la cual no representa la semántica subyacente de la red dirigida. Por

ejemplo, supóngase que el usuario Asigue al usuario B, peroBno corresponde a la relación. Usando

esta transformación cada arco dirigido es reemplazado por uno no dirigido, por lo que se introduce una

4.1. DETECCIÓN DE COMUNIDADES BASADA EN INFORMACIÓN HETEROGÉNEA

relación recíproca entre los usuarios A y B, lo que añade un arco que no existía en el grafo original.

Incluso cuando se puede argumentar que el nuevo arco no dirigido podría representar la similitud entre

los usuariosAyB, esto no siempre es válido para ambas direcciones. Por ejemplo, el usuarioBpodría

ser una celebridad, mientras queApodría ser solo un seguidor deB, por lo tanto la relación mutua y la

similitud podría no existir realmente. En segundo lugar, las desviaciones en la calidad de las comunidades encontradas. Incluso cuando las ambigüedades podrían ser ignoradas, todavía podrían afectar el resultado final del algoritmo de detección de comunidades. En este caso, las comunidades que existen en el grafo dirigido inicialmente podrían no ser identificadas en el grafo transformado, dando lugar a resultados diferentes. Esto podría deberse al hecho de que los arcos dirigidos forman patrones diferentes de flujo estructural y agrupaciones.

Transformación basada en Operaciones Aritméticas

En este tipo de transformaciones, el grafo dirigido se transforma en uno no dirigido, de forma tal que la información y semántica sobre la dirección de los arcos es capturada en el grafo resultante. Luego, es posible aplicar sobre estos grafos técnicas de detección de comunidades diseñadas para grafos no dirigidos. Satuluri and Parthasarathy (2011) analizaron y propusieron diversas técnicas para la transfor-

mación de grafos basadas en operaciones aritméticas que utilizan de la matriz de adyacenciaAdel grafo.

Particularmente, dos técnicas de simetrización son consideradas en este trabajo. En primer lugar, una

simetrización simple (representada en la Figura 4.2c) en la que la nueva matriz de adyacenciaU, es de-

finida comoU=A+AT. Esta estrategia es similar a ignorar la direccionalidad de los arcos, excepto que

en el caso en el que un par de nodos se encuentre conectado con arcos en ambas direcciones, el peso del arco en el grafo simétrico corresponderá a la suma del peso de los arcos dirigidos.

Se espera que el grafo simétrico incluya arcos entre nodos que comparten arcos similares, sin in- cluir arcos entre nodos que no compartan sus conexiones. Aunque la simetrización simple se utiliza comúnmente debido a su simplicidad, podría no ser capaz de crear arcos entre nodos que comparten conexiones pero no están directamente conectados, ya que solo conserva el mismo conjunto exacto de arcos encontrados en el grafo original. En este sentido, la segunda técnica de simetrización, denominada Simetrización Bibliométrica e ilustrada en la Figura 4.2d, ayuda a hacer frente a esa situación. En este

caso, la nueva matriz de adyacencia es definida comoU =AAT+ATA, dondeAAT cuenta la cantidad

de arcos salientes comunes entre cada par de nodos y ATA el número de arcos entrantes. Los autores

sugieren definirA=A+I antes de simetrizar el grafo para asegurar que los arcos en el grafo original no

sean eliminados.

Satuluri and Parthasarathy (2011) propusieron otra alternativa de simetrización más compleja ba- sada en la realización de diversas operaciones aritméticas entre matrices y la definición de múltiples parámetros. Como la complejidad de las operaciones aritméticas entre matrices (particularmente la de la multiplicación) es alta, las técnicas podrían no ser útiles con grafos de gran dimensionalidad, como los extraídos de los sitios de redes sociales. Asimismo, los parámetros pueden ser difíciles de definir adecuadamente en los dominios dinámicos. Teniendo en cuenta el dominio en el que se implementará la técnica de detección de comunidades, esta alternativa fue descartada para los fines de este trabajo.

Transformación Bipartita

Los grafos dirigidos pueden ser transformados en un grafo bipartito no dirigido (Guimerà et al, 2007) (Figura 4.2e). En el caso general, los nodos se colocan en cada partición según si tienen arcos salientes o entrantes. Particularmente, la primera partición de nodos contiene cada nodo que tiene arcos salientes, mientras que la segunda partición contiene cada nodo que tiene arcos entrantes. De acuerdo con la teoría de grafos (Brualdi et al, 1980), existe una correspondencia natural entre los grafos bipartitos y los grafos dirigidos, que pueden modelarse fácilmente mediante el uso de la matriz de adyacencia. Considérese la

matriz de adyacencia del grafo dirigidoA∈Rn×n, dondenrepresenta la cantidad de nodos en el grafo.

La matriz de adyacencia del grafo bipartito puede definirse como: