• No se han encontrado resultados

3.4 Una Aplicación para la Recomendación de Followees

4.1.1 Extracción del Grafo

La mayoría de las técnicas de detección de comunidades se basan puramente en la topología de la red so- cial subyacente. Sin embargo, en muchas aplicaciones, existe o es posible inferir información adicional que podría ayudar a mejorar la calidad de las comunidades de publicaciones sociales. Una caracterís- tica distintiva de las publicaciones en medios sociales es que se encuentran potencialmente vinculadas

a través de conexiones entre sus autores. Por ejemplo, al considerar los vínculos follower/followeeo

los vínculos de amistad (es decir, relaciones sociales), es posible derivar diversas relaciones entre las publicaciones escritas por un par de usuarios:

• Se asume que las publicaciones escritas por un mismo usuario se encuentran relacionadas, ya que tienen más probabilidades de pertenecer a tópicos similares que publicaciones seleccionadas al azar.

• Si dos usuarios siguen o son seguidos por un tercer usuario, es más probable que sus publicaciones tengan tópicos relacionados que publicaciones seleccionadas al azar.

• Las publicaciones pueden vincularse considerando las relaciones de amistad entre sus autores, es decir, puede existir una relación entre dos publicaciones si los autores de dichas publicaciones se encuentran conectados en la red social. Si existe un vínculo social entre los usuarios, es probable que compartan sus intereses, por lo que también es probable que sus publicaciones tengan tópicos relacionados.

En el contexto de los medios sociales, tanto la estructura topológica del grafo (las relaciones sociales en- tre los usuarios) como las propiedades del nodo (las características de los mensajes) son importantes para mejorar la calidad de las comunidades descubiertas. Como resultado, además de las relaciones sociales

entre las publicaciones derivadas de las relaciones sociales reales entre sus autores (la publicaciónPiestá

socialmente relacionada con la publicaciónPjsi su autor se encuentra socialmente conectado con el autor

dePi), el contenido de las publicaciones también puede ser una fuente de relaciones entre las publicacio-

nes. La similitud del contenido o las categorías de las publicaciones (en caso de que estén disponibles) también podrían ayudar a establecer relaciones entre ellas. Asimismo, cada sitio de red social posee ca- racterísticas específicas y metadatos que podrían ser explotados para descubrir relaciones significativas

entre las publicaciones. Por ejemplo,Twitter,InstagramyFacebookpromueven el uso dehashtags, los

cuales representan un tipo de metadatos que ayudan en la búsqueda de mensajes de un tema o contenido

específico. Además,Facebookpermite buscar publicaciones que compartan actividades específicas, por

ejemplo "escuchandoAerosmith" o "leyendo Oscar Wilde". De esta forma, aquellas publicaciones que

contienen el mismohashtago se encuentran asociados a la misma actividad se puede suponer que están

asociados a tópicos similares.

Las relaciones basadas en el contenido podrían ser utilizadas para establecer nuevas relaciones entre las publicaciones que no se encuentran socialmente relacionadas o para reforzar las relaciones sociales ya encontradas entre las publicaciones. En el primer caso, se supone que las relaciones sociales y de con- tenido son independientes entre sí, es decir, los arcos en el grafo representan no solo vínculos sociales,

4.1. DETECCIÓN DE COMUNIDADES BASADA EN INFORMACIÓN HETEROGÉNEA

sino también vínculos de contenido. Por lo tanto, al considerar ambos tipos de relaciones independiente- mente, dos nodos podrían estar conectados aun cuando no exista un vínculo social explícito entre ellos. En el otro caso, el grafo solo incluye arcos que representan las relaciones sociales entre los nodos, cuya fuerza o importancia está dada por las características del contenido. Por lo tanto, en este caso, la calidad de los vínculos sociales entre los nodos depende de un adecuado análisis del contenido, lo que debería permitir explotar plenamente la información de los medios de comunicación social.

Para el propósito de esta evaluación, además de la relación topológica tradicional en la que existe un vínculo entre dos nodos representando publicaciones si existen relaciones sociales entre sus autores, se definieron varias relaciones basadas en contenido. En particular, la información de contenido de los nodos se transfiere a los arcos para caracterizar la relación específica entre los nodos vinculados. Por definición, todas las relaciones basadas en el contenido son simétricas, es decir, no tienen direccionali- dad. Asimismo, a cada relación se le puede asignar un factor o ponderación individual que representa la importancia de dicha relación en el grafo final. Teniendo en cuenta los sitios de redes sociales que permiten a los usuarios publicar contenido y etiquetarlo, las relaciones relevantes a considerar se pueden definir de la siguiente manera:

• Shared Tags(Etiquetas Compartidas). Existe un vínculo entre dos nodos si comparten cualquier

etiqueta (ohashtag). El peso de la arco se mide como el porcentaje de etiquetas compartidas entre

el número total de etiquetas diferentes comprendidas por las dos publicaciones.

• Shared Class (Clase Compartida). Existe un vínculo entre dos nodos si pertenecen a la misma

clase. Todos los arcos tienen un peso de 1. En los casos en que las categorías se organizan en

jerarquías o taxonomías (como en elODP), el peso de los arcos podría calcularse como la distancia

entre ambas categorías.

• Similar Content(Contenido Similar). Mide la similitud de contenido de dos nodos. Se puede im-

poner un umbral mínimo de similitud para evitar la creación de un grafo completo y denso. Por lo tanto, solo los arcos con similitud por encima de un cierto umbral se añadiría al grafo. Se pueden adoptar diversas métricas de similitud de texto para definir la naturaleza y la fuerza de la semejanza. Por ejemplo, la similitud podría expresarse simplemente computando el porcentaje de términos de participación entre los dos nodos o calculando su similitud de coseno (Salton and McGill, 1986).

• Similar Comments(Comentarios Similares). Al igual queSimilar Content, mide la semejanza de

contenido de dos nodos de acuerdo con la similitud entre los comentarios que cada publicación ha recibido, calculada considerando, por ejemplo, la semejanza del coseno o alguna otra métrica de semejanza textual.

Además, al considerar los sitios de redes sociales que permiten a los usuarios etiquetar o comentar las publicaciones de otros usuarios, es posible definir relaciones sociales adicionales para considerar tales interacciones o acciones sociales:

• Tagged By Same Users(Etiquetado por los mismos usuarios). Los usuarios pueden mostrar interés

en los mensajes etiquetándolos. De esta forma, es posible suponer que las publicaciones etique- tadas por los mismos usuarios pertenecen a tópicos relacionados y comparten una conexión más fuerte que aquellas que han sido etiquetadas por grupos disjuntos de usuarios. Como resultado, el grado en el que dos publicaciones son etiquetadas por los mismos usuarios podría denotar una importante relación entre ellos. El grado en que dos publicaciones son etiquetadas por el mismo

conjunto de usuarios se calcula utilizando el índice deJaccard.

• Commented By Same Users(Comentado por los mismos usuarios). La actividad de comentar pu-

blicaciones también permite a los usuarios mostrar su interés. Por lo tanto, los mensajes que tienen comentarios escritos por los mismos usuarios se puede suponer que comparten una conexión más fuerte que aquellos que no comparten comentarios. En consecuencia, el grado en que dos publica- ciones son comentadas por el mismo conjunto de usuarios puede ser utilizado como fuente de una

nueva relación entre dichas publicaciones, que puede medirse mediante el índice deJaccard.

4.1. DETECCIÓN DE COMUNIDADES BASADA EN INFORMACIÓN HETEROGÉNEA

Es importante destacar que la información social y las relaciones basadas en el contenido ofrecen vistas complementarias de los datos, en este caso, las publicaciones. Por lo tanto, ninguna relación individual por sí sola podría ser suficiente para determinar con precisión la pertenencia a una comunidad (Tang et al, 2012b). Por ejemplo, la información social puede ser escasa y ruidosa, mientras que la información basada en el contenido podría ser irrelevante o redundante, dificultando el proceso de detección de co- munidades. Por lo tanto, es importante combinar adecuadamente los diferentes tipos de relaciones para la detección de comunidades en las redes sociales.

Una vez definidas todas las relaciones entre los nodos, las mismas son integradas en un único grafo. La Figura 4.1 presenta un ejemplo de publicaciones, las relaciones que se pueden establecer entre ellas

(Social,SharedTagySharedClass) y la representación de dichas relaciones en un grafo (Figura 4.1b).

El peso de las relaciones fue definido de la siguiente manera. En el caso de la relación Social, un peso

de 1 fue asignado a los arcos entre dos nodos (por ejemplo entre Post1 y Post4), cuando el autor de

una publicación seguía al autor de la otra publicación (en este caso el autor dePost1 seguía al autor de

Post4, tal como muestra la Figura 7.2a). En el caso en que dos autores no se encuentran relacionados

(como el autor de Post3 respecto a los otros autores), los arcos tienen un peso de 0, de forma que no son

considerados. Para la relaciónSharedClass, un peso de 1 fue asignado al arco si las dos publicaciones

compartían la misma clase (por ejemplo entrePost1 y Post2, que de acuerdo con la Figura 7.2a perte-

necen ambos a la clase "Politics"), en otro caso el peso era 0 (como en el caso de Post1 yPost4, los

cuales pertenecían a las clases "Politics" y "Sports", respectivamente). Finalmente, el peso de la relación

SharedTagse correspondía con el porcentaje de tags compartidos entre dos publicaciones. Considerando

la relación SharedTagentrePost1 yPost2, entre ambas publicaciones existen tres tags (“#BringBack-

OurGirls”, “#stopTheWar”, “#siria”), de las cuales solo uno es compartido por ambas publicaciones

(“#BringBackOurGirls”). En consecuencia, el peso es calculado como 1/3=0.33. De forma similar,

entrePost4 yPost3 existen dos tags (“#USOpen”, “#Wimbledon”), de los cuales solo uno es compartido

(“#USOpen”), lo que determina que el peso sea 0,5.

Como puede observarse, el grafo colapsa varias relaciones (posiblemente heterogéneas) entre dos nodos en un único arco, es decir, si existen múltiples relaciones entre dos nodos, tales relaciones se representan con un único arco. El peso de tal arco sería igual a la suma de los pesos de todos los arcos entre nodos.