• No se han encontrado resultados

Métodos de evaluación

2.2 Trabajos relacionados

En esta sección se describen algunos de los trabajos existentes relacionados al dominio en el que se ubica el presente trabajo. Los mismos definen, emplean o referencian los conceptos teóricos descritos en el apartado anterior.

Se hará una reseña sobre tres investigaciones basadas en la técnica de predicción de enlaces. Los mismos son los trabajos que se referencian a continuación: (Liben-Nowel y Kleinberg, 2004), (Dong et al. 2013) y (Wan et al., 2015).

El segundo tiene el objetivo principal de proponer mejoras a la técnica de link prediction, a partir de la consideración de atributos que no suelen tenerse en cuenta en los algoritmos tradicionales.

Por otro lado, el primero y el último trabajo bibliográfico tienen un enfoque más abocado a hacer un relevamiento y comparaciones sobre las diferentes maneras de llevar a cabo la predicción de enlaces. Si bien sus objetivos son similares, se vió de utilidad incluir al tercero ya que éste es mucho más reciente y considera un espectro más grande de métricas para el cálculo de la similitud. De esta manera, es posible apreciar el avance que se ha logrado con el correr de los años en torno a la predicción de enlaces.

El primero de los documentos relevados está enmarcado en el estudio de la aplicación de link prediction sobre redes sociales y fué publicado en 2004 por David Liben-Nowell y Jon Kleinberg.

El objetivo que se propone, es determinar en qué medida se puede extraer información de utilidad desde la topología de la red para poder inferir futuras interacciones. Para eso, se busca comparar los resultados obtenidos por una gran

variedad de las métricas conocidas dentro de la predicción de enlaces, luego de ser aplicadas sobre una red de coautoría entre científicos.

En la primera parte del paper se describen las caracterìsticas de las redes sociales que motivan el estudio de su evolución, tal como su rápido crecimiento teniendo en cuenta la cantidad de nuevos usuarios o las interacciones entre los mismos que se dan frecuentemente. El funcionamiento de link prediction es explicado de forma introductoria y se mencionan aquellos campos en los que la técnica es de utilidad, pudiendo estos ir desde el descubrimiento de individuos que puedan estar trabajando en conjunto dentro de una red delictiva o terrorista hasta la posibilidad de encontrar un potencial colaborador para un próximo trabajo en la red de coautores de trabajos científicos que se estudia en ese trabajo.

Posteriormente se describen los cinco datasets que se utilizan para realizar los experimentos, los cuales están todos basados en la red de coautores antes mencionada. Dichos datasets están representados mediante grafos, donde cada nodo simboliza a un autor y cada arista conectando a dos nodos representa que ambos autores colaboraron a la hora de desarrollar un paper. Además, se hace un breve resumen de cómo se calcula la eficiencia de cada predictor, lo cual se hará determinando el tamaño de la intersección entre las aristas que logró predecir la métrica de predicción con las aristas que efectivamente aparecieron (o que se ocultaron para hacer la prueba y ver si se redescubren).

En la tercer sección del trabajo, las tres clases de enfoques que se pueden emplear a la hora de determinar la similitud entre dos nodos para inferir su probabilidad de interacción en un futuro son descritos. Dicha clasificación de enfoques es la que se menciona previamente en el marco teórico, siendo cada una de ellas: métodos basados en vecinos en común, los que se basan en el conjunto de todos los caminos y los enfoques de más alto nivel. Luego se mencionan y describen las métricas clasificadas dentro de cada uno de esos tres enfoques.

Los resultados obtenidos luego de aplicar las distintas métricas (y variantes de las mismas en caso de que alguna las tenga) sobre cada uno de los datasets son presentados y contrastados con un método de predicción aleatoria, mediante distintas tablas y gráficos. También se exponen la cantidad de predicciones iguales entre cada par de predictores y la cantidad de predicciones correctas en común entre los mismos.

El análisis de las comparaciones expuestas por los gráficos, permitió a los autores establecer diversas conclusiones. Entre otras, se observó que el método hitting time (aún considerando sus cuatro variantes) resultó ser peor que cualquiera de los demás métodos (en los 5 datasets) y, además, es el algoritmo que menos predicciones en común tuvo con los demás. También se encontraron métodos que tienden a devolver un conjunto similar de predicciones, aún cuando algunos de estos calculan la similitud de forma muy diferente.

El fenómeno de “mundo pequeño” también pudo verse reflejado, ya que en dos de los datasets los pares que efectivamente colaboraron estaban a distancia 3 o mayor

en un 71% y 83% en otro.

Comparando los resultados obtenidos sobre cada dataset, quedó en evidencia el hecho de que los mismos métodos pueden arrojar distintos resultados según la red sobre la que se apliquen. En este sentido uno de los datasets, resultó ser el más complicado a la hora de realizar predicciones sobre él, dada la poca performance que tuvieron todos los métodos en comparación con el azar.

Para finalizar el trabajo, se describen aquellos caminos que podría seguir el estudio de link prediction en un futuro de acuerdo a las conclusiones obtenidas. Lo que se debería buscar serían formas de mejorar la eficacia de los predictores sacándole más provecho a la información existente en el grafo, ya que incluso en el mejor resultado obtenido en los experimentos realizados en el trabajo, sólo el 16% de las predicciones fueron correctas. A modo de ejemplo, una de esas posibilidades de mejora sería ver qué sucede si en lugar de tratar todas las colaboraciones por igual, se le dan más importancia a aquellas más recientes.

Otro estudio sobre el comportamiento de los predictores de enlace sobre redes sociales que resultó interesante fue (Dong et al. 2013) El objetivo principal de este trabajo difiere del anterior y consiste en proponer dos mejoras al algoritmo tradicional de vecinos comunes, el cual está basado en la cantidad de vecinos en común entre los nodos.

En primer lugar se emplea un nuevo concepto denominado fuerza de guía (Guidance Force oNode Guidance Capability en inglés) para dar lugar al algoritmo CNGF, y luego se propone una mejora adicional que permite considerar las características temporales de la red y da lugar a CNGF_T.

Inicialmente se hace una breve introducción sobre las redes sociales y sus características, explicando algunos de los fenómenos que suelen albergar las mismas, tal como el de mundo pequeño. Además, al igual que en el trabajo anterior, se explican el objetivo de la técnica de link prediction, sus posibles aplicaciones y los algoritmos más comunes para el cálculo de la similitud entre dos nodos.

Mediante la comparaciòn de los algoritmos tradicionales, se deducen algunos problemas existentes en la predicciòn de enlaces. Si bien los mismos pueden ser de utilidad, no emplean toda la información topológica que tienen a disposición e ignoran los atributos propios de cada nodo y los cambios en el tiempo. Un ejemplo de esta situación es el hecho de que el algoritmo de vecinos comunes trata a todos los vecinos de un nodo del mismo modo, sin distinguir si uno de ellos tiene mayor peso en la red que otro. Estos inconvenientes motivaron a los autores al desarrollo de dos mejoras para la métrica de vecinos comunes

El concepto el término de fuerza de guía, así como la forma en que este nuevo parámetro puede ser incluído en el algoritmo de vecinos comunes para dar lugar al algoritmo mejorado CNGF. Su nombre deriva de las siglas de Common Neighbor Guidance Force

​ , y lo que varía es que se agrega la posibilidad de considerar la

Para explicar la utilidad de este nuevo parámetro, es conveniente remitirse a los grafos mostrados en la figura 1.

Figura 1 - Dos grafos representando redes sociales con nodos con el mismo grado

En esta imagen, se puede observar que en ambos grafos cada nodo (numerado) tiene el mismo grado y que, además, los pares de nodos A y B en el grafo de la izquierda tienen la misma cantidad de vecinos en común que los nodos X e Y en el de la derecha.

Sin embargo, si se extrae de los grafos originales el subgrafo conteniendo únicamente a los nodos A, B y sus vecinos comunes, y el que tiene a X e Y junto a sus vecinos en común (Figura 2), se puede observar que la cantidad de caminos posibles entre A y B es bastante mayor que los que existen entre X e Y. En esas condiciones, el algoritmo de vecinos comunes les asignaría la misma similitud tanto a A-B como a X-Y simplemente por tener la misma cantidad de vecinos en común.

Figura 2​ - Subgrafo de las redes conteniendo los nodos de predicción y sus vecinos comunes Si se considera entonces la densidad del subgrafo extraído de los vecinos en

común, podría llegarse a la conclusión de que cuanto mayor sea su densidad, mayor debería ser la contribución que hagan esos nodos en común a la predicción del enlace. Basándose en ese hecho, es que los autores diseñaron la siguiente fórmula para medir la fuerza de guía propia de cada nodo como:

Fuerza de guía (del nodo z): |z| / log d ​z, donde |∅z| es el grado del nodo en el subgrafo extraído y dz es el grado del nodo en el grafo original.

Una vez introducido el concepto de fuerza de guía de un nodo, se explica el algoritmo CNGF. Basándose en el hecho de que, por lo explicado anteriormente, debería considerarse que cada nodo tiene una diferentefuerza de guía, la similitud entre dos nodos por el método de vecinos comunes ya no debería calcularse simplemente como la cantidad de vecinos en común entre los nodos, sino como la suma de la fuerza de guía de cada uno de estos. De esta forma, cuanto mayor sea la fuerza de guía de los vecinos en común entre los nodos a calcular la predicción, mayor será la probabilidad de que se dé un enlace entre los mismos.

Adicionalmente, una última modificación es propuesta por los autores. La misma intenta lidiar con el hecho de los predictores tradicionales sólo consideran dos momentos de la red social para realizar el cálculo, uno para realizar las predicciones y otro para comprobar si las mismas se cumplieron. Debido a que las redes sociales cambian constantemente con el tiempo, una alternativa que se asemeja más a la realidad es dividir al grafo de la red en varias secuencias, no solamente dos. Cada uno de estos grafos secuenciales se corresponderá con un lapso distinto de tiempo, cuya duración se podrá configurar de acuerdo a las necesidades en lapsos arbitrarios de un mes, un año, etc.

Esta nueva información temporal se debe involucrar a la hora de calcular la fuerza de guía de los nodos. En lugar de tener en cuenta el grado de los nodos, se considerará la media de ese valor a lo largo de los distintos periodos en los que se dividió el grafo, haciendo que se empleen valores estables a largo plazo (d z prom). Del mismo modo, se empleará el valor promedio del grado del nodo en los subgrafos extraídos de cada una de las secuencias (|∅z|​prom). Con estos cambios mencionados, la fórmula de fuerza de guía que considera también los cambios suscitados en el grafo durante varios períodos de tiempo queda entonces:

Fuerza de guía(del nodo z)a lo largo del tiempo = |∅z|​prom​ / log d​z ​prom

Con la definición previa, se puede modificar el algoritmo CNGF propuesto anteriormente para que pueda considerar también atributos temporales y no solamente la información topológica, surgiendo el nuevo algoritmo CNGF_T.

Una vez propuestas las mejoras, se describe el dataset mediante el cual se verificará si las mismas aportan un aumento en la eficacia en comparación con los algoritmos tradicionales. El mismo es un conjunto de datos real, que contiene

registros asociados a conferencias internacionales de data mining, machine learning, etc.

En base a los resultados obtenidos por la aplicación de las tres variantes del algoritmo de vecinos comunes (el tradicional, el CNGF y el CNGF_T) sobre el dataset, se observó que la performance de la predicción de el CNGF_T es la mejor de los tres. Finalmente el trabajo concluye que los resultados experimentales mostraron que la performance en la predicción realizada por los algoritmos mejorados es superior a la obtenida empleando el algoritmo tradicional de vecinos comunes.

Por último, uno de los trabajos más recientes que se encontró con respecto al estudio de la predicción de enlaces fue (Wan et al., 2015), el cual tiene como objetivo principal analizar la actualidad con respecto al avance en la predicción de enlaces en redes sociales.

A lo largo del trabajo, entonces, se analizan las distintas técnicas existentes hasta el momento para la predicción de enlaces (considerando las eventuales desventajas que pueda tener cada una de ellas) y se detallan los problemas que la misma enfrenta generalmente. Además se presentan algunos desafíos a futuro que tendrá la técnica para seguir progresando.

Esta bibliografía fue seleccionada ya que las distintas perspectivas mediante las cuáles se observa a la predicción de enlaces permiten adentrarse más en el tema y de esa forma comprender que, si bien en el presente trabajo se analizan fundamentalmente métricas basadas en datos de los nodos o topológicas, existe un contexto mucho mayor respecto a la técnica.

El paper propone una clasificación de las métricas existentes según los aspectos en los que basan su funcionamiento, siendo los más generales: nodos, topología, teoría social y aprendizaje. La misma se puede apreciar en la siguiente imagen.

Figura 3 -​ Clasificación de las distintas técnicas de predicción existentes

Todas las clases de métricas son explicadas, así como el funcionamiento general de los algoritmos más comunes alineados bajo cada una de éstas. La mayoría de los algoritmos tradicionales para la predicción de enlaces (tal como el de camino más corto o el método de vecinos comunes) se encuentran dentro de las categorías de nodos y topológicos.

Existe otro tipo de métricas, basadas en la teoría social, que son especialmente útiles para redes de gran escala. En ese entorno es posible idear métodos de predicción complejos, que consideran los intereses y comportamientos frecuentes de los usuarios para realizar, los cuales pueden ser más eficaces que los pertenecientes a las dos categorías clásicas anteriores. Sin embargo, el problema que enfrenta este tipo de métricas es que esos datos no siempre están disponibles y puede ser difícil adquirirlos.

Para completar la presentación de toda la gama de métodos para la predicción de enlaces, se presentan aquellos que están basados en el aprendizaje.

Estos métodos se nutren de métricas básicas e información externa de las mismas tales como pesos o atributos y se pueden dividir en: clasificación basada en características, modelos probabilístico de grafos y factorización de matrices. La relación antes descrita se puede observar en la figura 4.

Figura 4 - Relación entre las métricas clásicas y las técnicas basadas en aprendizaje

La clasificación basada en características busca determinar los atributos y características topológicas más predictivas dentro de una red social. Estos atributos pueden también no ser topológicos y en realidad estar relacionados al dominio de la red, lo cual tiene la contra de requerir conocimiento acerca del mismo para identificarlos. Un ejemplo de esto son los pesos o ponderaciones que pueda tener un algoritmo, ya que un correcto ajuste de los mismos de acuerdo a la red a tratar puede derivar en buenas predicciones, pero si se usa sin criterio podría ser inútil o incluso perjudicial para la performance del predictor. Es por eso que modelos de aprendizaje más generales sólo consideran características topológicas, pero si se requiere una aplicación efectiva de los mismos se deberían considerar también características específicas del dominio.

El modelado probabilístico de los grafos que representan redes sociales, se basa en la asignación de una probabilidad a los enlaces entre cada par de nodos, la cual puede estar relacionada con la similitud topológica u otros criterios. Estos grafos probabilísticos son eficaces en aquellas redes que exhiben una estructura jerárquica multiescala, en la cual los nodos se dividen en grupos y grupos de grupos. Por sus características, el grafo probabilístico asociado a este tipo de redes se puede modelar mediante un dendograma como el de la figura 5.

La probabilidad de conexión entre un par de nodos cualquiera está dada por el ancestro en común entre ellos de más bajo valor. Si bien este método tiene la ventaja de que encontrar la similitud entre un par de nodos es una tarea sencilla una vez se dispone del dendograma, la construcción del mismo suele consumir un tiempo computacional elevado, por lo que suele aplicarse a redes de un orden no mayor a los miles de nodos.

Luego de toda la descripción de la clasificación propuesta, se analiza brevemente la utilidad de los datasets para verificar el desempeño de los distintos métodos de predicción de enlaces. Sin embargo, puede pasar que la performance de una métrica puede no ser consistente, y variar mucho el desempeño obtenido al aplicarse sobre distintos datasets. Para evitar esto, se deberían tener algunos datasets que sean puntos de referencias, ya que algunos pueden ruido o no tener la suficiente diversidad dentro de la red.

Al igual que lo explicado en la introducción del presente trabajo, los autores coinciden en que hay pocas herramientas que implementen e integren la variedad de métricas de predicción de enlaces y, de éstas, son menos aún las que son de código abierto. Una de las pocas que existen es LPmade (Lichtenwalter y Chawla, 2011), la cual brinda soporte para los procesos de la predicción de enlaces, involucrando la predicción, evaluación y análisis de las redes. Esta herramienta se analiza en el presente trabajo con más detalle en la sección “Relevamiento de herramientas de código abierto relacionadas”.

Posteriormente se muestra una perspectiva distinta, donde lo que se categorizan son los tipos de problemas de predicción de enlaces (Figura 6). En primer lugar se tiene en cuenta si los mismos son sobre características globales de la red o de los enlaces. Luego éstos dos tipos principales de problemas se subclasifican en problemas más específicos para los que existen varios trabajos enfocados en resolverlos. Las técnicas que han surgido asociadas a ellos que son las que se muestran en la parte superior de la imagen.

Figura 6 - Clasificación de los distintos problemas de predicción de enlaces

La predicción de enlaces temporal busca responder a las preguntas del tipo “¿Quién tiene más probabilidades de relacionarse con Juan Pérez el próximo año?”. Algunas implementaciones de este tipo consideran que la fuerza de un enlace varía con el tiempo, haciendo que este se debilite si los nodos no interactúan entre sí por mucho tiempo o se fortalezca si lo hacen con frecuencia.

Aunque la mayoría de los trabajos existentes se basan en redes homogéneas, la