Adaptación y análisis de algoritmos de predicción de links basados en similitud para redes dirigidas y ponderadas

(1)

UNIVERSIDAD NACIONAL DEL CENTRO DE LA PROVINCIA DE BUENOS

AIRES

FACULTAD DE CIENCIAS EXACTAS

TESIS DE GRADO

Adaptación y análisis de algoritmos de predicción de links

basados en similitud para redes dirigidas y ponderadas

Alumno:

María

Eugenia Imeroni

(2)

Índice General

Capítulo 1. Introducción ... 1

1.1. Contexto ... 1

1.2. Motivación ... 2

1.3. Problemática ... 3

1.4. Enfoque propuesto y objetivos ... 4

1.5. Organización del trabajo ... 5

Capítulo 2. Estado del arte ... 6

2.1. El problema de la predicción de enlaces ... 7

2.1.1. Sistemas de información modelados a través de redes ... 7

2.1.2. Definición del problema de la predicción de enlaces ... 9

2.2. Algoritmos de predicción de enlaces ... 10

2.2.1. Algoritmos de predicción de enlaces basados en similitud ... 10

2.2.1.1. Índices de Similitud basados en estructura Local ... 11

2.2.1.2. Índices de Similitud basados en estructura Global ... 14

2.2.1.3. Índices de Similitud basados en estructura casi-Local ... 18

2.2.2. Análisis y evaluación ... 19

2.3. Predicción de enlaces en redes dirigidas ... 22

2.3.1. Inclusión del concepto de redes dirigidas en la predicción de enlaces ... 23

2.3.2. Adaptación de los algoritmos Preferential Attachment (PA) y Common Neighbors (CN) ... 24

2.3.2.1. Preferential Attachment (PA) ... 25

2.3.2.2. Common Neighbors (CN) ... 25

2.3.3. Análisis y Evaluación ... 27

2.4. Predicción de enlaces en redes ponderadas ... 28

2.4.1. Inclusión del peso en los algoritmos ... 28

2.4.2. Análisis y Evaluación ... 29

2.5. Conclusión ... 30

Capítulo 3. Algoritmos de predicción de enlaces... 32

(3)

3.2. Análisis y adaptación de algoritmos de predicción de enlaces ... 34

3.2.1. Adaptación de Algoritmos de predicción de enlaces para redes dirigidas ... 34

3.2.1.1 Common Neighbours... 35

3.2.1.2 Preferential Attachment ... 36

3.2.1.3. Salton Index ... 37

3.2.1.4. Jaccard Index ... 38

3.2.1.5. Sørensen Index ... 39

3.2.1.6. Hub Promoted Index (HPI) ... 40

3.2.1.7. Hub Depressed Index (HDI) ... 40

3.2.1.8. Leicht-Holme-Newman Index (LHN1) ... 40

3.2.1.9. Adamic-Adar Index (AA). ... 41

3.2.1.10. Resource Allocation Index (RA) ... 41

3.2.2. Algoritmos de predicción de enlaces en redes dirigidas y ponderadas... 42

3.2.2.1. Common Neighbours (CN). ... 42

3.2.2.2. Adamic-Adar Index (AA). ... 44

3.2.2.3. Resource Allocation Index (RA). ... 45

3.2.2.4. Preferential Attachment (PA). ... 45

3.2.2.5. Adaptaciones derivadas ... 46

3.2.2.5.1. Salton Index. ... 47

3.2.2.5.2. Jaccard Index. ... 47

3.2.2.5.3. Sørensen Index... 47

3.2.2.5.4. Hub Promoted Index (HPI). ... 47

3.2.2.5.5. Hub Depressed Index (HDI). ... 48

3.2.2.5.6. Leicht-Holme-Newman Index (LHN 1). ... 48

Capítulo 4. Diseño experimental ... 49

4.1 Métricas de evaluación ... 49

4.1.1. Curva ROC y AUC ... 50

4.1.2. Precisión ... 53

4.2 Conjunto de datos ... 54

4.2.1. Dataset ... 54

4.2.1.1 Descripción del archivo de datos ... 55

4.2.2. Pre-procesamiento de los datos ... 56

(4)

4.3. Selección de conjuntos de prueba ... 62

4.3.1. Conjuntos de prueba y entrenamiento aleatorios. ... 62

4.3.2. Conjuntos de prueba y entrenamiento basados en el peso de los enlaces. ... 66

Capítulo 5.Evaluación experimental ... 74

5.1. Evaluación particular de los algoritmos ... 75

5.1.1.Common Neighbours (CN) ... 75

5.1.2. Salton Index ... 77

5.1.3. Jaccard Index ... 79

5.1.4. Sørensen Index ... 82

5.1.5. Hub Depressed Index (HDI) ... 84

5.1.6. Hub Promoted Index (HPI) ... 85

5.1.7. Leicht-Holme-Newman (LHN) ... 87

5.1.8. Preferential Attachment (PA) ... 90

5.1.9. Adamic Adar (AA) ... 92

5.1.10. Resource Allocation (RA) ... 94

5.2. Evaluación conjunta de los algoritmos ... 97

Capítulo 6. Conclusión ... 102

6.1. Contribuciones ... 102

6.2. Resultados ... 103

6.3. Trabajos futuros ... 104

Bibliografía... 105

(5)

Índice de Figuras

Figura 2.1 Representación de un grafo ... 8

Figura 2.2. Estrategia de Predicción basada en similitud ... 10

Figura 2.3. Representación de un grafo dirigido. ... 23

Figura 2.4. Interpretación geométrica del índice CN en diferentes redes. (a) Cierre tríadico. (b) Estructura de avance ... 26

Figura 2.5. Indicadores alternativos para el índice CN. ... 27

Figura 3.1. Cierre Tríadico ... 35

Figura 3.2. Estructura de avance. ... 36

Figura 3.3. (a) Red no dirigida. (b) Red Dirigida. ... 37

Figura 3.4. (a) Matriz Adyacencia Red no dirigida. (b) Matriz Adyacencia Red Dirigida. ... 37

Figura 3.5. Vectores de la matriz de adyacencia... 38

Figura 3.6. Conjuntos de vecinos tomados para el índice Jaccard. ... 39

Figura 3.7. Red dirigida y con peso. Índice CN. ... 43

Figura 3.8. Cálculo del peso de los enlaces. ... 43

Figura 3.9. Red dirigida y con peso. Índice AA. ... 44

Figura 3.10. Red dirigida y con peso. Índice PA. ... 46

Figura 4.1. Cálculo de Métricas (a) Grafo completo. (b) Grafo de Entrenamiento ... 52

Figura 4.2. Representación de cada línea del conjunto de datos. ... 56

Figura 4.3. Representación de los nodos de la red. ... 58

Figura 4.4. Red que representa el conjunto de nodos y enlaces. ... 59

Figura 4.5. Distribución del grado de la red. ... 60

Figura 4.6. Distribución del grado de entrada de la red. ... 60

Figura 4.7. Distribución del grado de salida de la red. ... 61

Figura 4.8. Distribución del peso de los enlaces en la red. ... 61

Figura 4.9. Red resultante correspondiente al conjunto de entrenamiento aleatorio. ... 63

Figura 4.10. Distribución del grado en el conjunto de prueba aleatorio. ... 64

(6)

Figura 4.13. Distribución del peso de los enlaces del conjunto de prueba aleatorio. 65

Figura 4.14. Red resultante correspondiente al conjunto de entrenamiento de la

selección de enlaces fuertes para el conjunto de prueba. ... 67

Figura 4.15. Distribución del grado en el conjunto de prueba con selección de enlaces fuertes. ... 68

Figura 4.16. Distribución del grado de entrada en el conjunto de prueba con selección de enlaces fuertes. ... 68

Figura 4.17. Distribución del grado de salida en el conjunto de prueba con selección de enlaces fuertes. ... 69

Figura 4.18. Distribución del peso de los enlaces en el conjunto de prueba de selección de enlaces fuertes ... 69

Figura 4.19. Red resultante correspondiente al conjunto de entrenamiento de la selección de enlaces débiles en el conjunto de prueba... 71

Figura 4.20. Distribución del grado en el conjunto de prueba de enlaces débiles. .. 72

Figura 4.21. Distribución del grado de entrada en el conjunto de prueba de enlaces débiles. ... 72

Figura 4.22. Distribución del grado de salida en el conjunto de prueba de enlaces débiles. ... 73

Figura 5.1. Comparación de los resultados de AUC para CN ... 77

Figura 5.2. Comparación de los resultados de Precisión para CN. ... 77

Figura 5.3. Comparación de los resultados de AUC para Salton. ... 79

Figura 5.4. Comparación de los resultados de Precisión para Salton. ... 79

Figura 5.5. Comparación de los resultados de AUC para Jaccard. ... 81

Figura 5.6. Comparación de los resultados de Precisión para Jaccard. ... 81

Figura 5.7. Comparación de los resultados de AUC para Sørensen. ... 83

Figura 5.8. Comparación de los resultados de Precisión para Sørensen. ... 83

Figura 5.9. Comparación de los resultados de AUC para Hub Depressed. ... 85

Figura 5.10. Comparación de los resultados de Precisión para Hub Depressed. .... 85

Figura 5.11. Comparación de los resultados de AUC para Hub Promoted. ... 87

Figura 5.12. Comparación de los resultados de Precisión para Hub Promoted. ... 87

Figura 5.13. Comparación de los resultados de AUC para Leicht-Holme-Newman. 89 Figura 5.14. Comparación de los resultados de Precisión para Leicht-Holme-Newman. ... 90

Figura 5.15. Comparación de los resultados de AUC para PA. ... 91

Figura 5.16. Comparación de los resultados de Precisión para PA. ... 92

Figura 5.17. Comparación de los resultados de AUC para Adamic Adar. ... 93

(7)

Figura 5.19. Comparación de los resultados de AUC para Resource Allocation. .... 96

Figura 5.20. Comparación de los resultados de Precisión para Resource Allocation. ... 96

Figura 5.21. Resultados de AUC para los algoritmos sin mejoras. ... 97

Figura 5.22. Resultados de Precisión para los algoritmos sin mejoras. ... 98

Figura 5.23. Resultados de AUC para los algoritmos dirigidos... 98

Figura 5.24. Resultados de Precisión para los algoritmos dirigidos. ... 99

Figura 5.25. Resultados de AUC para los algoritmos dirigidos y ponderados. ... 100

(8)

Índice de Tablas

Tabla 2.1. Precisión de los diferentes índices de similitud locales. ... 20

Tabla 2.2. Resultados de tres índices de similitud dependientes de la estructura global o casi-global. ... 21

Tabla 2.3. Comparación de los índices LRW, CN, RA y LP, y otros dos índices globales basados en caminos aleatorios ... 22

Tabla 2.4. Comparación de la precisión de los algoritmos CN, AA y RA antes y después de incorporar el peso como factor. ... 30

Tabla 4.1. Categorización de ítems para el cálculo de Precisión ... 53

Tabla 4.2. Red resultante ... 57

Tabla 4.3. Conjuntos de Entrenamiento y Prueba Aleatorios. ... 63

Tabla 4.4. Conjuntos de Prueba y Entrenamiento, con enlaces fuertes en el conjunto de prueba. ... 66

Tabla 4.5. Conjuntos de Prueba y Entrenamiento con menor peso. ... 70

Tabla 5.1. Resultados del algoritmo Common Neighbours. ... 76

Tabla 5.2. Resultados del algoritmo Salton. ... 78

Tabla 5.3. Resultados del algoritmo Jaccard. ... 80

Tabla 5.4. Resultados del algoritmo Sørensen. ... 82

Tabla 5.5. Resultados del algoritmo Hub Depressed. ... 84

Tabla 5.7. Resultados del algoritmo Leicht-Holme-Newman. ... 88

Tabla 5.8. Resultados del algoritmo Preferential Attachment. ... 90

Tabla 5.9. Resultados del algoritmo Adamic Adar. ... 92

(9)

Capítulo 1

Introducción

1.1. Contexto

En la actualidad, el universo de las redes sociales ha acaparado a la mayoría de los habitantes del mundo, convirtiéndose en medios de comunicación que han pasado a formar una parte esencial de la vida de muchos individuos.

Las redes sociales son estructuras sociales compuestas por un conjunto de actores, tales como individuos u organizaciones, que están relacionados de acuerdo a algún criterio, que facilitan la difusión de mensajes en canales de información, acortando distancias y tiempos de comunicación, todo esto facilitando las relaciones de parentesco, relaciones personales, organizacionales, entre otras.

Las redes sociales funcionan como medios de comunicación. Estos medios de comunicación ayudan a muchas personas que se encuentran en países distintos, en ambientes diferentes y que pertenecen a diversas culturas, a mantenerse comunicados e informados acerca de amistades, noticias, productos, servicios y un sinfín de información. Existen redes sociales muy populares en la sociedad, muchas de ellas con un gran posicionamiento a nivel mundial y que son parte de la vida diaria de muchos individuos, por ser novedosas y atractivas, y ofrecer una gran gama de instrumentos comunicativos.

(10)

En la actualidad, el estudio de redes complejas se ha convertido en un foco común de muchas ramas de la ciencia. Se ha dedicado una cantidad considerable de atención al análisis computacional de redes sociales y se han realizado grandes esfuerzos para comprender la evolución de las mismas, las relaciones entre topologías y las características de la red (Linyuan Lü et al., 2010) (David Liben-Nowelly et al., 2004).

Las redes sociales en particular son objetos altamente dinámicos; crecen y cambian rápidamente con el tiempo a través de la adición de nuevos enlaces, lo que significa la aparición de nuevas interacciones en la estructura social subyacente (David Liben-Nowelly et al., 2004).

Comprender la dinámica que impulsa la evolución de estas redes es un problema complejo, pero se puede hacer una pregunta más simple que permita dar una idea de su estructura (Rediet Abebe et al., 2014): ¿en qué medida puede la evolución de una red social ser modelada usando características exclusivas de la propia red? (David Liben-Nowelly et al., 2004). Esto se conoce como el problema de la predicción de enlaces.

La predicción de enlaces intenta estimar la probabilidad de la existencia de un vínculo entre dos nodos, sobre la base de enlaces observados y los atributos de los nodos (Linyuan Lü et al., 2010) (Lise Getoor et al., 2005). El marco más simple de los métodos de predicción de enlaces es el de los algoritmos basados en similitud, donde a cada par de nodos se le asigna una puntuación que se define directamente como la similitud que hay entre ellos. Todos los enlaces no observados se clasifican de acuerdo a sus puntuaciones, y los enlaces que conectan nodos más similares se supone que son de mayor probabilidad de existencia. A pesar de su simplicidad, el estudio sobre algoritmos basados en similitudes es un tema principal de estudio (Linyuan Lü et al., 2010).

1.2. Motivación

Los algoritmos de predicción de enlaces en redes complejas se pueden utilizar para extraer información faltante, identificar las falsas interacciones, evaluar los mecanismos de evolución de la red, entre otras cosas (Linyuan Lü et al., 2010).

(11)

de la misma (www.vanguardia.com, 2013), dando lugar, por ejemplo, al análisis de difusión de información.

Sin embargo, la mayoría de los estudios de predicción de enlaces suponen que los enlaces de red no están dirigidos. De hecho, los ejemplos de redes dirigidas son numerosos en el mundo real: la web se compone de hipervínculos dirigidos, las redes alimentarias consisten en enlaces dirigidos de depredadores a presas, y en la red de micro blogs, los seguidores forman enlaces a sus líderes de opinión (Yan Yu et al., 2014).

Por otro lado, si se realiza un análisis más profundo acerca de la información subyacente de la red se puede encontrar que los métodos de predicción basados únicamente en la asimetría de sus enlaces podrían volverse aún más completos si se tuvieran en cuenta otros aspectos de las redes dirigidas (Xue Zhang et al., 2014). En particular, en muchas redes sociales del mundo real, a las interacciones se les deben asignar fortalezas (Ricky Laishram, 2015). Por ejemplo, en una red de blogs, la fuerza del enlace entre dos nodos debe ser proporcional al número de veces que éstos se referencian (por ejemplo a través de hipervínculos), de forma que el peso del enlace proporciona información acerca de la interacción que existe entre los blogs. Por otro lado, en redes sociales como Twitter, la fuerza de la interacción puede relacionarse con la cantidad de veces en que un seguidor realiza un retweet sobre una publicación del usuario al que sigue.

En este contexto, la inclusión de enlaces dirigidos en los algoritmos de predicción, podría ofrecer beneficios analíticos significativos relacionados directamente con la naturaleza del enlace que indica la dirección en la que fluye la atención (Yan Yu et al., 2014). Además, hacer uso de la información de pesos de enlaces podría caracterizar la fiabilidad de la predicción, mejorando tanto la robustez como la precisión de estos algoritmos de forma significativa (Liang Wang et al., 2013).

1.3. Problemática

La predicción de enlaces en redes, aplicado a redes sociales, es un tema muy estudiado en la actualidad, muchos de los estudios existentes analizan las redes del mismo modo, suponiendo éstas como redes no dirigidas, en las que no se tiene en cuenta la dirección en la que fluye la información entre los individuos. Además, estas investigaciones tampoco tienen en cuenta el tipo de relaciones entre los individuos, tomando de la misma forma una relación fuerte o débil entre ellos, lo que sugiere que no se toma en cuenta información realmente relevante en la actualidad de las redes sociales.

(12)

predicción de enlaces, y si los beneficios analíticos de incluir información adicional al proceso de predicción resultan significativos.

En ésta tesis se propone incluir a la predicción de enlaces la información sobre la dirección de los enlaces y el peso de los mismos en la red, y verificar, mediante pruebas de los algoritmos en redes con diferentes características, si las mejoras en los algoritmos aumentan su precisión o bien ésta información no es relevante a la hora de predecir.

1.4. Enfoque propuesto y objetivo

El objetivo de esta tesis es, en primer lugar, obtener una adaptación de los algoritmos de predicción de enlaces basados en similitud de alcance local existentes en la literatura (Linyuan Lü et al., 2010) (Pulipati Srilatha et al., 2016) para incluir la dirección y el peso de los enlaces como un factor relevante a la hora de realizar la predicción. Entre estos algoritmos se pueden mencionar Common Neighbours, Salton, Jaccard, Sorensen, Hub Promoted, Hub Depressed, Leicht-Holme-Newman, Preferential Attachment, Adamic-Adar y Resource Allocation.

Para realizar esta adaptación, en primer lugar, al incluir la dirección de los enlaces, se tomarán como punto de partida las investigaciones realizadas en (Yan Yu et al., 2014) y (Xue Zhang et al., 2014); y, en segundo lugar, al incluir el peso de los enlaces, se partirá de los conceptos definidos en (Ricky Laishram, 2015) y (Liang Wang et al., 2013). Teniendo en cuenta que los algoritmos de predicción de alcance local se fundan en la utilización de información local al nodo, en particular el conjunto de vecinos y el grado del mismo, la adaptación de los algoritmos para redes dirigidas se realizará considerando la dirección de los enlaces, de forma que el conjunto de vecinos se reformará para obtener conjuntos de vecinos salientes (correspondientes a enlaces dirigidos desde el nodo en cuestión hacia el vecino) y conjunto de vecinos entrantes (correspondientes a enlaces dirigidos desde el nodo vecino al nodo en cuestión), y se incluirán los conceptos de grado de entrada y salida de un nodo. Por otro lado, para adaptar los algoritmos a redes ponderadas, el algoritmo se centralizará, no solo en los conjuntos de vecinos, sino en el peso de los enlaces que corresponde a ese conjunto.

(13)

Para las pruebas se utilizará como entrada una red de Blogs cuyas relaciones corresponden a hyperlinks entre los mismos. Particularmente, el data set a utilizar corresponde a un conjunto de datos inferidos por la herramienta NETINF (http://snap.stanford.edu/netinf/) mediante el seguimiento de cascadas de hipervínculos de blogs. Esta herramienta reconstruye una red de blogs de “quien copia de quien” teniendo en cuenta que, cuando un blog publica una información y utiliza hyperlinks para referirse a otros posts publicados por otros blogs, se registra una transmisión de información. El dataset está constituido por 1000 blogs y 5000 enlaces, y contiene para cada enlace, la siguiente información: sitio de noticias o blog que se copió, sitio de noticias o blog que copia y número de veces en los que el segundo copia del primero.

Para la comparación se tendrán en cuenta dos métricas estándar: Precisión y AUC que permiten determinar el desempeño de los algoritmos originales y sus contrapartes con enlaces pesados.

1.5. Organización del trabajo

Luego de éste capítulo introductorio a ésta tesis, se presenta el Capítulo 2 donde se describen los conceptos generales que se utilizan en ésta tesis y se muestra un resumen de los trabajos de investigación existentes que han servido como marco teórico y punto de partida para el desarrollo de ésta tesis.

En el Capítulo 3 se detallan los puntos tenidos en cuenta para seleccionar un enfoque de predicción y el análisis y adaptación realizados sobre los algoritmos seleccionados para incluir la información de la dirección y peso de los enlaces en la predicción. Se expondrán los nuevos algoritmos extendidos.

En el Capítulo 4, se define el diseño del experimento, detallando las métricas de evaluación que se utilizarán para analizar el comportamiento de la predicción según los diferentes algoritmos. También se describe el conjunto de datos que servirá como entrada para realizar el experimento, el pre-procesamiento de los mismos y la obtención de los diferentes conjuntos de pruebas que se seleccionarán del conjunto de datos para evaluar los resultados.

En el Capítulo 5, se exponen los resultados obtenidos en la evaluación experimental de los algoritmos obtenidos en el Capítulo 3, sobre los conjuntos de prueba presentados en el Capítulo 4. Se realiza un análisis y comparación de los resultados, utilizando las métricas propuestas en el Capítulo 4.

(14)

Capítulo 2

Estado del arte

En la actualidad, el estudio de redes complejas se ha convertido en un foco común de muchas ramas de la ciencia. Se ha dedicado una cantidad considerable de atención al análisis computacional de redes sociales y se han realizado grandes esfuerzos para comprender la evolución de las mismas, las relaciones entre topologías y las características de la red. En este sentido, el estudio de la predicción de enlaces en redes ha atraído una atención creciente. En este capítulo se presentan los conceptos generales de los trabajos relacionados que han sido considerados como marco teórico para el desarrollo de esta tesis.

En el contexto de las redes complejas, como lo son las redes sociales, se han llevado a cabo múltiples investigaciones acerca de los posibles enfoques de la predicción de enlaces. Tanto Linyuan Lü et al. (2010) como Pulipati Srilatha et al. (2016) han propuesto una definición del problema de predicción de enlaces, su aplicación en redes sociales, y han presentado una amplia gama de algoritmos de predicción basados en similitud para redes no dirigidas ni ponderadas.

(15)

Adicionalmente, existen otros enfoques que tratan la inclusión del peso de los enlaces en la predicción, sin embargo éstos no hacen referencia a la dirección de los enlaces. Por ejemplo, Liang Wang et al. (2013) introducen un posible cálculo del peso de los enlaces en redes sociales, y plantean una adaptación de los algoritmos de alcance local como CN, AA y Resource Allocation (RA) para tener en cuenta ésta medida.

A continuación, en la sección 2.1 se van a explicar los conceptos fundamentales del problema de la predicción de enlaces, en la sección 2.2 se van a introducir los algoritmos de predicción de enlaces utilizados en la mayoría de las investigaciones nombradas, mientras que en las secciones 2.3 y 2.4 se presentarán algunos enfoques existentes para extender la predicción a redes dirigidas y ponderadas, respectivamente.

2.1. El problema de la predicción de enlaces

En ésta sección se describen las principales definiciones del problema de la predicción de enlaces, aplicado a redes, que se han introducido en las investigaciones realizadas.

2.1.1. Sistemas de información modelados a través de

redes

Las investigaciones realizadas por Linyuan Lü et al. (2010) y Pulipati Srilatha et al. (2016) acerca del problema de la predicción de enlaces inician su desarrollo basándose en la posibilidad de modelar distintos sistemas reales a partir de redes.

(16)

Definición 2.1. Un grafo G se define como G = (V, E), donde V es un conjunto de vértices o nodos y E es un conjunto de aristas o vínculos.

El gráfico mostrado en la Figura 2.1 es un grafo simple no dirigido, con el conjunto {A, B, C, D, E, F} como vértices y el conjunto {a, b, c, d, e, f} como aristas. Un vínculo del nodo A al nodo B se denomina una ruta y es de longitud 1, mientras la ruta del nodo A al nodo D a través del nodo C es de longitud 2.

Definición 2.2. El conjunto de vecinos de un nodo

𝛤 (𝑥)

está compuesto por los nodos que se encuentran conectados a ese nodo a través de un enlace.

𝛤 (𝑥) = {𝑣 ∃ 𝑉 | (𝑥, 𝑣) ∃ 𝐸 ∨ (𝑣, 𝑥) ∃ 𝐸}

Definición 2.3. El grado

𝑘

_𝑥 de un nodo corresponde al número de aristas o enlaces conectados a ese nodo.

𝑘

_𝑥

= |𝛤(𝑥)|

Definición 2.4 La matriz de adyacencia

𝐴

_𝑖𝑗 se define como:

𝐴

_𝑖𝑗

= {

1 𝑠𝑖 𝑒𝑥𝑖𝑠𝑡𝑒 𝑢𝑛 𝑒𝑛𝑙𝑎𝑐𝑒 𝑑𝑒𝑠𝑑𝑒 𝑒𝑙 𝑛𝑜𝑑𝑜 𝑖 𝑎𝑙 𝑛𝑜𝑑𝑜 𝑗,

0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

Donde i y j son nodos en el grafo.

(17)

La matriz de adyacencia se utiliza para entender la existencia o ausencia de enlaces o bordes entre nodos en un gráfico, donde un 1 en la matriz indica la existencia de enlace o borde entre nodos en el gráfico mientras que una entrada 0 indica que no hay enlace o borde.

La longitud de una trayectoria mayor a 1 se puede calcular de la matriz de la adyacencia tomando sus potencias. Pero las entradas en la tabla permanecerán 0 o 1 para cualquier potencia de A excepto los elementos de la diagonal principal. Sin embargo, los principales elementos diagonales no tienen ningún papel que desempeñar con respecto a la predicción de enlaces ya que estos elementos indican enlaces o bordes a los mismos nodos.

Teniendo en cuenta estas definiciones, los investigadores plantean que muchos sistemas sociales, biológicos y de información pueden ser bien descritos por redes, donde los nodos representan individuos u otras entidades embebidas en un contexto social y los vínculos denotan las relaciones o interacciones, la colaboración o la influencia entre entidades. De ésta forma, se puede realizar un análisis de éstos sistemas complejos, utilizando una representación simple como lo son las redes.

2.1.2. Definición del problema de la predicción de enlaces

En el contexto de su investigación, basada en el estudio de redes complejas, Linyuan Lü et al. (2010) proponen una definición del problema de la predicción de enlaces orientada a la recuperación de información como una cuestión científica relevante para el análisis de red.

Definición 2.5. La predicción de enlaces es el problema más fundamental que intenta estimar la probabilidad de la existencia de un vínculo entre dos nodos, basado en enlaces observados y los atributos de los nodos.

Considerando una red no dirigida G (V, E), donde V es el conjunto de nodos y E es el conjunto de enlaces. Denotando por U el conjunto universal que contiene todos los enlaces posibles |V| (|V| -1), donde |V| denota el número de elementos del conjunto V. Entonces, el conjunto de enlaces inexistentes es U - E. Asumimos que hay algunos enlaces faltantes (o los enlaces que aparecerán en el futuro) en el conjunto U - E, y la tarea de predicción de enlaces es averiguar estos enlaces.

Por su parte, Pulipati Srilatha et al. (2016) , definen a la predicción de enlaces como una herramienta que ayuda a comprender enlaces potenciales, que pueden ocurrir entre nodos en una red durante un período de tiempo, orientando la utilización de la misma hacia la recomendación de personas o productos.

(18)

puede definirse como, dado el nodo E, cuáles son las probabilidades de que el nodo D y el nodo F deseen conectarse con el nodo E.

Para poner en práctica los conceptos de la predicción de enlaces, se han planteado diferentes métodos. En el siguiente apartado se proponen los algoritmos de predicción de enlaces como uno de éstos métodos para predecir relaciones en diferentes redes.

2.2. Algoritmos de predicción de enlaces

Pulipati Srilatha et al. (2016) explican que el objetivo de los algoritmos de predicción de enlaces es analizar los nodos existentes, los enlaces y sus atributos para predecir la posibilidad de enlaces potenciales, que es probable que sucedan durante un período de tiempo.

En esta sección se presentan los algoritmos de predicción de enlaces basados en similitud introducidos por Linyuan Lü et al. (2010) en su investigación para redes no dirigidas ni ponderadas, sus resultados y aplicaciones.

2.2.1. Algoritmos de predicción de enlaces basados en

similitud

Linyuan Lü et al. (2010) plantean que el marco más simple de los métodos de predicción de enlaces es el algoritmo basado en similitud, donde a cada par de nodos, x e y se le asigna una puntuación Sxy, que se define directamente como la similitud entre x e y. Todos los enlaces no observados se clasifican de acuerdo a sus puntuaciones, y los enlaces que conectan nodos más similares se supone que son de mayor probabilidad de existencia.

A pesar de su simplicidad, Linyuan Lü et al. (2010) se encuentran con que la definición de similitud de nodos es un desafío no trivial. El índice de similitud puede

(19)

ser muy simple o muy complicado y puede funcionar bien para algunas redes, mientras que no para otras.

La semejanza del nodo puede definirse usando los atributos esenciales de los nodos: dos nodos se consideran similares si tienen muchas características comunes. Sin embargo, Linyuan Lü et al. (2010) plantean que los atributos de los nodos son generalmente ocultos, y por lo tanto se centran en otro grupo de índices de similitud, llamado similitud estructural, que se basa únicamente en la estructura de la red.

Los índices de similitud pueden clasificarse sofisticadamente como equivalencia estructural (E. A. Leicht et al., 2006) y equivalencia regular (D. R. White et al., 1983). El primero representa una suposición latente de que el propio enlace indica una similitud entre dos puntos finales, mientras que el segundo supone que dos nodos son similares si sus vecinos son similares.

Un método simple para clasificar los índices de similitud es en tres tipos basados en la naturaleza de la similitud o el cálculo del índice: estructura local, estructura global, estructura cuasi-local.

2.2.1.1. Índices de Similitud basados en estructura Local

En este apartado se presentan los índices de similitud basados en estructura local de la red presentados por Linyuan Lü et al. (2010) en su investigación.

(1) Common Neighbours (CN). Para un nodo x, sea ℾ(x) el conjunto de vecinos de

x. En sentido común, dos nodos, x e y son más propensos a tener un enlace si tienen muchos vecinos comunes. La medida más simple de esta superposición de vecindad es el recuento dirigido, es decir,

𝑠

_𝑥𝑦𝐶𝑁

= |𝛤(𝑥) ∩ 𝛤(𝑦)|

(20)

(2) Salton Index. También llamado como similitud del Coseno se utiliza para encontrar el índice de similitud basado en el ángulo de coseno entre filas de matriz de adyacencia con los nodos x e y. Es definido como:

𝑠

_𝑥𝑦𝑆𝑎𝑙𝑡𝑜𝑛

=

|𝛤(𝑥) ∩ 𝛤(𝑦)|

√𝑘

𝑥

× 𝑘

𝑦

Donde 𝑘𝑥es el grado del nodo x.

(3) Jaccard Index. En 1901, Jaccard propuso una estadística para comparar similitud y diversidad de conjuntos de muestras. Este índice representa la relación de los vecinos comunes de los nodos x e y con los nodos vecinos de x e y. Como resultado el valor del índice de Jaccard impide que los nodos de mayor grado tengan un alto índice de similitud con otros nodos. Este índice se define como:

𝑠

_𝑥𝑦𝐽𝑎𝑐𝑐𝑎𝑟𝑑

=

|𝛤(𝑥) ∩ 𝛤(𝑦)|

|𝛤(𝑥) ∪ 𝛤(𝑦)|

(4) Sørensen Index. Es una medida similar a Jaccard propuesta por Sørensen en 1948 para medir las similitudes entre las especies y se utiliza principalmente para datos de comunidades ecológicas. El índice de Sørensen se calcula como la proporción de dos veces los vecinos comunes de los nodos x e y con la suma de los grados de los nodos x e y o del grado total de los nodos x e y. Se calcula de la siguiente manera:

𝑠

_𝑥𝑦𝑆ø𝑟𝑒𝑛𝑠𝑒𝑛

=

2 |𝛤(𝑥) ∩ 𝛤(𝑦)|

𝑘

_𝑥

+ 𝑘

_𝑦

(5) Hub Promoted Index (HPI). Es una medida definida como la relación de los vecinos comunes de los nodos x e y con el mínimo de grados de los nodos x e y. Este índice se propone para cuantificar la superposición topológica de pares de sustratos en redes metabólicas, y se define como:

(21)

Bajo esta medición, es probable que los enlaces adyacentes a los ejes tengan puntuaciones altas, ya que el denominador está determinado únicamente por el grado inferior.

(6) Hub Depressed Index (HDI). Análogamente al índice anterior, también se considera una medida con el efecto opuesto sobre los ejes, que se calcula como:

𝑠

_𝑥𝑦𝐻𝑃𝐼

=

|𝛤(𝑥) ∩ 𝛤(𝑦)|

𝑚𝑎𝑥{𝑘

_𝑥

, 𝑘

_𝑦

}

Este índice está definido como la relación de los vecinos comunes de los nodos x e

y con el máximo de los grados de los nodos x e y. HDI da una puntuación más baja en comparación con el índice HPI como la semejanza medida se calcula tomando máximo de los grados de los nodos x e y.

(7) Leicht-Holme-Newman Index (LHN 1). Este índice asigna alta similitud a los pares de nodos que tienen muchos vecinos comunes comparados no al máximo posible, sino al número esperado de tales vecinos. Se define como:

𝑠

_𝑥𝑦𝐿𝐻𝑁 1

=

|𝛤(𝑥) ∩ 𝛤(𝑦)|

𝑘

_𝑥

× 𝑘

_𝑦

Donde el denominador, 𝑘𝑥 × 𝑘𝑦 es proporcional al número esperado de vecinos comunes de los nodos x e y en el modelo de configuración.

(8) Preferential Attachment Index (PA). Las redes sociales se expanden a medida que nuevos nodos se unen y los nuevos nodos se unen con los nodos existentes que tienen mayor grado en comparación con los nodos de menor grado. Este mecanismo se puede utilizar para generar redes en evolución libre de escala, donde la probabilidad de que un nuevo enlace esté conectado al nodo x es proporcional a 𝑘𝑥 . Un mecanismo similar también puede conducir a redes sin escala y sin crecimiento, donde en cada paso de tiempo, un viejo vínculo se elimina y se genera un nuevo enlace. La probabilidad de que este nuevo enlace conecte x e y es proporcional a 𝑘𝑥 × 𝑘𝑦. El correspondiente índice de similitud puede definirse como:

(22)

(9) Adamic-Adar Index (AA). Este índice refina el simple recuento de vecinos comunes asignando a los vecinos menos conectados más peso, y se define como:

𝑠

_𝑥𝑦𝐴𝐴

=

∑

1 𝑙𝑜𝑔 𝑘

_𝑧

𝑧 ∃ 𝛤(𝑥) ∩ 𝛤(𝑦)

Donde z es un vecino común a los nodos x e y, y k es el grado del nodo z.

(10) Resource Allocation Index (RA). Este índice está motivado por la dinámica de asignación de recursos en redes complejas. Considerando un par de nodos, x e y, que no están conectados directamente. El nodo x puede enviar algún recurso a y, con sus vecinos comunes desempeñando el papel de transmisores.

En el caso más simple, suponemos que cada transmisor tiene una unidad de recurso, y la distribuirá igualmente a todos sus vecinos. La similitud entre x e y puede definirse como la cantidad de recurso y recibida de x, que es:

𝑠

_𝑥𝑦𝑅𝐴

=

∑

1 𝑘

_𝑧

𝑧 ∃ 𝛤(𝑥) ∩ 𝛤(𝑦)

Claramente, esta medida es simétrica, es decir, Sxy = Syx. Se puede observar que, aunque resultan de diferentes motivaciones, el índice de AA y el índice de RA tienen forma muy similar. De hecho, ambos deprimen la contribución de los vecinos comunes de alto grado.

2.2.1.2. Índices de Similitud basados en estructura Global

En este apartado se presentan los índices de similitud basados en estructura global de la red presentados por Linyuan Lü et al. (2010) en su investigación. En ella explican que, comparando con los índices de similitud locales, los globales piden toda la información topológica. Además, hacen hincapié en el hecho de que, aunque los índices globales pueden proporcionar predicciones mucho más precisas que las locales, sufren dos grandes desventajas: (i) el cálculo de un índice global requiere mucho tiempo, y es usualmente imposible para las redes a gran escala; (ii) a veces, la información topológica global no está disponible, especialmente si nos gustaría implementar el algoritmo de una manera descentralizada.

(23)

la longitud para dar más peso a los caminos más cortos. La expresión matemática para esta definición es la siguiente:

𝑠

_𝑥𝑦𝐾𝑎𝑡𝑧

= ∑

∞_𝑙=1

𝛽

𝑙

. |𝑝𝑎𝑡ℎ𝑠

_𝑥𝑦<𝑙>

| = 𝛽𝐴

_𝑥𝑦

+ 𝛽

2

(𝐴

2

₎

𝑥𝑦

+ 𝛽

3

(𝐴

3

)

𝑥𝑦

+. ..

,

donde 𝑝𝑎𝑡ℎ𝑠𝑥𝑦<𝑙> son el conjunto de todos los trayectos de longitud l que conectan x e

y, y β es un parámetro libre (es decir, el factor de amortiguación) que controla los

pesos de la trayectoria.

Obviamente, un β muy pequeño produce una medida cercana a CN, porque las trayectorias largas contribuyen muy poco. La matriz de similitud puede escribirse como:

𝑠

𝐾𝑎𝑡𝑧

= (𝐼 − 𝛽𝐴)

−1

− 𝐼.

Obsérvese que β debe ser menor que el recíproco del auto valor más grande de la matriz A para asegurar la convergencia de la ecuación 12.

(12)Leicht-Holme-Newman Index (LHN2). Este índice es una variante del índice de Katz. Basándose en el concepto de que dos nodos son similares si sus vecinos inmediatos son similares, se obtiene una formulación de matriz auto consistente:

𝑆 = 𝜑𝐴𝑆 + 𝜓𝐼 = 𝜓(𝐼 − 𝜑𝐴)−1_{= 𝜓(𝐼 + 𝜑𝐴 + 𝜑2𝐴2 + · · ·),}

Donde φ y ψ son parámetros libres que controlan el equilibrio entre los dos componentes de la similitud. Ajustando ψ = 1, es muy similar al índice de Katz. Obsérvese que(𝐴𝑙)𝑥𝑦 es igual al número de trayectorias de longitud l de x a y. El valor esperado de (𝐴𝑙)𝑥𝑦, es decir 𝐸[(𝐴𝑙)𝑥𝑦], es igual a (𝑘𝑥𝑘𝑦 /2𝑀) 𝜆1𝑙−1, donde 𝜆1 es el mayor autovalor de A y M es el número total de aristas en la red. Reemplazar

(𝐴𝑙)𝑥𝑦 en la Ec. 14 con (𝐴𝑙)𝑥𝑦/𝐸[(𝐴𝑙)𝑥𝑦] / E [(Al) xy], obtenemos la expresión:

𝑠

_𝑥𝑦𝐿𝐻𝑁2

= 𝛿

_𝑥𝑦

+

2𝑀

𝑘

_𝑥

𝑘

_𝑦

∑

∞

𝑙=0

𝜑

𝑙

𝜆

1−𝑙

(𝐴

𝑙

)

_𝑥𝑦

= [1 −

2𝑀𝜆

1

𝑘

_𝑥

𝑘

_𝑦

] 𝛿

𝑥𝑦

+

2𝑀𝜆

₁

𝑘

_𝑥

𝑘

_𝑦

[(𝐼 −

𝜑

𝜆

₁

𝐴)

−1

_]

(24)

Donde δxy es la función de Kronecker. Dado que el primer elemento es una matriz diagonal, puede ser eliminado y así llegamos a una expresión compacta:

𝑆 = 2𝑚𝜆

₁

𝐷

−1

(𝐼 −

𝜑

𝐴𝜆

₁

)

−1

_𝐷

−1

_,

Donde D es la matriz del grado con 𝐷𝑥𝑦 = 𝛿𝑥𝑦𝑘𝑥 y φ (0 <φ <1) es un parámetro libre. La elección de φ depende de la red investigada, y menor φ asigna más pesos en rutas más cortas.

(13) Average Commute Time (ACT). Denotando como m(x, y) al número promedio de pasos requeridos por un caminante aleatorio partiendo del nodo x para alcanzar el nodo y, describiendo el tiempo promedio entre x e y como n(x, y) = m(x, y) + m (y,

x), que se puede obtener en términos del pseudo-inverso de la matriz Laplaciana,𝐿+_{(𝐿 = 𝐷 − 𝐴) como}_{𝑛(𝑥, 𝑦) = 𝑀(𝑙}

𝑥𝑥+ + 𝑙𝑦𝑦+ − 2𝑙𝑥𝑦+ ),donde𝑙𝑥𝑦+ denota la entrada correspondiente en 𝐿+. Suponiendo que dos nodos son más similares si tienen un tiempo de conmutación promedio menor, entonces la similitud entre los nodos x e y puede definirse como el recíproco de n(x, y), a saber (el factor constante M se elimina):

𝑠

_𝑥𝑦𝐴𝐶𝑇

=

1 𝑙

_𝑥𝑥+

+ 𝑙

_𝑦𝑦+

− 2𝑙

_𝑥𝑦+

(14) Cosine based on L+. Este índice es una medida basada en el producto interno.

En el espacio euclidiano cubierto por 𝑣𝑥 = 𝛬 1

2𝑈𝑇 𝑒_𝑥, donde U es una matriz ortonormal formada por los vectores propios de 𝐿+ ordenados en orden decreciente del valor propio correspondiente 𝜆𝑥,𝛬 = 𝑑𝑖𝑎𝑔(𝜆𝑥), 𝑒𝑥es un vector N × 1 con el elemento xth igual a 1 y los demás todos iguales a 0, y T es la matriz de transposición, el pseudo-inverso de la matriz laplaciana son los productos internos de los vectores nodales, 𝑙𝑥𝑦+ = 𝑣𝑥𝑇𝑣𝑦.En consecuencia, la similitud coseno se define como el coseno de los vectores de los nodos:

(25)

(15) Random Walk with Restart (RWR). Este índice es una aplicación directa del algoritmo PageRank. Considere un caminante aleatorio partiendo del nodo x, que se moverá iterativamente a un vecino aleatorio con probabilidad c y regresará al nodo x

con probabilidad 1 - c. Denotando como 𝑞𝑥𝑦la probabilidad que este caminante aleatorio se localice en el nodo y en el estado estacionario, tenemos

𝑞𝑥 = 𝑐𝑃𝑇 𝑞𝑥 + (1 − 𝑐)𝑒𝑥,

Donde P es la matriz de transición con 𝑃𝑥𝑦 = 1 / 𝑘𝑥 si x e y están conectados, y 𝑃𝑥𝑦= 0 en caso contrario. La solución es sencilla, ya que

𝑞𝑥 = (1 − 𝑐)(𝐼 − 𝑐𝑃𝑇)−1𝑒𝑥.

El índice RWR se define como:

𝑠

_𝑥𝑦𝑅𝑊𝑅

= 𝑞

_𝑥𝑦

+ 𝑞

_𝑦𝑥

(16) SimRank

.

Al igual que el LHN2, SimRank se define de una manera auto consistente, de acuerdo con la suposición de que dos nodos son similares si están conectados a nodos similares:

𝑠

_𝑥𝑦𝑆𝑖𝑚𝑅𝑎𝑛𝑘

= 𝐶 ·

∑

𝑠

𝑧𝑧′

𝑆𝑖𝑚𝑅𝑎𝑛𝑘 𝑧′∈𝛤(𝑦)

𝑧∈ 𝛤(𝑥)

𝑘

_𝑥

· 𝑘

_𝑦

Donde 𝑠𝑥𝑥= 1 y C ∈ [0, 1] es el factor de desintegración. SimRank también puede ser interpretado por el proceso de caminata aleatoria, es decir, 𝑠𝑥𝑦𝑆𝑖𝑚𝑅𝑎𝑛𝑘 mide cuándo se espera que dos caminantes aleatorios, respectivamente, partiendo de los nodos x e y, se encuentren en un determinado nodo.

(17) Matrix Forest Index (MFI). Este índice se define como:

𝑆 = (𝐼 + 𝐿)

−1

Donde la similitud entre x e y puede ser entendida como la proporción del número de bosques de expansión de tal manera que los nodos x e y pertenecen al mismo árbol en x a todos los bosques de la red. Una variante dependiente de parámetros de MFI es:

(26)

Este índice se ha aplicado para cuantificar la similitud entre los nodos en la tarea de recomendación colaborativa. Los resultados indican que una regla simple de vecinos más próximos basada en la semejanza medida por MFI resulta en la mejor.

2.2.1.3. Índices de Similitud basados en estructura casi-Local

Como veremos en esta subsección, un compromiso prometedor es el de los índices cuasi-locales, que consideran más información que los índices locales mientras abandonan la información superflua que no contribuye o contribuye muy poco a la exactitud de la predicción.

(18) Local Path Index (LP). Para proporcionar una buena compensación de precisión y complejidad computacional, se introduce un índice que toma en consideración los caminos locales, con un horizonte más amplio que el CN. Se define como:

𝑠

𝐿𝑃

= 𝐴

2

+ 𝜀𝐴

3

,

Donde 𝜀 es un parámetro libre. Es evidente que esta medida degenera a CN cuando 𝜀 = 0. Y si x e y no están conectados directamente (este es el caso en el que interesa), (𝐴3₎

𝑥𝑦es igual al número de trayectorias diferentes con longitud 3 que conecta x e y. Este índice puede ampliarse para tener en cuenta las rutas de orden superior:

𝑠

𝐿𝑃(𝑛)

= 𝐴

2

+ 𝜀𝐴

3

+ 𝜀

2

𝐴

4

+. . . +𝜀

(𝑛−2)

𝐴

𝑛,

Donde n > 2 es el orden máximo. Con el aumento de n, este índice necesita de más información y cálculo. Especialmente, cuando n → ∞, SLP(n) será equivalente al índice de Katz que tiene en cuenta todos los caminos de la red.

La complejidad computacional de este índice en una red no correlacionada es 𝛩(𝑁 < 𝑘 >𝑛_{), que crece rápidamente con el incremento de n y superará la} complejidad para calcular el índice de Katz (aproximado a 𝛩(𝑁3)) para n grande. Los resultados experimentales muestran que el n óptimo se correlaciona positivamente con la distancia media más corta de la red.

(19) Local Random Walk (LRW). Para medir la similitud entre los nodos x e y, un

(27)

densidad inicial es 𝜋𝑥(0) = 𝑒𝑥 . Este vector de densidad evoluciona como 𝜋𝑥(𝑡 + 1) = 𝑃𝑇 _𝜋

𝑥(𝑡) para t ≥ 0. El índice LRW en el paso temporal t se define entonces como:

𝑠

_𝑥𝑦𝑆𝐿𝑅𝑊

(𝑡) = 𝑞

_𝑥

𝜋

_𝑥𝑦

(𝑡) + 𝑞

_𝑦

𝜋

_𝑦𝑥

(𝑡)

Donde q es la función de configuración inicial.

2.2.2. Análisis y evaluación

En ésta sección se detallan las estudios realizados por Linyuan Lü et al. (2010) para la evaluación de los algoritmos detallados en la sección anterior.

Para realizar estas pruebas, Linyuan Lü et al. (2010) tomaron como ejemplo seis redes reales, las cuales se corresponden con una red de interacción proteína-proteína (PPI), una red de coautoría de científicos que están publicando sobre el tema de la red de ciencia (NS), Una red de energía eléctrica del oeste de Estados Unidos (Grid), una red de blogs políticos de los Estados Unidos (PB), una Internet a nivel de enrutador recopilada por Rocketfuel Project (INT), y una red del sistema de transporte aéreo estadounidense (USAir).

(28)

Índices PPI NS Grid PB INT USAir

CN 0.889 0.933 0.590 0.925 0.559 0.937

Salton 0.869 0.911 0.585 0.874 0.552 0.898

Jaccard 0.888 0.933 0.590 0.882 0.559 0.901

SØrensen 0.888 0.933 0.590 0.881 0.559 0.902

HPI 0.868 0.911 0.585 0.852 0.552 0.857

HDI 0.888 0.933 0.590 0.877 0.559 0.895

LHN 1 0.866 0.911 0.585 0.772 0.552 0.758

PA 0.828 0.623 0.446 0.907 0.464 0.886

AA 0.888 0.932 0.590 0.922 0.559 0.925

RA 0.890 0.933 0.590 0.931 0.559 0.955

Tabla 2.1. Precisión de los diferentes índices de similitud locales.

Según los resultados experimentales extensivos en redes reales, el índice RA es el mejor, mientras que los índices AA y CN tienen el segundo mejor rendimiento general entre todos los índices locales mencionados. El índice PA tiene el peor desempeño general, pero se tiene un particular interés en él porque requiere la menor información. El índice LHN1 termina siendo el segundo peor, sin embargo, comparado con todos los otros índices basados en el vecindario, es muy bueno para descubrir los eslabones que conectan dos nodos de pequeño grado.

(29)

AUC PPI NS Grid PB INT USAir

LP 0.970 0.988 0.697 0.941 0.943 0.960

LP* 0.970 0.988 0.697 0.939 0.941 0.959

Katz 0.972 0.988 0.952 0.936 0.975 0.956

LHN 2 0.968 0.986 0.947 0.769 0.959 0.778

Precisión PPI NS Grid PB INT USAir

LP 0.734 0.292 0.132 0.519 0.557 0.627

LP* 0.734 0.292 0.132 0.469 0.121 0.627

Katz 0.719 0.290 0.063 0.456 0.368 0.623

LHN 2 0.000 0.060 5.000 0.000 0.000 0.005

Tabla 2.2. Resultados de tres índices de similitud dependientes de la estructura global o casi-global.

Por último, presentan una comparación de los índices LRW, CN, RA y LP, y otros dos índices globales basados en caminos aleatorios, ACT y RWR.

De acuerdo con los resultados experimentales (ver Tabla 2.3), el método LRW tiene mejores resultados que otros índices con su paso óptimo respectivo correlacionado positivamente con la distancia media más corta de la red.

Además, la complejidad computacional de LRW es menor que ACT y RWR, cuya complejidad temporal en el cálculo de inversa y pseudo-inversa es aproximadamente 𝛩(𝑁3), mientras que la complejidad en tiempo de n pasos LRW es aproximadamente 𝛩(𝑁 < 𝑘 >𝑛), ignorando el grado heterogeneidad de la red.

(30)

AUC CN RA LP ACT RWR HSM LRW SRW

USAir 0.954 0.972 0.952 0.901 0.977 0.904 0.972 0.978

NetScience 0.978 0.983 0.986 0.934 0.993 0.930 0.989 0.992

Power 0.626 0.626 0.697 0.895 0.760 0.503 0.953 0.963

Yeast 0.915 0.916 0.970 0.900 0.978 0.672 0.974 0.98

C. elegans 0.849 871.000 0.867 0.747 0.889 0.808 0.899 0.906

Precisión CN RA LP ACT RWR HSM LRW SRW

USAir 0.590 0.640 0.610 0.490 0.650 0.280 0.64 0.67

NetScience 0.260 0.540 0.300 0.190 0.550 0.250 0.54 0.54

Power 0.110 0.080 0.130 0.080 0.090 0.000 0.08 0.11

Yeast 0.670 0.490 0.680 0.570 0.520 0.840 0.86 0.73

C. elegans 0.12 0.13 0.14 0.07 0.13 0.08 0.14 0.14

Tabla 2.3. Comparación de los índices LRW, CN, RA y LP, y otros dos índices globales basados en caminos aleatorios

2.3. Predicción de enlaces en redes dirigidas

(31)

2.3.1. Inclusión del concepto de redes dirigidas en la

predicción de enlaces

Yan Yu et al. (2014) describen la predicción de enlaces para redes dirigidas basándose en la modificación del grafo que describe la red de forma que represente un grafo dirigido 𝐺 (𝑉, 𝐸), donde 𝑉 representa un conjunto de nodos y 𝐸 representa un conjunto de enlaces asimétricos entre estos nodos (ver Figura 2.3.).

En su investigación plantean que, en el contexto de un grafo dirigido, el análisis de los enlaces adquiere complejidad. Cuando un enlace es simétrico, sólo hay dos estados posibles: el enlace está presente o ausente. Cuando los enlaces son asimétricos o dirigidos, hay cuatro estados entre dos nodos: nodo 𝑢 hacia el nodo v, v hacia 𝑢, 𝑢 y v están mutuamente conectados, o la ausencia de un enlace entre 𝑢 y v. Si existe un enlace dirigido desde 𝑢 a v, se podría decir que v tiene una ventaja de potencia o estado sobre 𝑢, ya que v es más importante para 𝑢 que 𝑢 para v. De ésta forma, el enlace dirigido funciona como un indicador de la dirección en la que fluye la atención dentro de la red.

Teniendo en cuenta lo planteado, Yan Yu et al. (2014) introducen las definiciones de los conjuntos de vecinos de entrada y salida, y grados de entrada y salida de un nodo, que resultan de la adaptación de los conceptos de vecinos y grado del nodo, respectivamente, definidos para la predicción de enlaces en redes simétricas.

(32)

Definición 2.7. El conjunto de vecinos de salida de un nodo 𝛤𝑜𝑢𝑡 (𝑥) está compuesto por los nodos que se encuentran conectados a ese nodo a través de un enlace de

salida.

𝛤

_𝑜𝑢𝑡

(𝑥) = {𝑣 ∃ 𝑉 | (𝑥, 𝑣) ∃ 𝐸}

Definición 2.8. El conjunto de vecinos de entrada de un nodo 𝛤𝑖𝑛 (𝑥) está compuesto por los nodos que se encuentran conectados a ese nodo a través de un enlace de

entrada.

𝛤

_𝑖𝑛

(𝑥) = {𝑣 ∃ 𝑉 | (𝑣, 𝑥) ∃ 𝐸}

Definición 2.9. El grado de salida 𝑘𝑥𝑜𝑢𝑡 de un nodo corresponde al número de aristas o enlaces conectados a ese nodo a través de un enlace de salida.

𝑘

_𝑥𝑜𝑢𝑡

= |𝛤

_𝑜𝑢𝑡

(𝑥)|

Definición 2.10. El grado de entrada 𝑘𝑥𝑖𝑛 de un nodo corresponde al número de aristas o enlaces conectados a ese nodo a través de un enlace de entrada.

𝑘

_𝑥𝑖𝑛

= |𝛤

_𝑖𝑛

(𝑥)|

Tomando como punto de partida éstas especificaciones es posible llevar la predicción de enlaces basada en similitud a un enfoque que tenga en cuenta redes dirigidas.

2.3.2. Adaptación de los algoritmos Preferential

Attachment (PA) y Common Neighbors (CN)

(33)

medidas más representativas a la versión dirigida, para cumplir con el requisito de predecir tanto la existencia como la dirección de un arco entre dos nodos.

2.3.2.1. Preferential Attachment (PA)

Como se mencionó en la sección 2.2.1.1, éste es un algoritmo de predicción de enlaces básico, que se basa en la idea de que, cuanto más conectado se encuentra un nodo, más probable es que reciba nuevos enlaces. De esta forma, los nodos con grado más alto, tienen mayor capacidad de formar parte de enlaces que se agreguen a la red, siendo la probabilidad de que esto suceda proporcional al número de sus vecinos.

En redes dirigidas, y tal como se expuso en la sección anterior, las definiciones de vecinos y grado de los nodos se amplían para tener en cuenta la dirección del enlace, surgiendo los conjuntos de vecinos y grado de entrada y salida de un nodo.

Normalmente, los grados de entrada y salida de un nodo difieren. Por ésta razón, los autores plantean aprovechar ésta asimetría para extender el índice PA a la versión objetivo, sugiriendo que para un arco x → y en redes dirigidas, la puntuación PA podría definirse como:

𝑠

_𝑥𝑦𝑃𝐴∗

= 𝑘

_𝑥𝑜𝑢𝑡

× 𝑘

_𝑦𝑖𝑛

= |𝛤

_𝑜𝑢𝑡

(𝑥)| × |𝛤

_𝑖𝑛

(𝑦)|

La justificación presentada por los autores de la ecuación anterior es bastante trivial: desde la perspectiva de la difusión de información, cuanto más vecinos salientes tenga x mayor es su capacidad de transmitir mensajes; cuanto más vecinos de entrada tenga y mayor es su aptitud para atraer o recopilar información, lo que hace más probable que en el futuro se construya una conexión entre x e y.

2.3.2.2. Common Neighbors (CN)

El índice basado en vecinos comunes, también introducido en la sección 2.1.1.1, es un concepto muy importante en el que se basan casi todas las medidas locales de similitud.

En su investigación, Xue Zhang et al. (2014), enuncian el principio de cierre triádico en el análisis de redes sociales, que establece que si dos personas A y B tienen un amigo en común C, es muy probable que también sean amigos. De ésta forma, estos tres nodos forman un triángulo cerrado ABC.

(34)

conexión entre sí. Como se explicó en la sección 2.2.1.1, es fácil encontrar que Sxy = (𝐴2_{) xy, siendo A la matriz de adyacencia, y que obviamente (𝐴) xy = (𝐴) yx.}

Sin embargo, los autores plantean que, en las redes dirigidas, la matriz de adyacencia se vuelve asimétrica, y (𝐴2) xy resulta el número de caminos de longitud dos diferentes que existen desde x hacia y. En otras palabras, (𝐴2) xy mide cuántos “nodos de tránsito” en la red podrían re-enviar información desde x hacia y. Teniendo en cuenta que, cuanto mayor sea el número de estos “nodos de tránsito”, más probable será se construyan un enlace dirigido x → y, la extensión del índice CN en redes dirigidas podría definirse naturalmente como:

𝑠

_𝑥𝑦𝐶𝑁∗

= (𝐴̂

2

)

_𝑥𝑦

= |𝛤

_𝑜𝑢𝑡

(𝑥) ∩ 𝛤

_𝑖𝑛

(𝑦)|

Como se muestra en la Figura 2.4, a partir del análisis de la geometría, los índices CN pueden ser interpretados como el número de cierre tríadico en redes no dirigidas, mientras que en redes dirigidas este índice mide la formación de la estructura de avance.

De hecho, la extensión propuesta no es la única manera para la índice CN. Existen otros indicadores alternativos como:

(i) Índice de co-citación: | Γout (𝑖) ∩ Γout (𝑗) |.

(ii) Índice de acoplamiento bibliográfico: | Γin (𝑖) ∩ Γin (𝑗) |. (iii) Estructura de realimentación: | Γin (𝑖) ∩ Γout (𝑗) |.

De la figura 2.5 se puede observar que el índice de co-citación y el índice de acoplamiento bibliográfico no pueden representar de forma diferente un valor para x

(35)

→ y e y → x. La posibilidad de existencia de estos dos arcos será siempre la misma, por lo que estos índices no son adecuados para la predicción de enlaces en redes dirigidas. En este sentido, los autores plantean la elección de la estructura de avance en lugar de la estructura de retroalimentación, debido a que la investigación empírica demuestra que la primera es más popular en las redes del mundo.

2.3.3. Análisis y Evaluación

Para investigar el desempeño de estos índices modificados, Xue Zhang et al. (2014), diseñaron experimentos de simulación en cinco redes reales biológicas y tecnológicas dirigidas, cuyos resultados demuestran vívidamente su capacidad de predicción. Estas redes corresponden a FoodWeb1 (FW1): una red de redes alimentarias que representa las relaciones predador-presa entre 69 especies que viven en los Everglades Graminoids durante la temporada húmeda; FoodWeb2 (FW2): una red de redes alimentarias compuesta por 97 especies que viven en el estuario del manglar durante la estación húmeda; FoodWeb3 (FW3): una red de red de alimentos que consiste en 128 especies que viven en la Bahía de Florida durante la temporada de lluvias; C. elegans (CE): es la red neuronal del nematodo gusano C elegans, en el que un borde se une a dos neuronas si están conectados por una sinapsis o una unión de hueco; Blogs políticos (PB): es una red dirigida de hipervínculos entre weblogs en blogs políticos de los EEUU.

En su experimento, los resultados obtenidos señalan que el índice PA, que es considerado como el peor predictor en las redes no dirigidas, funciona muy bien, superando todas las demás medidas de similitud al identificar los enlaces faltantes y falsos. Por lo tanto la capacidad de predicción relativamente buena, junto con el menor requisito de información hace que el índice PA sea más competitivo en redes dirigidas.

(36)

2.4. Predicción

de

enlaces

en redes

ponderadas

En ésta sección se expone un enfoque propuesto para incluir el peso de los enlaces en la predicción. Para ello, se hace referencia a la investigación realizada por Liang Wang et al. (2013), en la que proponen la adaptación de tres de los algoritmos de predicción de enlaces basados en similitud más utilizados. En su experimento, enfocado en el análisis de la robustez de los algoritmos de similitud, realizan un intento de mejorar ésta robustez utilizando el método de ponderación de enlaces para transformar la red no ponderada en ponderada y luego hacer uso de los pesos de los enlaces para caracterizar la fiabilidad de los algoritmos.

2.4.1. Inclusión del peso en los algoritmos

Los investigadores plantean un intento de mejorar la robustez del algoritmo de predicción de enlaces mediante la ponderación de enlaces. Para ello definen un método para asignar a cada enlace un peso, que denote la probabilidad de existencia del enlace en redes reales.

El método utilizado considera el coeficiente de agrupación de enlaces como el peso de los mismos, denominado peso de estructura, que se define como:

𝑤

_𝑖𝑗

=

𝑁

𝑖𝑗

𝑚𝑎𝑥[𝑘

_𝑖

, 𝑘

_𝑗

]

Donde 𝑁𝑖𝑗 significa el número de vecinos comunes. En este caso no utiliza el peso real de las redes por algunas razones, una es que el cálculo de los pesos reales es más complicado que los pesos de la estructura, y debido a la existencia del efecto de lazos débiles en la predicción de enlaces, se hace más difícil asegurar los pesos más apropiados; por otro lado, los pesos estructurales pueden reflejar en cierta medida la estructura topológica de las redes, esta información puede ser útil para estos algoritmos de predicción de enlaces basados en la similitud topológica.

En éste contexto, se propusieron tres algoritmos ponderados:

(37)

𝑆

_𝑥𝑦𝐶𝑁∗∗

=

∑

𝑤(𝑥, 𝑧) + 𝑤(𝑧, 𝑦)

𝑧∈𝛤(𝑥) ∩ 𝑧∈(𝑦)

Donde w (x, z) = w (z, x) indica el peso del enlace entre los nodos x y z.

(2) Adamic-Adar (AA). Se define como:

𝑆

=

∑

𝑤(𝑥, 𝑧) + 𝑤(𝑧, 𝑦)

𝑙𝑜𝑔(1 + 𝑠(𝑧))

𝑧∈𝛤(𝑥) ∩ 𝑧∈(𝑦)

Donde 𝑠(𝑥) = ∑_{𝑧∈𝛤(𝑥)}𝑤(𝑥, 𝑧) denota la fuerza del nodo z.

(3) Resource Allocation (RA). Se define como:

𝑆

=

∑

𝑤(𝑥, 𝑧) + 𝑤(𝑧, 𝑦)

𝑠(𝑧)

𝑧∈𝛤(𝑥) ∩ 𝑧∈(𝑦)

Se debe tener en cuenta que, en la investigación presentada, no se tiene en cuenta si las redes son dirigidas, utilizando el mismo peso del enlace independientemente de la dirección del mismo.

2.4.2. Análisis y Evaluación

(38)

Network

Indices

CN

AA

RA

Neural

un-weighted

0.850

0.871

0.875 weighted

0.877

0.883

0.885 FW

un-weighted

0.610

0.616

0.623 weighted

0.680

0.676

0.671 PPI

un-weighted

0.706

0.707 weighted

0.707

0.707 Pblogs

un-weighted

0.918

0.920

0.922 weighted

0.924

0.925

0.925 Internet

un-weighted

0.711

0.713

0.713 weighted

0.715

0.715 Email

un-weighted

0.907

0.908

0.908 weighted

0.908

0.909

0.908 Grid

un-weighted

0.589

0.589 weighted

0.589

0.589 CCG

un-weighted

0.908

0.91

0.91 weighted

0.909

0.91

Tabla 2.4. Comparación de la precisión de los algoritmos CN, AA y RA antes y después de incorporar el peso como factor.

Como resultado de la evaluación, lo autores encuentran que la precisión del algoritmo es mejorada al incluir el factor del peso del enlace, como se muestra en la tabla 2.4, especialmente para algunas redes biológicas, como la red FW y Neural.

2.5. Conclusión

(39)

En primer lugar, se han presentado las definiciones utilizadas para la representación de redes, a través de las cuales se puede realizar un análisis computacional de las redes.

En segundo lugar, se realizó una introducción a los algoritmos de predicción de enlaces existentes en la literatura más utilizados en las investigaciones, basados en la similitud de los nodos. En este aspecto, se pudo observar que la mayoría de los autores se inclinan por la utilización de los algoritmos basados en similitud de alcance local, comprobando que, para una gran cantidad de redes, resulta óptimo utilizar el alcance local por su baja complejidad.

Dado que muchas de las redes de información actuales poseen enlaces orientados, existen autores que plantean la necesidad de adaptar los algoritmos de predicción de enlaces para éste tipo de redes. Algunos de estos autores han realizado adaptaciones de algunos de los algoritmos de predicción de enlaces para redes dirigidas. Por otro lado, en las redes reales, se puede atribuir a los enlaces fortalezas como un método de representar la interacción que se produce a través del enlace entre dos nodos. Por ésta razón, algunos autores plantean la inclusión del peso en los algoritmos de predicción de enlaces.

(40)

Capítulo 3

Algoritmos de predicción de enlaces

En éste capítulo se detalla el desarrollo de las tareas realizadas para alcanzar el objetivo propuesto para éste trabajo.

Debido a que la mayoría de los estudios sobre predicción de enlaces utilizan algoritmos que no tienen en cuenta características propias de las redes como son la dirección y el peso de los enlaces, el objetivo que se propone es seleccionar algoritmos de predicción de enlaces y adaptarlos para incluir éstas características de los enlaces. Se tiene como finalidad probar el rendimiento de éstos algoritmos para comprobar si al adicionar información de la red se obtienen resultados más precisos. Inicialmente, en la sección 3.1, se expondrán los puntos tenidos en cuenta para la selección del enfoque de predicción y de los algoritmos de predicción de enlaces que serán analizados y adaptados.

Luego, en la sección 3.2, se explicará en detalle el análisis realizado para adaptar los algoritmos de predicción de enlaces seleccionados, incluyendo las características de dirección y peso de la red, y se expondrán los nuevos índices extendidos.

3.1. Selección de Algoritmos de Predicción

(41)

Dado que el propósito de éste trabajo no es presentar nuevos algoritmos de predicción, sino adaptar algoritmos existentes de los cuales se tiene conocimiento previo, y tomando como antecedente los estudios descritos en el capítulo 2, durante el desarrollo de ésta tesis se ha abordado la predicción de enlaces desde la perspectiva basada en similitud.

Como se explicó anteriormente, estos algoritmos pueden clasificarse, según la naturaleza de la similitud, en algoritmos basados en estructura local, estructura global o casi-global. Esta clasificación agrupa conjuntos de índices dependiendo de la información de la red utilizada por cada uno para realizar los cálculos. De esta forma, los índices locales se centran en la información propia de los nodos, mientras que los índices globales tratan de abarcar la información de toda la red.

Este proyecto se ha centrado en los algoritmos locales. Esta elección se encuentra respaldada por distintas razones. En primer lugar, los algoritmos de base global requieren más tiempo y espacio que los basados en los locales. Algunas redes, como el micro blog, contienen cientos de millones de nodos. Esto implica que el algoritmo necesita ser aplicable a la red con millones de nodos, lo cual, para un alcance global, implica un costo mayor. En segundo lugar, Papadimitriou et al. (2012) encontró que algunos algoritmos basados en estructuras locales superan a otros algoritmos globales debido a que éstos últimos atraviesan la red a nivel global, no pudiendo capturar adecuadamente las características locales de la misma.

Por otro lado, la complejidad baja de los algoritmos basados en estructura local, hace posible extender los mismos para incluir diferentes características de la red, lo que para algoritmos complejos representaría un trabajo mucho más dificultoso y la complejidad sería aún mayor, elevando considerablemente el costo al aplicarse en una red extensa.

Finalmente, y debido a que cada índice de predicción tiene sus propias ventajas y es adecuado para diferentes tipos de redes, se decidió tomar un amplio conjunto de algoritmos para evaluar el comportamiento de cada uno de ellos.

A continuación se detallan los algoritmos de predicción basados en estructura local que fueron seleccionados como punto de partida para el desarrollo de éste proyecto:

i. Common Neighbours (CN)

ii. Salton Index

iii. Jaccard Index

iv. Sorensen Index

v. Hub Promoted Index (HPI)

vi. Hub Depressed Index (HDI)

vii. Leicht-Holme-Newman Index (LHN 1)