Análisis sobre el dataset Les Miserables - Predicción de enlaces en redes sociales modeladas po

En esta sección se presentan los resultados obtenidos por la distintas métricas al aplicarlas sobre el dataset Les Miserables. Los mismos se muestran a través de distintas tablas que agrupan métricas de acuerdo a su tipo (comunes, con parámetros adicionales, combinadas, etc). Cada tabla está acompañada de las observaciones que se pudieron realizar sobre ella.

EXPERIMENTOS CON MÉTRICAS SIMPLES % Oc. # Pr. Métricas CN PA AA RA JC SI 10 1 80,40 / 73,78 9,75 / 5,48 82,92 / 73,78 78,04 / 70,12 75,60 / 70,63 78,04 / 71,95 2 48,78 / 85,53 9,75 / 18,29 52,43 / 93,29 47,56 / 81,09 43,90 / 76,21 41,46 / 75,60 3 30,89 / 82,31 6,50 / 15,83 30,89 / 81,70 33,33 / 87,19 31,70 / 85,97 31,70 / 83,53 20 1 80 / 54,78 24 / 16,16 80 / 54,78 84 / 57,28 70 / 43,28 76 / 49,61 2 55 / 64,57 17 / 17,61 62 / 75,23 65 / 79,57 53 / 62,23 54 / 62,11 4 36,93 / 84,23 11,50 / 23,02 39,83 / 61,69 37,19 / 87,40 34,16 / 74,14 31,83 / 71,85 35 2 64,14 / 50,34 16,66 / 9,89 66,6 / 51,74 70,83 / 58,62 61,66 / 46,35 61,66 / 44,55 3 61,11 / 66,5 19,44 / 21,35 58,88 / 62,46 60,55 / 65,32 52,22 / 52,98 53,88 / 57,93 4 0,53 / 69,70 17,08 / 26,55 53,88 / 77,39 52,22 / 73,53 46,80 / 61,92 48,05 / 61,23 50 3 56,27 / 40,76 22,51 / 18,66 53,24 / 40,41 57,14 / 47,79 48,05 / 34,69 49,35 / 32,9 4 53,46 / 49,91 18,50 / 19,91 53,67 / 47,37 52,48 / 48,67 45,23 / 39,49 45,23 / 41,06 5 49 / 54,39 16,88 / 22,4 50 / 53 48,22 / 51,96 41,21 / 44,24 42,51 / 44,60 % Oc. # Pr. Métricas SC HP HD LHN SP RP 10 1 60,97 / 57,31 60,97 / 58,53 78,04 / 71,95 41,46 / 40,24 12,19 / 9,14 2,43 / 2,43 2 47,56 / 82,31 39,02 / 71,34 42,68 / 72,50 30,48 / 56,70 12,19 / 21,95 1,21 / 2,43 3 30,08 / 79,26 27,64 / 75 33,33 / 84,14 21,95 / 60,36 8,94 / 19,51 3,25 / 6,70 20 1 76 / 48,28 60 / 45,66 58 / 37,11 50 / 36,16 24 / 15,11 4 / 4 2 52 / 63,45 39 / 55,95 54 / 61,11 32 / 41,45 17 / 20,28 2 / 1,28 4 29,83 / 68,40 26,83 / 69,28 31,66 / 66,73 19 / 48,83 16 / 36,19 2 / 5

35 2 59,16 / 42,71 50,83 / 45,48 57,5 / 43,42 35 / 28,09 23,33 / 16,97 3 / 3,75 3 53,33 / 53,44 38,33 / 48,39 50,55 / 53,79 26,11 / 31,96 22,77 / 27,52 5 / 7,19 4 45,69 / 58,71 41,80 / 62,46 45,13 / 59,33 31,38 / 43,44 22,50 / 36,94 5,41 / 7,64 50 3 50,64 / 36,54 46,75 / 37,31 50,64 / 36,46 34,63 / 27,28 28,13 / 22,33 4,32 / 2,53 4 45,56 / 40,06 44,26 / 43,21 46,06 / 39,61 29,97 / 29,85 27,59 / 27,79 3,89 / 4,30 5 42,33 / 43,27 40,86 / 51,24 39,68 / 41,26 30,56 / 35,27 25,45 / 32,09 4,15 / 5,16 Observaciones

A continuación se analizarán los resultados obtenidos para el dataset de Les Miserables, con el fin de exponer las diferentes conclusiones que se obtienen a partir de la aplicación de la técnica de predicción de enlace sobre conjuntos de datos con distintas características.

Inicialmente, la principal similitud que se observa con respecto a los resultados anteriores es que al aumentar la cantidad de predicciones sobre un determinado nodo, y manteniendo el mismo porcentaje de enlaces a ocultar, continúa disminuyendo considerablemente los valores de eficiencia mientras que aumentan los de recall, causado por el mismo motivo que el dataset de Jazz.

Por otra parte, como las características de las redes varían principalmente en la cantidad promedio de vecinos por nodo de cada una de ellas, al aumentar el porcentaje de enlaces a ocultar, la eficiencia del predictor disminuye, comportándose de forma inversa al dataset anterior. El motivo por el cual sucede lo mencionado anteriormente es que cada nodo, al contar con pocos vecinos, no se le puede ocultar un alto porcentaje de aristas ya que en ese caso no le queda un conjunto de entrenamiento significativo en el cual basar sus predicciones, tendiendo a la equivocación de las mismas y aumentando el factor azaroso de los resultados. Existe una métrica particular (PA) en la que al aumentar el porcentaje de enlaces a ocultar, aumenta la eficiencia de las predicciones, comportándose de forma anormal con respecto al resto y vale la pena analizar el motivo que lo produce. Si bien los resultados obtenidos para dicha métrica son inferiores al resto, las características topológicas de la red generan esta controversia. Como se explicó en la descripción del dataset, la red cuenta con nodos centrales que acaparan un gran porcentaje de las relaciones del grafo, y debido a que PA asigna una mayor probabilidad de relacionarse a aquellos nodos que tienen un alto grado, al subir el porcentaje de ocultamiento le habrán quitado una gran cantidad de aristas a dichos nodos, permitiendo que sea más probable acertar la predicción de alguna de ellas.

hecho de que, al igual que PA, no es una técnica que se encuentre basada en la cantidad de vecinos en común. Por lo tanto, la forma de calcular las similitudes para estas métricas no se ve afectada considerablemente por el cambio en las características topológicas como si sucede con el resto de los predictores.

El mejor predictor para una red de estas características, es decir, con una cantidad de nodos pequeña y una distribución de aristas desproporcionada, fue Adamic Adar, alcanzando valores máximos de eficiencia y recall de 82,92 / 73,78 respectivamente. Si bien la métrica de Common Neighbors se ubicó en segundo lugar, AA mejora los valores obtenidos ya que agrega la posibilidad de darle un mayor peso a aquellos vecinos en común que no estén muy relacionados. Este índice de similitud le asigna un valor más alto a aquellos nodos con grado menor, ya que los considera extraños, ventaja que se adapta perfectamente a la red en cuestión.

A diferencia del dataset de Jazz, la métrica de RA no mejora los resultados ya que el grado promedio del grafo es bajo, lo cual representa una desventaja en cuanto a la forma de calcular la similitud.

A modo de resumen, teniendo en cuenta que la métrica de CN se comporta correctamente para el dataset actual, y debido a que muchos de los predictores restantes son variaciones de ella, se obtienen resultados aceptables considerando que el tamaño de los conjuntos de entrenamientos para aplicar la técnica de predicción es reducido.

Por otra parte, es necesario también analizar aquellas métricas que obtuvieron resultados por debajo de la media. En este punto vale la pena destacar al menos dos predictores, los cuales son Shortest Path y Preferential Attachment, al igual que en el dataset anterior, ya que sus valores tanto de precisión como de recall son muy inferiores al promedio. Teniendo en cuenta que el camino más corto entre dos nodos del grafo en cuestión no representa un valor significativo para la predicción de enlaces, así como también que la forma de calcular la similitud de PA se ve perjudicada por las características de la red, es comprensible que se ubiquen dentro de las peor posicionadas.

Otro factor a tener en cuenta es que si bien hay métricas que cuentan con valores de eficiencia y recall bajos, todas se ubican por encima de los resultados obtenidos por el predictor al azar. Dicho factor afirma aún más la hipótesis de que a pesar de la características de la red, siempre se obtienen mejores desempeños basando las predicciones en cualquier atributo del grafo.

EXPERIMENTOS CON MÉTRICAS CON PARÁMETROS ADICIONALES

Métrica PD HT

Parám. Adicional Lambda Cant. de Iteraciones

% Oc. % Pr. 0.25 0.75 1 3 5 10 1 78,04 / 70,12 70,73 / 61,58 19,51 / 19,51 29,26 / 26,82 46,34 / 46,34 2 50 / 89,02 41,46 / 72,56 14,63 / 25 29,26 / 53,65 24,39 / 40,85 3 30 / 81,70 26,82 / 71,34 14,63 / 40,24 21,13 / 57,92 21,13 / 54,87 20 1 84 / 56,28 60 / 37,95 13 / 9,6 36 / 24 36 / 25 2 55 / 60,45 41 / 50,45 21 / 25,33 23 / 32 34 / 40,28 4 34 / 77,40 25,5 / 60,45 14,5 / 38,95 24,5 / 60,90 19,5 / 48,07 35 2 65 / 50,84 55 / 40,74 25 / 18,9 43 / 37,54 33,3 / 33,72 3 58,33 / 60,65 44 / 47,40 20 / 20,28 33,88 / 38,61 32,77 / 38 4 51,52 / 68,82 38,33 / 50,84 15,83 / 21,58 26,6 / 38,42 29,58 / 44,66 50 3 53,24 / 38,19 37,22 / 27,58 25,97 / 22,32 34,63 / 26,63 30,73 / 21,63 4 48,26 / 42,28 31,92 / 31,13 24,13 / 24,82 28,24 / 26,23 31,49 / 29,53 5 46,14 / 48,34 32,66 / 35,80 18,76 / 24,98 28,33 / 34,12 28,31 / 35,63 Observaciones

Continuando con el análisis de los resultados obtenidos a partir del dataset Les

Miserables, es necesario describir cómo se comportaron aquellas métricas con parámetros adicionales. Para el predictor de Parameter Dependent, el comportamiento es similar al dataset

de Jazz, ya que alcanza sus valores máximos con el parámetro de lambda definido

en 0.25. Esto se debe a que la red se adapta mejor a las métricas basadas en

vecinos en común y sus variantes. Si bien el desempeño de la métrica alcanza

valores de eficiencia y recall de 78,04 / 70,12 respectivamente, no alcanza para

destacarse entre los mejores predictores. Para Hitting Time, lógicamente a medida que aumenta la cantidad de iteraciones,

los resultados obtenidos mejoran hasta llegar a un tope en el cual repetir intentos

para llegar a destino entre dos nodos se vuelve insignificante. Los valores máximos

para una métrica que basa su cálculo de similitud parcialmente en el azar, y superando otros predictores como Preferential Attachment o Shortest Path.

EXPERIMENTOS CON LA COMBINACIÓN DE MÉTRICAS

Para realizar las diferentes pruebas sobre la métrica combinada, se eligió aquella configuración de parámetros donde se obtuvieron los mejores resultados. En este caso, el porcentaje de enlaces a ocultar va a ser del 10% mientras que la cantidad de predicciones por nodo será de 1. A continuación se lista las combinaciones realizadas junto con los resultados de eficiencia y recall obtenidos. Vale la pena aclarar que los predictores seleccionados fueron basados en cómo se desempeñaron inicialmente de forma individual, los cuales podrían representar una potencial mejoras al combinarlos.

AA + CN = 85,36 / 78,04 Mejora RA + JC = 73,17 / 66,46 No mejora HP + HD = 65,85 / 61,58 Promedio LHN + PA = 4,87 / 2,4 Empeora AA + SC = 78 / 72,56 Promedio CN + SI = 85,36 / 76,21 Mejora

Así como existieron combinaciones que mejoraron los resultados de forma individual, otras de ellas resultaron ser un punto medio entre ambos predictores. Además, en una ocasión disminuyó el desempeño de ambas métricas por separado. Dichas variantes reflejan que la combinación de métricas en la técnica de predicción de enlace es útil pero debe realizarse de forma consciente, identificando potenciales uniones en base a la forma de calcular la similitud de cada una de las métricas por separado.

EXPERIMENTOS CON EL PREPROCESAMIENTO DE CLUSTERING

Por último, se analizan los valores obtenidos luego de aplicar la técnica de clustering con el fin de aumentar la eficiencia de los predictores. Para ello se especifican las distintas configuraciones elegidas y la forma en que se comportaron, además del porcentaje de clustering aplicado.

Mejor valor: AA con 10% y 1 predicción= 82,92 / 73,78. 5%: 79,07 / 76,83 No mejora

10%: 69,57 / 75,61 No mejora 20%: 70,59 / 15,85 No mejora

Valor intermedio: LHN 10% y 1 predicción = 41,46 / 40,24 5% = 53,66 / 51,22 Mejora

10% = 59,52 / 59,76 Mejora 20% = 54,55 / 58,54 Mejora

Peor Valor: SP 50% y 4 predicciones = 27,59 / 27,79 5%= 25 / 26,71 No mejora

10%= 24,68 / 26 No mejora 20% 11,56 / 67,57 No mejora

Para el caso de la red Les Miserables, es difícil que la técnica de clustering ayude a los porcentajes finales de cada predictor ya que al ocultar enlaces previo a la ejecución, se continúa reduciendo los conjuntos de entrenamiento. De esta forma, cada nodo no cuenta con la cantidad de aristas necesarias como para poder predecir correctamente el resto.

Como conclusión, para el caso de la red en cuestión, la técnica de clustering ayuda sólo en el caso de la métrica LHN en la cual aumenta considerablemente el desempeño de la misma. El motivo de ello es que la métrica asigna valores altos de similitud a aquellos pares de nodos que tengan muchos vecinos comunes en comparación con el producto de la cantidad de vecinos de cada uno, donde este último factor se ve reducido por el ocultamiento de enlaces previo.

In document Predicción de enlaces en redes sociales modeladas por grafos (página 93-99)