CAPÍTULO 6 EXPLORACIÓN INCREMENTAL EN BII-P2P
A. APÉNDICE A
de Gnutella para la métrica correspondiente a la columna que ocupan.
Para una lectura comparativa, la Tabla 5-10 resume los datos correspondientes a las 14 políticas consideradas para el caso de la búsqueda
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 179
BII-P2P con parámetros TTL=10 y =0,40. Para estos valores de TTL y la búsqueda inteligente supera al algoritmo BFS de Gnutella en ambas métricas
registradas, cualquiera sea la política de adaptación elegida. Existen otros casos donde se repite esta situación que pueden hallarse fácilmente a través de la lectura de las tablas presentadas en la sección ―Apéndice A‖.
Además de los datos referentes al rendimiento de la búsqueda BII-P2P que lo conforman la cantidad promedio de mensajes Query generados y el porcentaje
promedio de instancias halladas por búsqueda, la Tabla 5-10 se completó con información referente a la carga de tráfico extra generada por la política de adaptación elegida. Esta carga se cuantifica por el promedio de mensajes
NeuralInf que se generan cada vez que un nodo propaga información de
actualización.
Tabla 5-10 Políticas de actualización y su impacto sobre el tráfico de red. Datos correspondientes al caso de prueba BII-P2P(TTL=10;=0,40)
Política de Adaptación Rendimiento de la Búsqueda Política NeuralInfenviados enviados Query Instancias halladas
DLPA(1 ; 75) 6,23 3141,65 88,21 % DLP1 8,75 2077,30 79,86 % DLPA(2 ; 75) 42,08 2794,93 87,95 % DLP2 77,45 1931,33 82,87 % DLPA(3 ; 75) 240,70 2692,53 89,24 % DLP3 618,65 1971,68 85,71 % DLPA(4 ; 75) 1262,75 2687,10 88,90 % DLP4 4372,65 1975,70 87,09 % DLPA(5 ; 75) 5118,15 2674,48 89,67 % DLP5 16708,08 1975,95 86,83 % DLP6 21227,73 1977,98 87,18 % DLP7 21273,00 1974,85 86,83 % DLP8 21273,00 1973,78 86,75 % SIMPLE 21273,00 1974,00 86,75 %
Referencia comparativa: Algoritmo BFS de Gnutella para TTL=4 Query enviados=4.372,65 Instancias halladas=72,80%
180 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
Obsérvese que en todos los casos mostrados en la Tabla 5-10 BII-P2P supera al algoritmo BFS de Gnutella hallando un porcentaje mayor de instancias del
recurso buscado. Sin embargo, en relación al tráfico generado es necesario considerar cuidadosamente la sobrecarga que produce la política de adaptación.
Según se observa en la Tabla 5-10, la política Simple es desaconsejable debido a la gran cantidad de tráfico que genera la difusión de los mensajes
NeuralInf: 21.273 mensajes. Este número representa la cantidad de enlaces total
existente en la topología de la red P2P generada aleatoriamente. Obsérvese que la misma situación ocurre con las políticas DLP7 y DLP8 que, debido al tamaño de la red P2P se comportan como la política Simple transmitiendo los mensajes
NeuralInf por absolutamente todos los enlaces de la red cada vez que un nodo
inicia una difusión de actualización.
Para proponer el límite considerado aceptable para la sobrecarga de tráfico generada por las difusiones de actualización es necesario conocer la frecuencia con que los nodos inician solicitudes de búsqueda y propagan información de actualización —ver sección 4.2.3.5 ―Determinación de la Frecuencia de Actualización‖ en pág. 127—. Estoes difícil determinarlo a priori, dependerá de
los patrones de uso de la red P2P.
También es necesario considerar el rendimiento de la búsqueda BFS de
Gnutella que se pretende superar. De esta forma es posible elegir la política de
actualización de conocimiento más adecuada que garantice el mayor porcentaje de hallazgos conservando siempre la ventaja requerida respecto del tráfico generado por la búsqueda BFS.
A modo ilustrativo considérese el siguiente ejemplo: Supóngase que los nodos realizan una propagación de actualización cada cuatro solicitudes de búsqueda iniciadas por ellos mismos, el tráfico total generado por búsqueda se calcula como (4Q+N)/4, dónde Q es el número de mensajes Query generado por
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 181
búsqueda y N el número de mensajes NeuralInf generado por propagación de
actualización. La Tabla 5-11 muestra los resultados para este hipotético caso calculados en base a los datos obtenidos por la experimentación realizada para la estrategia BII-P2P(TTL=10;=0,40).
Tabla 5-11 Políticas de actualización y su impacto sobre el tráfico de red. Tráfico total por búsqueda calculado para el caso en que los nodos propaguen una difusión de actualización cada 4 solicitudes de búsqueda. Datos correspondientes al caso de prueba BII-P2P(TTL=10;=0,40)
Política N Q Tráfico Total (4 Q+N)/4 Instancias Halladas DLPA(1 ; 75) 6,23 3141,65 3143,21 88,21 % DLP1 8,75 2077,30 2079,49 79,86 % DLPA(2 ; 75) 42,08 2794,93 2805,44 87,95 % DLP2 77,45 1931,33 1950,69 82,87 % DLPA(3 ; 75) 240,70 2692,53 2752,70 89,24 % DLP3 618,65 1971,68 2126,34 85,71 % DLPA(4 ; 75) 1262,75 2687,10 3002,79 88,90 % DLP4 4372,65 1975,70 3068,86 87,09 % DLPA(5 ; 75) 5118,15 2674,48 3954,01 89,67 % DLP5 16708,08 1975,95 6152,97 86,83 % DLP6 21227,73 1977,98 7284,91 87,18 % DLP7 21273,00 1974,85 7293,10 86,83 % DLP8 21273,00 1973,78 7292,03 86,75 % SIMPLE 21273,00 1974,00 7292,25 86,75 % Referencia comparativa: Algoritmo BFS de Gnutella para TTL=4
Query enviados=4.372,65 Instancias halladas=72,80%
Observando la columna ―Tráfico Total‖ de la Tabla 5-11 se pone en evidencia que, bajo la hipótesis mencionada respecto de la frecuencia de actualización del sistema, las políticas de actualización Simple, DLP5, DLP6, DLP7 y DLP8, no son elegibles si se pretende mejorar el tráfico que genera el algoritmo BFS de Gnutella con TTL=4 —4.372,65 mensajes Query por
búsqueda—. Por el contrario, todas las otras políticas contempladas en la tabla representan casos favorables.
182 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
La Tabla 5-12 muestra el cálculo de tráfico total generado por búsqueda para distintas frecuencias de actualización de conocimiento. Obsérvese que si la frecuencia de actualización del sistema es demasiado alta, por ejemplo para el caso en que los nodos comiencen una propagación de actualización por cada solicitud de búsqueda iniciada por ellos mismos, la política DPL4 con un total de 6.348,35 mensajes, se convierte en una política no favorable. Si por el contrario la propagación de mensajes de actualización es menos frecuente, por ejemplo una cada 9 solicitudes de búsqueda, todas las políticas resultan favorables, incluso la política Simple que genera un promedio total de mensajes igual a 4.337,67.
Tabla 5-12 Políticas de actualización y su impacto sobre el tráfico de red. Tráfico total por búsqueda para distintas frecuencias de actualización de conocimiento. Datos correspondientes al caso BII-P2P(TTL=10;=0,40)
Política
Frecuencia de actualización: 1 propagación de actualización cada q solicitudes de búsqueda
q=1 q=2 q=4 q=7 q=9 DLPA(1 ; 75) 3147,88 3144,77 3143,21 3142,54 3142,34 DLP1 2086,05 2081,68 2079,49 2078,55 2078,27 DLPA(2 ; 75) 2837,01 2815,97 2805,45 2800,94 2799,61 DLP2 2008,78 1970,06 1950,69 1942,39 1939,94 DLPA(3 ; 75) 2933,23 2812,88 2752,71 2726,92 2719,27 DLP3 2590,33 2281,01 2126,34 2060,06 2040,42 DLPA(4 ; 75) 3949,85 3318,48 3002,79 2867,49 2827,41 DLP4 6348,35 4162,03 3068,86 2600,36 2461,55 DLPA(5 ; 75) 7792,63 5233,56 3954,02 3405,64 3243,16 DLP5 18684,03 10329,99 6152,97 4362,82 3832,40 DLP6 23205,71 12591,85 7284,91 5010,51 4336,62 DLP7 23247,85 12611,35 7293,10 5013,85 4338,52 DLP8 23246,78 12610,28 7292,03 5012,78 4337,45 SIMPLE 23247,00 12610,50 7292,25 5013,00 4337,67
Referencia comparativa: Algoritmo BFS de Gnutella para TTL=4 Query enviados=4.372,65 Instancias halladas=72,80%
Independientemente de cuál sea la frecuencia real de actualización del sistema, está claro que las políticas de adquisición y actualización de
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 183
conocimiento más convenientes son DLPi y DLPA(i;j) con un valor bajo del
parámetro i. Sin embargo, la disminución del valor de i puede degradar la
capacidad de búsqueda del sistema. Se pretende identificar el valor más ventajoso para el parámetro i. Para ello es necesario un análisis minucioso del impacto de
las políticas de adaptación sobre el tráfico generado y la capacidad de búsqueda simultáneamente.
Se ha definido la métrica E para medir la eficiencia de los mensajes Query, E = H/Q, siendo H el porcentaje promedio de instancias hallado por búsqueda y Q
la cantidad promedio de mensajes Query generado por búsqueda. Dividiendo la
cantidad de hallazgos por la cantidad de mensajes utilizados se consigue una medida de eficiencia de los mensajes Query, al cuantificar cuál es el aporte de
cada uno de ellos al hallazgo total de la búsqueda. La Tabla 5-13 muestra cómo afectan las políticas de adaptación a la eficiencia de los mensajes Query en el caso
revisado —BII-P2P con parámetros TTL=10 y =0,40—.
Tabla 5-13 Eficiencia de los mensajes Query para la búsqueda BII-P2P
(TTL=10;=0,40). EBFS=0,0166502 es la eficiencia alcanzada por BFS. E/EBFS
mide la eficiencia de los mensajes Query relativa a BFS para las distintas
políticas de adaptación definidas
Política E E/EBFS Política E E/EBFS
BFS 0,0166502 1,0000000 DPL3 0,0434728 2,6109488 DPLA(1;75) 0,0280776 1,6863217 DPL4 0,0440812 2,6474872 DPLA(2;75) 0,0314684 1,8899708 DPL5 0,0439450 2,6393049 DPLA(3;75) 0,0331446 1,9906429 DPL6 0,0440740 2,6470552 DPLA(4;75) 0,0330834 1,9869679 DPL7 0,0439694 2,6407750 DPLA(5;75) 0,0335292 2,0137406 DPL8 0,0439498 2,6395947 DPL1 0,0384452 2,3089956 SIMPLE 0,0439448 2,6392938 DPL2 0,0429106 2,5771831
En la Tabla 5-13 se ha incluido también la eficiencia de los mensajes Query
184 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
calcular la eficiencia relativa a BFS para cada una de las políticas evaluadas y que se visualizan en la columna encabezada por: E/ EBFS. En la Figura 5-19 se grafican estos valores para una mejor visualización.
Figura 5-19 Eficiencia de los mensajes Query relativa a BFS en la
búsqueda BII-P2P(TTL=10;=0,40) según las distintas políticas de adaptación definidas.
La Figura 5-19 muestra claramente que las políticas DLP superan a las DLPA analizadas aprovechando mejor cada mensaje Query que aporta una mayor
contribución al resultado final de la búsqueda. Pero también evidencia que conforme se aumenta el parámetro i de las políticas DLPi la ganancia en eficiencia
se hace cada vez menos significativa, tanto que DLP3 presenta valores muy similares a DLP8 y a la política Simple. Este resultado es altamente positivo porque establece que la propagación de los mensajes NeuralInf puede limitarse a
los nodos más cercanos —distancia 2 o 3 a lo sumo— manteniendo sin embargo un rendimiento muy alto de la búsqueda inteligente.
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 185
Tanto la Tabla 5-13 como la Figura 5-19 se refieren al caso de la búsqueda inteligente BII-P2P con parámetros TTL=10 y =0,40 analizado para cada una de las políticas propuestas. Sin embargo, en las tablas A-9, A-10, …, A-22
—presentadas a partir de la página 263 en la sección ―Apéndice A‖— se exponen muchos otros casos con los que se podría repetir el mismo análisis. En lugar de ello, por cada una de las políticas de actualización consideradas se ha obtenido el valor promedio de la eficiencia de los mensajes Query calculado entre los 132
valores conseguidos a partir de los distintos casos de prueba definidos. La Tabla 5-14 y la Figura 5-20 resumen estos resultados.
Tabla 5-14 Eficiencia de los mensajes Query en la búsqueda inteligente
BII-P2P promediada entre los 132 casos de prueba propuestos según las distintas políticas de adaptación definidas.
Política E E/EBFS Política E E/EBFS
BFS 0,0166502 1,0000000 DPL3 0,0457970 2,7505350 DPLA(1;75) 0,0351796 2,1128655 DPL4 0,0462903 2,7801665 DPLA(2;75) 0,0374046 2,2464955 DPL5 0,0460387 2,7650530 DPLA(3;75) 0,0389502 2,3393211 DPL6 0,0462724 2,7790891 DPLA(4;75) 0,0390217 2,3436181 DPL7 0,0460856 2,7678696 DPLA(5;75) 0,0394618 2,3700512 DPL8 0,0461140 2,7695755 DPL1 0,0418104 2,5111061 SIMPLE 0,0461018 2,7688450 DPL2 0,0454250 2,7281930
Si se analizan los datos presentados en la Tabla 5-14 y graficados en la Figura 5-20 respecto a la eficiencia de los mensajes Query junto a los expuestos en la
Tabla 5-11 y Tabla 5-12 respecto a la sobrecarga en el tráfico relacionada con las políticas de actualización, se concluye que DLP2 y DLP3 constituyen las políticas más convenientes. Sólo en caso que la frecuencia de actualización de conocimiento sea muy alta es aconsejable la utilización de DLP1 que genera mínima sobrecarga por difusiones de mensajes NeuralInf. De lo contrario y para
la mayoría de los casos DLP2 aparece como la mejor opción y alternativamente, si la frecuencia de actualización es más baja, DLP3 también puede alcanzar
186 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
excelentes resultados.
Figura 5-20 Eficiencia de los mensajes Query en la búsqueda inteligente
BII-P2P promediada entre los 132 casos de prueba propuestos según las distintas políticas de adaptación definidas
Debe considerarse además que la situación descripta en la sección 4.2.3.4
―Alcance Real de la Información de Actualización en DLP y DLPA‖ —pág. 125— no ha sido considerada en la experimentación y, sin embargo puede mejorar la eficiencia de los mensajes Query para las políticas DLPi cuando el
valor de i es pequeño —para valores más altos de este parámetro la eficiencia
permanece en un límite que no puede ser superado—. Este dato refuerza la idea sobre la conveniencia de utilizar una política DLPi con i pequeño y debe tomarse
como la conclusión más importante surgida de la evaluación sobre la capacidad de adaptación de BII-P2P.
Finalmente, para medir los efectos del enfoque híbrido de adquisición de conocimiento presentado en la sección 4.2.4 en la página 127, se midió la utilidad del aprendizaje en línea basado en LVQ1 procediendo de la siguiente manera:
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 187
Se partió de una configuración o descripción instantánea de un sistema P2P obtenido por medio del proceso de dos etapas descripto en la sección 5.2.1
―Experimentación‖ —pág. 176— construyendo una topología de 3.000 nodos que se sometió a una etapa de adquisición de conocimiento utilizando la política Simple para garantizar la mejor adaptación posible. Sea CI esta configuración inicial.
Luego se midió el rendimiento de la búsqueda BII-P2P para distintas parametrizaciones (TTL,) sobre la configuración CI de la red P2P por medio de la ejecución de 40 ensayos de búsqueda registrando los promedios de las métricas habituales —porcentaje de hallazgos y mensajes Query generados—. A partir de
entonces se definieron dos escenarios distintos:
i) Partiendo de la configuración CI se simularon 1.000 operaciones de
búsqueda provocando un cambio en el conjunto de recursos compartidos cada dos búsquedas completadas y sin realizar ningún tipo de adaptación. Sea CA la configuración de la red P2P así conseguida.
ii) Partiendo de la configuración CI se simularon 1.000 operaciones de
búsqueda con aprendizaje en línea basado en LVQ1 —=0.05—
provocando un cambio en el conjunto de recursos compartidos cada 2 operaciones de búsqueda. Sea CB la configuración de la red P2P así conseguida.
En ambos casos el cambio en el conjunto de recursos compartido consistió en el movimiento de un recurso desde un nodo a otro nodo de la red P2P. Luego se midió la forma en que estos cambios degradaron el rendimiento del sistema de búsqueda sobre ambas configuraciones CA y CB realizando nuevamente 40 ensayos de búsqueda —sin ningún tipo de adaptación entre ellos— para obtener los promedios de las métricas habituales.
188 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
Los resultados de la experimentación se muestran en la Tabla 5-15. En todos los casos de prueba definidos para distintas parametrizaciones (TTL; ) de BII-P2P el rendimiento de la búsqueda a partir de la configuración CB es ligeramente superior al conseguido a partir de la configuración CA. Sin embargo, las diferencias observadas no son estadísticamente significativas —p-valor de la prueba t-Student mayor a 0,01— por lo que aún no puede concluirse que el
aprendizaje en línea basado en LVQ1 atenúe efectivamente la pérdida de rendimiento que los cambios en el sistema producen sobre la búsqueda inteligente.
Tabla 5-15 Comparativa de BII-P2P con y sin aprendizaje LVQ1. CI=Configuración inicial. CA=Configuración luego de simular cambios sin
aprendizaje en línea. CB=Configuración luego de simular cambios utilizando aprendizaje en línea basado en LVQ1
BII-P2P (TTL; ) Configuración Mensajes Query enviados Porcentaje de recursos hallados (5; 0,50) CI 811,58 52,67 % CA 815,11 49,45 % CB 816,68 50,05 % (7; 0,55) CI 4133,33 93,72 % CA 4177,50 90,45 % CB 4174,08 90,66 % (10; 0,40) CI 1974,00 86,75 % CA 1976,22 84,01 % CB 1976,01 84,70 % (13; 0,35) CI 1232,13 81,58 % CA 1266,65 80,04 % CB 1269,91 80,13 %
Una característica importante del aprendizaje en línea basado en LVQ1 es que no genera tráfico sobre la red P2P. Por ello, conseguir resultados significativos con este tipo de aprendizaje sigue siendo una meta de interés. Los resultados expuestos en la Tabla 5-15 pueden considerarse preliminares y un indicio de su factibilidad. Por lo tanto se deja planteada como una línea futura de investigación
5.2 EVALUACIÓN DE LA CAPACIDAD DE ADAPTACIÓN 189
la profundización de esta estrategia de adquisición de conocimiento.
5.2.4
Conclusiones sobre la Capacidad de Adaptación
La capacidad de adaptación del sistema de búsqueda BII-P2P está relacionada con la habilidad de los nodos para adquirir conocimiento desde su entorno y así mantener bien ajustadas las redes neuronales que participan en las decisiones de encaminamiento de los mensajes Query. Esta habilidad a su vez se ve influenciada
por la política de adquisición y actualización de conocimiento utilizada en el sistema que regula la forma en que se propagan los mensajes NeuralInf con
información de actualización.
Las políticas de adaptación Simple, DLPi —Difusión Limitada en
Profundidad con parámetro TTL igual a i— y DLPA(i;j) —Difusión Limitada en
Profundidad y Anchura con parámetros TTL igual a i y porcentaje de selección de
vecinos igual a j— han sido minuciosamente examinadas por medio de un extenso
conjunto de casos experimentales.
Los resultados arrojados por la experimentación son concluyentes a favor de la utilización de la política DLPi con i < 4. Incluso DLP1, con impacto ínfimo
sobre el tráfico de la red, garantiza rendimientos de búsqueda muy superiores al algoritmo BFS de Gnutella. DPL2 mejora el rendimiento de DLP1 y, en menor
medida DLP3 mejora el rendimiento de DLP2. Así, conforme crece el valor del parámetro i la ganancia en eficiencia se va haciendo más pequeña hasta que
finalmente se estanca en un límite que no puede ser superado y que coincide con el rendimiento máximo de la búsqueda inteligente que, sin embargo, no se diferencia mucho del rendimiento alcanzado por DLP3.
De los resultados observados también se concluye que si la frecuencia con la que los nodos inician difusiones de mensajes NeuralInf es alta, la política más
conveniente será DLP1. Por el contrario, si esta frecuencia es baja, es posible utilizar DLP2 o DLP3 sin impactar de manera considerable sobre el tráfico de la
190 EVALUACIÓN DE LA BÚSQUEDA INTELIGENTE BII-P2P
red. Recuérdese que la frecuencia con que se desencadenan las difusiones de actualización está supeditada al dinamismo propio del sistema P2P y al parámetro umbral u de BII-P2P acordado previamente —ver sección 4.2.3.5 ―Determinación
de la Frecuencia de Actualización‖ en pág. 127—.
Por último, se concluye que el enfoque híbrido que combina difusiones de mensajes NeuralInf con entrenamiento en línea basado en LVQ1 puede aplicarse
en el caso que el ahorro de tráfico sobre la red sea muy prioritario, utilizando un valor para el umbral u muy alto que provoque una frecuencia muy baja de
difusiones de mensajes de actualización. Sin embargo los resultados de este enfoque de aprendizaje aún no son concluyentes y su profundización se plantea como una posible línea futura de investigación.
5.3
Conclusiones Generales sobre la Búsqueda
Inteligente en BII-P2P
La búsqueda inteligente implementada en BII-P2P constituye una innovación que resuelve con eficiencia el problema de la búsqueda de recursos en redes P2P puras no estructuradas. Basando su funcionamiento en la utilización de redes neuronales artificiales implantadas en todos los nodos del sistema P2P, la búsqueda inteligente mejora considerablemente el rendimiento del algoritmo BFS de Gnutella. La comprobada habilidad de las redes neuronales para predecir los
caminos más adecuados por dónde encaminar las solicitudes de búsqueda, es la responsable del alto porcentaje de decisiones acertadas que conducen a resultados exitosos y a una mejor utilización del ancho de banda de la red.
Los parámetros TTL y de la estrategia BII-P2P impactan significativamente sobre el rendimiento de la búsqueda inteligente. Determinar a priori los valores
más adecuados para estos parámetros puede resultar dificultoso, sin embargo se han presentado una gran cantidad de combinaciones de valores posibles, todas ellas indiscutiblemente ventajosas. Una regla empírica con la que muy
5.3 CONCLUSIONES GENERALES SOBRE LA BÚSQUEDA
INTELIGENTE EN BII-P2P 191
frecuentemente se mejora el rendimiento del algoritmo BFS de Gnutella en ambas
métricas consideradas —más instancias del recurso halladas y menos tráfico generado sobre la red—, consiste en utilizar un valor de TTL igual al doble del usado por Gnutella y un valor intermedio bajo para , entre 0,3 y 0,4. No
obstante, esta situación puede ser distinta dependiendo de la topología de la red P2P por lo que se aconseja especial cuidado en la elección del valor para el parámetro , especialmente en una red con muchos nodos dónde el impacto de este valor es más grande.
Se observa que, bajo las parametrizaciones adecuadas, el tamaño de la red P2P no influye significativamente en los resultados de las pruebas realizadas conservándose la ventaja en el rendimiento de BII-P2P respecto a BFS en todas las topologías de redes probadas.
Para que la búsqueda inteligente BII-P2P conserve en el tiempo su alto rendimiento, es necesario mantener actualizado el conocimiento adquirido por las redes neuronales de los nodos. El mecanismo de aprendizaje definido, basado en la difusión de información de actualización por parte de los nodos, permite la rápida adaptación del sistema. La eficiencia de este mecanismo se ve afectada por