Procesos de propagación de información en redes complejas

Texto completo

(1)TESIS MAESTRIA EN CIENCIAS FISICAS. Procesos de Propagación de Información en Redes Complejas Jean Pierre Chauny. Dr. Damián Zanette Director. ETH El. Ing Jean Pierre Chauny Maestrando. Instituto Balseiro Comisión Nacional de Energı́a Atómica Universidad Nacional de Cuyo. Diciembre 2005.

(2) ii.

(3) Resumen En este trabajo estudiamos procesos de propagación de información en redes complejas, ası́ como un mecanismo no supervisado de detección y corrección de errores basado en la estructura de clusters de la red. Mediante un algoritmo particular de construcción de redes definimos una clase de redes complejas dirigidas. Una probabilidad, la aleatoriedad de la red, nos permitió interpolar entre redes ordenadas y redes aleatorias. El estudio de las propiedades geométricas se realizó midiendo tres cantidades: el número de salidas, la distancia media y el grado de clustering. Esto nos llevó a clasificar las redes en cuatro tipos: red ordenada, red aleatoria, red totalmente conectada y red small world dirigida. Una dinámica de interacción sencilla modela el proceso de propagación de información. En ese contexto nos interesamos en la evolución temporal del número de nodos informados en función de los parámetros topológicos de la red. Las evidencias numéricas demuestran que las propiedades dinámicas son fuertemente influenciadas por la topologı́a de las redes subyacentes. La red totalmente conectada nos permitió validar nuestros algoritmos computacionales, ya que concede un tratamiento analı́tico cerrado. Asimismo este tipo de red nos condujo a una clasificación fenomenológica de las redes aleatorias y small world dirigidas a través de un tiempo caracterı́stico que describe la velocidad de propagación. La red ordenada, por su lado, mostró dos regı́menes dinámicos: uno esencialmente lineal cuando la conectividad de la red es mucho menor que el número de nodos y otro de tipo “logı́stico” cuando la conectividad es del orden del número de nodos. El régimen lineal fue descripto por una ecuación integro diferencial que nos permitió modelar el proceso de propagación como dos ondas “informativas” desplazándose a través de la red en direcciones opuestas y con una velocidad constante proporcional a la conectividad de la red. Finalmente estudiamos un mecanismo no supervisado de detección y corrección de errores. Para esto se introdujo ruido en la transmisión a través de una dada probabilidad y una interacción sencilla, a primeros vecinos entrantes, que permite a los agentes detectar y corregir errores. Nos interesamos en la fracción de nodos desinformados en función de los parámetros que gobiernan el ruido y el mecanismo de corrección, ası́ como de la geometrı́a de la red subyacente. Las simulaciones numéricas demostraron que las redes con alto grado de clustering se encuentran en desventaja cuando se introduce ruido en los canales de transmisión, pero que son más eficientes en detectar y corregir errores.. iii.

(4) iv Palabras clave: sistemas complejos, redes complejas, propagación de información, red small world dirigida, detección de errores, corrección de errores..

(5) Abstract We study processes of information propagation on complex networks and non-supervised detection and correction mechanisms based on the clustering structure of the underlying networks. By means of a specific construction algorithm we define a class of directed complex networks. The network randomness is a probability that allows us to interpolate between ordered and random networks. The study of geometrical properties is made by measuring three quantities: the number of outgoing edges, the mean distance and the clustering coefficient. This leads us to classify the networks in four different types: ordered, random, totally connected and directed small world networks. A simple dynamic interaction models the information propagation process. Within that context we are interested in the temporal evolution of the number of informed nodes related to the topological parameters of the networks. Numerical evidences show that the dynamical properties are strongly influenced by the geometry of the underlying networks. The totally connected network lets us validate our computer algorithms because it grants a complete analytical treatment. It also leads us to a phenomenological classification of the random and directed small world networks through a characteristic time which describes the propagation speed. On the other hand, the ordered network shows two different dynamical phases: an essentially linear one when the connectivity is much lesser than the number of nodes and a kind of “logistic” one when the connectivity is of the order of the number of nodes. The linear phase is described by an integral differential equation which lets us to model the propagation process as two information waves. These waves move through the network in opposite directions at a constant speed which is proportional to the connectivity. Finally we study a non supervised detection and correction mechanism. For this purpose we introduce noise in the transmission by a given probability and an elementary interaction process with the first incoming neighbours so that the agents are able to detect and correct this errors. We are interested in the fraction of the wrongly informed nodes related to the parameters that control the noise and the correction mechanism, as well as to the geometrical properties of the underlying networks. The numerical simulations show that the networks with a high clustering coefficient are more sensitive to the noise in the transmission channels but, at the same time, they are more efficient in detecting and correcting errors.. v.

(6) vi Keywords: complex systems, complex networks, information propagation, directed small world network, error detection, error correction..

(7) Índice general 1. Introducción. 1. 1.1. ¿Qué son redes complejas? . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Procesos de propagación de información . . . . . . . . . . . . . .. 4. 2. Descripción del modelo. 7. 2.1. El algoritmo de construcción de las redes. . . . . . . . . . . . . .. 7. 2.2. La dinámica de interacción . . . . . . . . . . . . . . . . . . . . .. 9. 3. Propiedades geométricas de la red. 13. 3.1. El número de salidas ZS . . . . . . . . . . . . . . . . . . . . . . .. 13. 3.2. La distancia media L . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 3.3. El grado de clustering C . . . . . . . . . . . . . . . . . . . . . . .. 19. 4. Clasificación de las redes 4.1. La red totalmente conectada. 25 . . . . . . . . . . . . . . . . . . . .. 25. 4.2. La red small world dirigida . . . . . . . . . . . . . . . . . . . . .. 26. 5. Propiedades dinámicas. 31. 5.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. 5.2. La red totalmente conectada. . . . . . . . . . . . . . . . . . . . .. 33. 5.3. La red ordenada . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 5.4. La red aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 5.5. La red small world dirigida . . . . . . . . . . . . . . . . . . . . .. 43. 6. Mecanismos de detección y corrección de errores vii. 45.

(8) viii. ÍNDICE GENERAL. 6.1. Canales ruidosos . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 6.2. Detección y corrección de errores . . . . . . . . . . . . . . . . . .. 48. 7. Conclusiones Bibliografı́a. 53 57.

(9) Índice de figuras 1.1. Los sistemas complejos como enlaces entre distintos niveles de abstracción. Un ejemplo de los sistemas biológicos. . . . . . . . .. 2. 1.2. Los sistemas complejos permiten modelarse como redes dirigidas o redes bidireccionales. . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1. Cada uno de los vértices cuenta con conexiones dirigidas hacia sus 2k primeros vecinos. . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.2. Ilustración esquemática de un paso elemental en el proceso de desordenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.3. Interpolación entre redes ordenadas y redes aleatorias mediante la aleatoriedad de la red p. Para valores intermedios de p la red presenta propiedades small world. . . . . . . . . . . . . . . . . . .. 9. 2.4. Red ordenada dirigida unidimensional de N = 20, k = 2 con condiciones de contorno periódicas . . . . . . . . . . . . . . . . .. 10. 2.5. Red ordenada dirigida unidimensional de N = 20, k = 3 con condiciones de contorno periódicas . . . . . . . . . . . . . . . . .. 11. 3.1. Solución analı́tica (ecuación 3.4) de la distribución del número de salidas ZS para distintos valores de la conectividad k. La aleatoriedad de la red es fija, p = 1. . . . . . . . . . . . . . . . . . . . .. 14. 3.2. Solución analı́tica (ecuación 3.4) de la distribución del número de salidas ZS para distintos valores de la aleatoriedad de la red p. La conectividad de la red es fija, k = 5. . . . . . . . . . . . . . .. 15. 3.3. Resultados numéricos y solución analı́tica de la distribución del número de salidas ZS . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 3.4. Valor absoluto de la distancia media L en función de la aleatoriedad de la red p para distintos valores de la conectividad k (Número de Nodos N = 100, 1000 realizaciones). . . . . . . . . .. 17. ix.

(10) x. ÍNDICE DE FIGURAS 3.5. Valor relativo de la distancia L(p) L(0) en función de la aleatoriedad de la red p para distintos valores de la conectividad k (Número de Nodos N = 100, 1000 realizaciones). . . . . . . . . . . . . . .. 18. 3.6. La distancia media L es una variable aleatoria. Valor medio y dispersión de L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones. . . . . . . . . . . . . . . . . . . . . .. 19. 3.7. Distribución de probabilidades P ( L(p) = j ) de la distancia media L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones. Nótese la influencia de p en la dispersión de la distribución. (Continua en la figura 3.8) . . . . . . . . . . . . .. 20. 3.8. Distribución de probabilidades P ( L(p) = j ) de la distancia media L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones. Nótese la influencia de p en la dispersión de la distribución. (Viene de la figura 3.7) . . . . . . . . . . . . . . .. 21. 3.9. Si el individuo A es amigo de los individuos B y D, entonces existe una probabilidad grande que por su lado B y D también sean amigos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22. 3.10. El grado de clustering C se basa en el conteo de las relaciones triangulares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 3.11. El valor medio del grado de clustering C en función de la aleatoriedad de la red p para distintos valores de la conectividad k (N = 100, 5000 realizaciones). . . . . . . . . . . . . . . . . . . . .. 23. 3.12. El valor medio del grado de clustering relativo C(p) C(0) en función de la aleatoriedad de la red p para distintos valores de la conectividad k (N = 100, 5000 realizaciones). . . . . . . . . . . . . . . . . . . .. 24. 4.1. La red totalmente conectada (N = 20). . . . . . . . . . . . . . . .. 26. 4.2. La distancia media relativa C(p) C(0). L(p) L(0). y el grado de clustering relativo. en función de la aleatoriedad p (N = 1000, k = 5). . . . . .. 27. 4.3. El indicar κ nos permite seleccionar de manera cualitativa la red small world más reprentativa. (N = 1000, k = 5, psmallworld ≈ 10−2 ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. 4.4. Indicador κ(p) en función de la aleatoriedad p para distintos valores de k. El intervalo de psmallworld es pequeño (N = 100). . . .. 28. 4.5. Indicador κ(p) en función de la aleatoriedad p para distintos valores de k. El intervalo de psmallworld es pequeño (N = 1000). . .. 29. 5.1. El número de nodos informados en función del tiempo I(t) es un proceso estocástico. (3 realizaciones para N = 1000, k = 5 y p = 10−2 ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32.

(11) ÍNDICE DE FIGURAS. xi. 5.2. Para cada valor fijo t0 del tiempo, I(t0 ) es una variable aleatoria con una distribución de probabilidades asociada. . . . . . . . . .. 32. 5.3. Ilustración de ayuda para la derivación analı́tica de la probabilidad de informar Πtc (I) de la red totalmente conectada. . . . . .. 35. 5.4. La ecuación diferencial que describe la dinámica de la red totalmente conectada graficada en el espacio de las fases. Se pueden apreciar dos puntos fijos, uno inestable para I = 0 y otro estable para I = N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 5.5. Simulación numérica y solución analı́tica de Itc (t). Se grafican dos soluciones analı́ticas para Itc (0) = 1 y Itc (0) = 0,5 respectivamente de acuerdo a la expresión de la ecuación 5.14. . . . . . .. 36. 5.6. I(t) de redes ordenadas para distintos valores de la conectividad k (k ¿ N ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 5.7. I(t) de redes ordenadas para distintos valores de la conectividad k. (k ≈ O[N ]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 5.8. El perfil espacial n(ξ) de la onda informativa en función de la conectividad k cuando se propaga en redes ordenadas en el régimen lineal (k ¿ N ). . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 5.9. Velocidad de propagación vf del frente de onda informativa en función de k y fe . Comparación entre resultados numéricos de la solución analı́tica de la ecuación integro diferencial y mediciones de vf en las simulaciones de propagación de información en redes ordenadas (N = 1000, p = 0, 1000 realizaciones). . . . . . . . . .. 39. 5.10. La evolución temporal del número de nodos informados I(t) para distintos valores de la conectividad k y p = 1 (N = 1000, 1000 realizaciones). . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 5.11. La evolución temporal del número de nodos informados I(t) para distintos valores de p > psmallworld y k = 5 (N = 1000, 1000 realizaciones). . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 5.12. La calidad de la descripción fenomenologica va disminuyendo conforme p decrece en dirección de psmallworld . . . . . . . . . . . . .. 42. 5.13. El tiempo caracterı́stico τ (p) en función de la aleatoriedad p para distintos valores de la conectividad k (N = 1000, 1000 realizaciones). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. 5.14. La red small world dirigida no permite ser descripta fenomenológicamente por la ecuación 5.23. . . . . . . . . . . . . . . . . . . . .. 43. 5.15. El tiempo caracterı́stico τ (p) en función de la aleatoriedad p para distintos valores de la conectividad k (N = 1000, 1000 realizaciones). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44.

(12) xii. ÍNDICE DE FIGURAS 6.1. La fracción de nodos desinformados i− en función de la probabilidad de informar erróneamente pE para distintos valores de la aleatoriedad de la red p, (N = 1000, k = 5, 2500 realizaciones). .. 46. 6.2. La fracción de nodos desinformados i− en función de la probabilidad de informar erróneamente pE para distintos valores de la aleatoriedad de la red p, (N = 1000, k = 10, 1000 realizaciones).. 47. 6.3. La fracción de nodos desinformados i− en función de la conectividad k para distintos valores de p y para una probabilidad de error fija pE = 10−2 (N = 1000, 3000 realizaciones). . . . . . . .. 47. 6.4. La fracción de nodos desinformados i− en función de la conectividad k para distintos valores de p y para una probabilidad de error fija pE = 10−3 (N = 1000, 7000 realizaciones). . . . . . . .. 48. 6.5. La fracción de nodos desinformados i− en función de la probabilidad de corrección pC para un valor fijo de pE = 10−2 , un valor fijo de la conectividad k = 5 para distintos valores de la aleatoriedad de la red p (N = 1000, 5000 realizaciones). . . . . .. 49. 6.6. La fracción de nodos desinformados i− en función de la probabilidad de corrección pC para un valor fijo de pE = 10−3 , un valor fijo de la conectividad k = 5 para distintos valores de la aleatoriedad de la red p (N = 1000, 10000 realizaciones). . . . .. 50. (pC ) 6.7. La fracción relativa de nodos desinformados i− i− (0) en función de la probabilidad de corrección pC para un valor fijo de pE = 10−2 , un valor fijo de la conectividad k = 5 para distintos valores de la aleatoriedad de la red p (N = 1000, 5000 realizaciones). . . . . .. 50. (pC ) 6.8. La fracción relativa de nodos desinformados i− i− (0) en función de la probabilidad de corrección pC para un valor fijo de pE = 10−3 , un valor fijo de la conectividad k = 5 para distintos valores de la aleatoriedad de la red p (N = 1000, 10000 realizaciones). . . . .. 51.

(13) Capı́tulo 1. Introducción 1.1.. ¿Qué son redes complejas?. Cientı́ficos, ingenieros y otros profesionales, pertenecientes a las más diversas disciplinas, se han visto confrontados a lo largo de la historia, con el reto de entender y describir las propiedades de una clase de sistemas que se caracterizan por estar compuestos de un gran número de elementos o agentes interactuantes. A través de interacciones de mayor o menor alcance estos agentes cambian sus propiedades individuales adoptando estados pertenecientes a un espacio de estados accesibles. De esta interacción microscópica emergen propiedades colectivas no triviales. Esto quiere decir que el sistema total adquiere propiedades que sus elementos constituyentes no poseen. Por ejemplo, una neurona no tiene inteligencia. Pero un gran número de neuronas interactuando entre sı́ pueden producir algo que llamamos mente. Podemos decir que la mente emerge de estas interacciones. En el campo de la inteligencia artificial se busca simular una mente emergente, a partir de componentes más simples los cuales no se consideran inteligentes. Otro ejemplo es la célula, la cual está compuesta de moléculas que interactúan a través de reacciones quı́micas [11]. El metabolismo celular, propiedad de los seres vivos, emerge de estas interacciones quı́micas. Por otro lado es bien conocido que el magnetismo de la materia se manifiesta como resultado del comportamiento colectivo de un gran número de espines elementales. Estos son sólo algunos ejemplos de la inmensa variedad de sistemas de estas caracterı́sticas [2] [3]. A estos sistemas se los conoce como sistemas complejos. El deseo de deducir caracterı́sticas macroscópicas emergentes del entendimiento de las interacciones microscópicas es un reto importante para los cientı́ficos y una necesidad para los profesionales involucrados con el universo de aplicaciones relacionadas con estos sistemas. No existe una definición precisa del grado de complejidad de un sistema complejo, pero podemos decir que un sistema es más complejo mientras más elementos tenga, más abundantes sean las interacciones entre ellos, y mayor sea la diversidad de los elementos y de las interacciones. La dimensión del espacio 1.

(14) 2. CAPÍTULO 1. INTRODUCCIÓN. Niveles de Abstracción. Ecosistemas Sociedades Organismos Organos Tejidos. Nivel de Abstracción n+1. Sistemas Complejos Nivel de Abstracción n. Células Orgánulos Moleculas. Figura 1.1: Los sistemas complejos como enlaces entre distintos niveles de abstracción. Un ejemplo de los sistemas biológicos. de estados accesibles contribuye de manera significativa a la complejidad de un sistema de este tipo. Es de interés la evolución de la complejidad de un sistema en función del número de agentes interactuantes. Para este análisis nuestro punto de partida es un sistema compuesto únicamente de un agente. Este elemento totalmente aislado no es capaz de producir propiedades emergentes colectivas ya que éstas son la consecuencia de las interacciones microscópicas. A este sistema lo podemos clasificar como un sistema simple. A continuación agregamos de manera progresiva agentes a este sistema, permitiéndoles la interacción. A medida que el número de elementos aumenta, el análisis y la descripción del sistema se hacen cada vez más dificultosos. A este fenómeno se le conoce como complejidad emergente. Si continuamos agregando agentes, la complejidad no crece de manera ilimitada. Las propiedades colectivas emergentes permiten describir al sistema en cuestión como un todo. Es posible separar mentalmente las cualidades de este objeto global emergente de sus constituyentes microscópicos para considerarlo como una nueva e individual entidad de estudio. Nos abstraemos de los componentes interactuantes de este nuevo objeto para razonar acerca de sus cualidades que son determinadas por las propiedades colectivas emergentes. Esto quiere decir que, en este nuevo nivel de abstracción, ya no tenemos un número grande de agentes interactuantes, sino más bien un solo objeto con nuevas propiedades. Esto es el resultado de una simplicidad emergente. Si identificamos este objeto como nuestro agente aislado del inicio, podemos repetir el proceso de agregar sucesivamente objetos similares y permitir su interacción. Esto dará lugar nuevamente a una complejidad emergente y el ciclo descrito se repetirá escalando diferentes niveles de abstracción. Uno de los objetivos de la ciencia es el tratar de cerrar las brechas entre estos distintos niveles de encapsulamiento de complejidad. Esto quiere decir que los cientı́ficos pretenden explicar, basándose en el conocimiento de las interacciones microscópicas de los elementos, de qué manera emergen las propiedades macroscópicas de los objetos pertenecientes al nivel de abstracción inmediato superior. Para este fin el estudio de los sistemas complejos es fundamental, ya que éstos representan el enlace entre los distintos niveles de abstracción (ver la figura 1.1 a manera de ejemplo ilustrativo). Uno de los elementos fundamentales en el modelado de sistemas complejos.

(15) 1.1. ¿QUÉ SON REDES COMPLEJAS?. Red dirigida. 3. Red bidireccional. Figura 1.2: Los sistemas complejos permiten modelarse como redes dirigidas o redes bidireccionales.. son las llamadas redes complejas, estructuras abstractas compuestas de nodos o vértices, ası́ como de conexiones entre estos elementos. Los nodos representan los agentes interactuantes y las conexiones modelan la topologı́a de estas interacciones. Estas conexiones pueden ser bidireccionales o dirigidas (figura 1.2). El modelo matemático de cualquier red, en particular de una red compleja, es un grafo. Estas estructuras han sido estudiadas por la teorı́a de grafos, una disciplina de la matemática que nace en el año 1736 con el famoso trabajo de Leonhard Euler sobre los puentes de Königsberg. La teorı́a de grafos se abocó en sus inicios primordialmente al estudio de las redes ordenadas. Siglos más tarde el interés se centró en redes que, aparentemente, no presentaban ningún tipo de regularidad, las llamadas redes aleatorias. En el año 1950 los matemáticos húngaros Paul Erdős y Alfred Rényi [7] [8] [9] dan a conocer un algoritmo de construcción de redes aleatorias, en el cual, partiendo de N nodos desconectados, ¶ se procede a la interconexión con probabilidad p de cada µ N uno de los posibles pares. El objetivo principal del estudio de las redes 2 aleatorias es el determinar en qué momento del proceso de construcción anteriormente mencionado aparece alguna propiedad en particular, por ejemplo la conexión total de la red, ası́ como el calcular el comportamiento asintótico de las probabilidades relacionadas cuando el número de Nodos N tiende hacia infinito. Las redes aleatorias han sido estudiadas exhaustivamente (ver por ejemplo libro clásico de B. Bollobás [5] ) y éstas dominaron el modelado de las redes en las cuales no se lograba percibir alguna regularidad en sus topologı́as. El advenimiento de la era informática impulsó de manera significativa el avance del estudio de las redes complejas. El mejor acceso a capacidades computacionales importantes permitió, a través de simulaciones, la exploración numérica de muchos fenómenos naturales con patrones de interacción no triviales. Los sistemas de almacenamiento masivos contribuyeron a acceder a una cantidad enorme de datos, entre ellos datos acerca de las topologı́as de redes complejas, tales como redes de colaboración cientı́ficas, redes de transmisión y distribución de energı́a eléctrica, entre otros sistemas de interés. A través.

(16) 4. CAPÍTULO 1. INTRODUCCIÓN. de la caracterización geométrica de estas redes se detectaron propiedades que las diferenciaban de redes aleatorias en la distribución de su conectividad y en el agrupamiento de sus nodos en “comunidades” o clusters. Estas discrepancias motivaron la búsqueda de algoritmos de construcción que reprodujeran las caracterı́sticas de las redes reales dando lugar a las redes small world y a las llamadas redes libres de escala con distribución de conexiones con ley de potencias. Estos modelos han permitido entender mejor el papel que juega la topologı́a de la red en la dinámica colectiva de los sistemas complejos [1]. Habiendo sido detallada la topologı́a de la red compleja, otro de los elementos necesarios para el modelado de un sistema complejo es la descripción del proceso de interacción. Siendo las interacciones de ı́ndole microscópica, es de esperarse que las condiciones que determinan las transiciones de estados de un agente en particular, estén dadas por los estados de sus elementos vecinos y por la topologı́a de sus interacciones. Por lo general, la dinámica de interacción es complicada y altamente no lineal, de tal forma que pocas veces es posible describirla mediante expresiones matemáticas. Por otro lado, en el caso de tratarse de una dinámica sencilla, la posible complejidad topológica de las interacciones hace fracasar una deducción analı́tica de las propiedades emergentes. Es justamente la complejidad emergente, esta propiedad intrı́nseca de los sistemas complejos, la que dificulta las descripciones analı́ticas. Asimismo, la diversidad de tipos de interacción es inmensa, dificultando tremendamente su clasificación. Por lo expuesto anteriormente es indispensable utilizar simulaciones numéricas para el estudio de los sistemas complejos. Algorı́tmicamente es posible implementar cualquier tipo de interacción. Las capacidades computacionales de los ordenadores modernos permiten implementar modelos con decenas de miles de agentes y la medición tanto de propiedades geométricas como de propiedades dinámicas se logran con mucha facilidad. Además la capacidad de visualización de cantidades inmensas de datos permite una exploración numérica eficiente e intuitiva. A través de estos avances tecnológicos ha sido posible progresar de manera importante en el estudio de los sistemas complejos. Los cientı́ficos cuentan gracias a ello con resultados experimentales importantes que esperan ser entendidos y descritos en el futuro por una teorı́a unificada y general de estos sistemas. La universalidad de los sistemas complejos exige el siguiente cuestionamiento filosófico: ¿Los sistemas complejos describen sistemas reales con los cuales los cientı́ficos, ingenieros u otros profesionales se topan esporádicamente en la senda de la búsqueda del conocimiento o en realidad se trata de un mecanismo mental a través del cual el intelecto humano encapsula complejidad para poder describir el universo fascinante y altamente complejo que lo circunda? Invitamos al lector a meditar al respecto.. 1.2.. Procesos de propagación de información. Una amplia clase de sistemas complejos han evolucionado naturalmente o han sido creados artificialmente con la finalidad principal de transmitir información. Pensemos en la divulgación de un rumor o en procesos de intercambio cultural en redes sociales, en la transmisión de una conversación telefónica en.

(17) 1.2. PROCESOS DE PROPAGACIÓN DE INFORMACIÓN. 5. sistemas de telecomunicaciones, en el sistema neurológico de organismos vivos o en las redes de cómputo. Con el fin de cumplir de manera eficiente y económica con esta funcionalidad, estos sistemas requieren optimizar las velocidades de transmisión ası́ como desarrollar mecanismos o topologı́as que minimicen los errores ocasionados por canales ruidosos de transmisión. Por ejemplo, en el área de tecnologı́as de la información, el diseño óptimo de redes interconectadas se ha convertido en uno de los problemas fundamentales. La optimización de las topologı́as, tanto de los sistemas de cómputo basados en multiprocesadores como de los sistemas distribuidos y de telecomunicación presentan un reto interesante para la comunidad ingenieril. Una parte básica de la arquitectura de tales sistemas la constituye el mecanismo que permite la comunicación entre los elementos procesadores y entre éstos y los elementos de memoria del sistema. La eficacia y rendimiento del sistema depende, en buena medida, de la elección que se haga de dicha red de interconexión. Además, el costo económico de la red constituye una parte importante del costo total del sistema, por lo que la optimización del sistema requiere la optimización de la red. En este trabajo nos proponemos estudiar procesos de propagación de información en redes complejas dirigidas de diversas geometrı́as. El algoritmo de construcción de la clase de redes estudiadas, ası́ como el proceso de interacción modelado entre los agentes es descrito en el capı́tulo 2. En particular, estamos interesados en determinar el papel de la geometrı́a de la red en la velocidad de transmisión y en la difusión de errores ocasionados por canales de transmisión ruidosos. Estas propiedades geométricas son estudiadas en el capı́tulo 3. Los resultados numéricos y analı́ticos de la evolución en el tiempo del número de nodos informados I(t) son el tema principal del capı́tulo 5. Finalmente estudiaremos en el capı́tulo 6 tanto la influencia de canales ruidosos en la fracción de nodos erróneamente informados, ası́ como mecanismos no supervisados de corrección de errores basados en esquemas que aprovechan la estructura de clusters de la red..

(18) 6. CAPÍTULO 1. INTRODUCCIÓN.

(19) Capı́tulo 2. Descripción del modelo El modelo implementado para el estudio de procesos de propagación en redes complejas consta de un escenario de interacción, representado por un grafo dirigido compuesto de nodos y de conexiones entre estos nodos, ası́ como de la descripción de una dinámica especı́fica de interacción que gobierna el fenómeno de propagación en la red. Los nodos representan agentes interactuantes, los cuales pueden encontrarse en distintos estados y las conexiones dirigidas determinan la geometrı́a de sus relaciones.. 2.1.. El algoritmo de construcción de las redes. La clase de redes estudiadas en este trabajo se construye mediante un algoritmo particular cuyo punto de partida es una red ordenada, dirigida y unidimensional de N Nodos con condiciones de contorno periódicas. Cada uno de los vértices cuenta con conexiones dirigidas hacia sus 2k primeros vecinos (ver figura 2.1). Al parámetro k lo denominaremos conectividad de la red. Invitamos al lector a observar las figuras 2.4 y 2.5 que ilustran esquemáticamente estas redes ordenadas. La periodicidad de las condiciones de contorno tiene como consecuencia que tanto el número de salidas ZS como el número de entradas ZE de los N nodos sean iguales a 2k : ZS = ZE = 2k.. (2.1). Esta red ordenada es transformada mediante un algoritmo de desordenamiento caracterizado por una probabilidad p, la aleatoriedad de la red. En este proceso todos los nodos son visitados uno por uno y cada uno de los 2k orı́genes de sus respectivas entradas son reconectados con probabilidad p a otro nodo elegido al azar entre la totalidad de nodos, con excepción de sı́ mismo y del nodo de origen de la conexión en cuestión (ver figura 2.2). De esta manera el número de entradas ZE se mantiene constante e igual a 2k y el número de salidas ZS adquiere un carácter de variable aleatoria cuya distribución de probabilidades 7.

(20) 8. CAPÍTULO 2. DESCRIPCIÓN DEL MODELO. .... .... k ... 2. 1. 1. 2 ... k. Figura 2.1: Cada uno de los vértices cuenta con conexiones dirigidas hacia sus 2k primeros vecinos.. Proceso de Desorden. N=10 k=1. Figura 2.2: Ilustración esquemática de un paso elemental en el proceso de desordenamiento..

(21) 2.2. LA DINÁMICA DE INTERACCIÓN. Red Ordenada N=20 k=2 Zs=Ze=4. Small World. 9. Red Aleatoria. p=1. p=0. Figura 2.3: Interpolación entre redes ordenadas y redes aleatorias mediante la aleatoriedad de la red p. Para valores intermedios de p la red presenta propiedades small world. será estudiada en el marco de la descripción de las propiedades geométricas de la red en el capı́tulo 3.1. A través de este proceso de desorden se introducen conexiones dirigidas de largo alcance. Es evidente que para p = 0 recobramos la red ordenada inicial y que para p = 1 tenemos el caso de una red aleatoria. Entre estos dos casos lı́mites, para un rango determinado de la aleatoriedad p, la red adquiere propiedades small world. Esto quiere decir que, a pesar de poseer un alto grado de clustering C, la distancia media L de la red es órdenes de magnitud menor que el tamaño del sistema. Estas cantidades se estudiarán detalladamente en el capı́tulo 3. La representación matemática de una red es un grafo. Un grafo G consiste de un conjunto no vacı́o de elementos, llamados vértices o nodos, y una lista de pares ordenados de estos elementos (en el caso de una red dirigida), llamados conexiones. Al conjunto de vértices lo denotamos como V (G) y a la lista de conexiones como E(G). Asimismo es posible representar un grafo a través de la matriz de adyacencia M = (ai,j ), (2.2) cuyos elementos ai,j son iguales a 1 si existe una conexión dirigida desde el nodo i hacia el nodo j, o es igual a cero en caso contrario. M es una matriz cuadrática de dimensión N , donde N es el número de vértices. Es evidente que la matriz de adyacencia M de una red no dirigida es simétrica. Esto quiere decir que M = M T ⇐⇒ ai,j = aj,i. (2.3). donde M T es la matriz transpuesta de M . En el capı́tulo 3.2 veremos que esta matriz juega un papel fundamental en el cálculo de la distancia media L.. 2.2.. La dinámica de interacción. Una vez definida la topologı́a de la red es necesario describir la dinámica de interacción, es decir, precisar el mecanismo microscópico a través del cual la.

(22) 10. CAPÍTULO 2. DESCRIPCIÓN DEL MODELO. Figura 2.4: Red ordenada dirigida unidimensional de N = 20, k = 2 con condiciones de contorno periódicas información se propaga en la red. Para esto especificamos dos posibles estados, en los cuales se pueden encontrar los agentes ubicados en los N nodos de la red: informados o no informados. Al inicio de la dinámica se encuentran todos no informados con excepción de uno, quien será el desencadenante de la propagación hacia toda la red. En cada unidad de tiempo todos los nodos informados eligen una de sus salidas al azar e intentan informar al vecino correspondiente. Si el vecino se encuentra en el estado no informado su estado cambia a informado. Si el vecino se encuentra en el estado informado su estado se mantiene invariante ante esta interacción. El proceso finaliza cuando los N nodos alcanzan el estado de informados, es decir que la información ha sido transmitida a toda la red. Nos interesa la evolución en el tiempo del número de nodos informados I(t). Es evidente que I(t) es un proceso estocástico, ya que tanto en el proceso de construcción de las redes, como en la dinámica de interacción, los elementos probabilı́sticos son predominantes. Las propiedades dinámicas del proceso de propagación serán estudiadas en el capı́tulo 5..

(23) 2.2. LA DINÁMICA DE INTERACCIÓN. 11. Figura 2.5: Red ordenada dirigida unidimensional de N = 20, k = 3 con condiciones de contorno periódicas.

(24) 12. CAPÍTULO 2. DESCRIPCIÓN DEL MODELO.

(25) Capı́tulo 3. Propiedades geométricas de la red Toda red compleja presenta caracterı́sticas topológicas particulares que describen la geometrı́a de las interacciones y que influencian de manera importante los procesos dinámicos que se desarrollan en ellas. Es por eso que el análisis, la clasificación y la sı́ntesis de redes complejas se basa en magnitudes medibles capaces de expresar las propiedades geométricas más relevantes. Dependiendo del tipo de red y de los procesos dinámicos que se quieren estudiar es fundamental hacer una cuidadosa selección de estas magnitudes. Un resumen interesante de magnitudes geométricas se encuentra en [6]. En este trabajo se seleccionaron el número de salidas ZS , la distancia media L y el grado de clustering C para describir la topologı́a de las redes estudiadas. Estas propiedades geométricas influyen de manera significativa, tanto en los procesos de propagación de información como en los mecanismos de detección y corrección de errores que fueron simulados sobre redes small world dirigidas. El algoritmo de construcción de estas redes ha sido descrito en el capı́tulo 2. A continuación presentamos resultados numéricos, ası́ como algunos derivaciones analı́ticas de estas magnitudes geométricas.. 3.1.. El número de salidas ZS. La distribución de probabilidades del número de salidas ZS es una cantidad crucial, ya que sin el conocimiento de ella no es posible derivar propiedades dinámicas [4]. Del procedimiento de reconexión aleatoria de la red ordenada inicial se deduce que ZS está determinada por las conexiones originales nd que sobrevivieron a este proceso de desorden y por aquellas conexiones adicionales ng ganadas en él: ZS = n d + n g . (3.1) De ZE = 2k se verifica que el valor medio del número de salidas hZS i = 2k (“toda entrada es al mismo tiempo una salida”). La variable aleatoria nd está regida 13.

(26) 14. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. Figura 3.1: Solución analı́tica (ecuación 3.4) de la distribución del número de salidas ZS para distintos valores de la conectividad k. La aleatoriedad de la red es fija, p = 1.. por una densidad de probabilidades binomial: µ Pnd (nd = j) =. 2k j. ¶ j. (1 − p) p2k−j. j ∈ [0, 2k]. (3.2). cuyo valor medio es hnd i = 2k(1 − p). Para la variable aleatoria ng proponemos j. una densidad de probabilidades de Poisson Png (ng = j) = (λ) j ! exp(−λ), j ∈ N0 , válida cuando k ¿ N y determinamos el parámetro λ = 2kp de la condición hZS i = 2k, resultando finalmente j. Png (ng = j) =. (2kp) exp(−2kp) j!. j ∈ N0. (3.3). Debido a que ZS = nd + ng , a la distribución PZS (ZS = c) la obtenemos de la convolución de Pnd (nd = j) y Png (ng = j): min(c,2k) µ. PZS (ZS = c) =. X j=0. 2k j. ¶ j. (1 − p) p2k−j. (c−j). (2kp) exp(−2kp) c ∈ N0 . (c − j) !. (3.4) La varianza de esta distribución aumenta para incrementos de la aleatoriedad de la red p (ver Figura 3.2). La solución analı́tica coincide satisfactoriamente con los resultados numéricos, como se puede apreciar en la figura 3.3 ..

(27) 3.1. EL NÚMERO DE SALIDAS ZS. 15. Figura 3.2: Solución analı́tica (ecuación 3.4) de la distribución del número de salidas ZS para distintos valores de la aleatoriedad de la red p. La conectividad de la red es fija, k = 5.. Figura 3.3: Resultados numéricos y solución analı́tica de la distribución del número de salidas ZS ..

(28) 16. 3.2.. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. La distancia media L. Por lo general dos nodos de una red compleja no son adyacentes. De hecho la mayorı́a de las redes de interés son diluidas. Esto quiereµdecir ¶que, en una N red de N nodos, solo una fracción pequeña de las posibles = N (N2−1) 2 conexiones están presentes. En el caso de las redes no dirigidas la distancia d(i, j) entre los nodos i y j se define como el recorrido más corto que los conecta y la distancia media de la red L es el promedio de d(i, j) sobre todos los posibles pares de nodos: L=. X 1 d(i, j). N (N − 1). (3.5). j6=i. Una de las condiciones que tiene que reunir una distancia, en el sentido matemático estricto, es la propiedad de simetrı́a, esto quiere decir : d(i, j) = d(j, i),. (3.6). propiedad que no se cumple en el caso de una red dirigida. En ese sentido, siendo la distancia media L una magnitud que utilizamos para caracterizar una propiedad global de la red, se justifica transformar nuestra red dirigida en una red no dirigida, antes de calcular la distancia media según 3.5. Esta transformación la realizamos simetrizando la matriz de adyacencia M = (ai,j ) de la red en cuestión. Otro de los inconvenientes de esta definición es la divergencia de la distancia media L en el caso de una red desconexa, es decir cuando no existe algún recorrido que conecte un par de nodos especı́ficos. Este caso no es de nuestro interés, por lo que realizaciones que den como resultado redes de este tipo, son descartadas. La dificultad principal del cálculo de la distancia media L utilizando la ecuación 3.5 reside en la búsqueda del camino más corto entre dos nodos i y j. Se puede demostrar [10] que la n-ésima potencia de la matriz de adyacencia contiene esta valiosa información: M n = (âi,j ) .. (3.7). El elemento âi,j representa el número de caminos de longitud n que conectan el nodo i con el nodo j. La ecuación 3.7 es muy elegante, pero al mismo tiempo muy costosa desde el punto de vista computacional. El cálculo de M n requiere de nN 3 multiplicaciones, ası́ como de nN 2 operaciones de suma. Si contemplamos que el número de nodos N representa el número de agentes interactuantes de un sistema complejo y que una de las propiedades fundamentales de éste es que justamente aquel número es grande, llegamos a la conclusión que esta explosión polinómica de la cantidad de operaciones aritméticas es una limitación importante de este algoritmo de búsqueda. Esta situación se agrava aún más cuando recordamos el carácter probabilı́stico del método de construcción de las redes contempladas, que nos obliga a realizar una cantidad importante de realizaciones con el fin de poseer información estadı́sticamente representativa. Por lo anteriormente expuesto nos vimos en la obligación de utilizar redes de sólo 100 nodos para el cálculo de la distancia media L, con el fin de explorar la.

(29) 3.2. LA DISTANCIA MEDIA L. 17. Figura 3.4: Valor absoluto de la distancia media L en función de la aleatoriedad de la red p para distintos valores de la conectividad k (Número de Nodos N = 100, 1000 realizaciones). relación de esta magnitud con los parámetros k y p. Los resultados numéricos se presentan en las figuras 3.4 y 3.5. El proceso de desorden de la red introduce una serie de conexiones que hacen las veces de atajos en la red, de tal manera que la distancia media se reduce de manera importante a medida que la aleatoriedad de la red p aumenta. Por otro lado esta caı́da se encuentra fuertemente influenciada por la conectividad k. Las redes small world dirigidas, después que sus respectivas matrices de adyacencia M han sido simetrizadas , coinciden con las redes small world propuestas en el año 1998 por Watts y Strogatz [13] [12] [14] . Se puede demostrar que la distancia media L de las redes ordenadas, es decir para p = 0, depende de la siguiente manera de los parámetros k y N : N . (3.8) 4k Para las redes aleatorias, es decir para p = 1, la expresión correspondiente es Lordenada (p = 0) ∝. ln N . ln 2k Ambas expresiones 3.8 y 3.9 son válidas en el régimen Laleatoria (p = 1) ∝. N À k À ln N À 1.. (3.9). (3.10).

(30) 18. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. Figura 3.5: Valor relativo de la distancia L(p) L(0) en función de la aleatoriedad de la red p para distintos valores de la conectividad k (Número de Nodos N = 100, 1000 realizaciones). Este régimen describe redes con un número grande de nodos N y altamente diluidas en lo que concierne a la fracción presente de posibles conexiones. La condición k À ln N asegura, en el caso de las redes aleatorias, que el grafo sea conexo. Esto significa que la distancia media L nunca diverge hacia infinito. Siendo el proceso de construcción de las redes dominado por elementos probabilı́sticos, la distancia media L es una variable aleatoria con una distribución de probabilidades asociada. Los histogramas respectivos, resultados de las simulaciones numéricas, presentan distribuciones no triviales. En las figuras 3.7 y 3.8 se puede apreciar la influencia de la aleatoriedad p en la dispersión de la distribución de L para una elección particular de N y k..

(31) 3.3. EL GRADO DE CLUSTERING C. 19. Figura 3.6: La distancia media L es una variable aleatoria. Valor medio y dispersión de L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones.. 3.3.. El grado de clustering C. Mientras que la distancia media L es una caracterización global de la red, el grado de clustering C es una magnitud que describe una propiedad local. Ésta se encuentra inspirada en redes sociales y describe la estructura promedio del “vecindario” de cada vértice. En las redes sociales, en lo referente por ejemplo a las amistades, se da el caso que si el individuo A es amigo de los individuos B y D, entonces existe una probabilidad grande que por su lado B y D también cuenten con lazos de amistad que los unan (figura 3.9). La cantidad de relaciones triangulares de este tipo en una red son las que definen C. Una clase importante de propiedades emergentes de sistemas complejos particulares están fuertemente influenciadas por el grado de clustering C, por ejemplo aquellas que caracterizan robustez a influencias externas. En el capı́tulo 6 veremos que esta propiedad geométrica cumple un papel fundamental en la detección y corrección de errores en procesos de propagación de información a través de canales ruidosos. Se pueden encontrar en la literatura varias definiciones de grado de clustering para redes no dirigidas [6]. En este trabajo utilizamos una basada en el conteo de las relaciones triangulares. Antes de abocarnos a la explicación de ella recordemos que las redes small world contempladas en este trabajo son dirigidas. Es por eso que es necesario simetrizar la matriz de adyacencia M antes de aplicar esta definición. 1 1 En. el capı́tulo 6 veremos que, a pesar de no ser estrictamente aplicable a nuestras redes.

(32) 20. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. Figura 3.7: Distribución de probabilidades P ( L(p) = j ) de la distancia media L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones. Nótese la influencia de p en la dispersión de la distribución. (Continua en la figura 3.8).

(33) 3.3. EL GRADO DE CLUSTERING C. 21. Figura 3.8: Distribución de probabilidades P ( L(p) = j ) de la distancia media L en función de la aleatoriedad p para N = 100, k = 3 y 10000 realizaciones. Nótese la influencia de p en la dispersión de la distribución. (Viene de la figura 3.7).

(34) 22. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. A. B. D. Figura 3.9: Si el individuo A es amigo de los individuos B y D, entonces existe una probabilidad grande que por su lado B y D también sean amigos. Calculemos el grado de clustering Ci del nodo i. Para esto definimos el conjunto de vértices V (i) = {v1 , v2 , . . . , vj } que contiene los j vecinos del nodo i. Asimismo precisamos la magnitud KV (i) como el número de conexiones presentes entre los nodos vecinos de i. Este número representa el número de triángulos que conectan el nodo i con dos de sus vecinos (figura µ 3.10).¶El número j máximo de posibles triángulos de este tipo es el combinatorio = j(j−1) . 2 2 Si relacionamos esto con el número de triángulos presentes llegamos finalmente al grado de clustering Ci del nodo i:. Ci =. 2 KV (i) j(j − 1). (3.11). El grado de clustering C de la red es el valor medio de los Ci promediados sobre los N nodos:. C=. N 1 X Ci , N i=1. C ∈ [0, 1].. (3.12). Los resultados numéricos del cálculo del grado de clustering C se presentan en las figuras 3.11 y 3.12. Las redes ordenadas (p = 0) son altamente clusterizadas, mientras que las redes aleatorias p = 1) no lo son. Como vimos en la sección 3.2 las redes small world dirigidas, después que sus respectivas matrices de adyacencia M han sido simetrizadas, coinciden con las redes small world propuestas por Watts y Strogatz [14]. Se puede demostrar que el grado de clustering C de las redes ordenadas, es decir para p = 0, es constante: 3 (3.13) Cordenada (p = 0) ∝ . 4 small world dirigidas, el grado de clustering C basado en el conteo de las relaciones triangulares caracteriza de manera correcta la robusteza de las redes al ruido de los canales de transmisión..

(35) 3.3. EL GRADO DE CLUSTERING C. 23. V3 V2 V4 V1. .... Vj. i Figura 3.10: El grado de clustering C se basa en el conteo de las relaciones triangulares.. Figura 3.11: El valor medio del grado de clustering C en función de la aleatoriedad de la red p para distintos valores de la conectividad k (N = 100, 5000 realizaciones)..

(36) 24. CAPÍTULO 3. PROPIEDADES GEOMÉTRICAS DE LA RED. Figura 3.12: El valor medio del grado de clustering relativo C(p) C(0) en función de la aleatoriedad de la red p para distintos valores de la conectividad k (N = 100, 5000 realizaciones). Para las redes aleatorias, es decir para p = 1, la dependencia funcional de C con N y k es: 2k Caleatoria (p = 1) ∝ . (3.14) ln N Ambas expresiones 3.13 y 3.14 son válidas en el régimen N À k À ln N À 1. descrito en la sección 3.2.. (3.15).

(37) Capı́tulo 4. Clasificación de las redes En esta sección nos proponemos clasificar las redes que resultan del algoritmo de construcción descrito en el capı́tulo 2 en función de los parámetros geométricos distancia media L y grado de clustering C.. 4.1.. La red totalmente conectada. Veamos el caso lı́mite de una red totalmente conectada (figura 4.1), es decir una red donde la totalidad de las posibles conexiones entre los N nodos se encuentran presentes (“todos conectados con todos”). Esta red se describe mediante la siguiente expresión:. ktc =. N , (N par). 2. (4.1). Es evidente que en este caso la aleatoriedad de la red p no tiene ningún efecto en el algoritmo de construcción. Si nos imaginamos que la presencia de una conexión entre nodos requiere de cierta energı́a o costo, entonces concluimos que las redes totalmente conectadas son en ese sentido del todo derrochadoras. El número total de conexiones en estas redes crece como el cuadrado del número de nodos N . Es por eso que esta topologı́a es poco frecuente en sistemas naturales y artificiales. A pesar de estos argumentos, las redes totalmente conectadas son de utilidad como medio de validación del correcto funcionamiento de los algoritmos computacionales implementados en este trabajo debido al tratamiento analı́tico sencillo que permiten. Asimismo veremos que juegan un papel fundamental en la descripción fenomenológica de los procesos de propagación de información que serán estudiados en el capı́tulo 5. Las redes totalmente conectadas tienen la distancia media mı́nima posible Ltc = 1 y el grado de clustering máximo posible Ctc = 1. 25.

(38) 26. CAPÍTULO 4. CLASIFICACIÓN DE LAS REDES. Figura 4.1: La red totalmente conectada (N = 20).. 4.2.. La red small world dirigida. Las expresiones analı́ticas 3.8, 3.9, 3.13 y 3.14 de las distancias media L y de los grados de clustering C de las redes ordenadas y aleatorias nos permiten afirmar que las redes ordenadas son escenarios con distancias medias grandes y altamente clusterizados, mientras que las redes aleatorias son escenarios con distancias medias pequeñas con un grado de clustering reducido. La aleatoriedad p nos permite interpolar entre estos casos lı́mites. Nos interesa encontrar un régimen intermedio, es decir una red con distancia media pequeña y al mismo tiempo altamente clusterizada. Invitamos al lector a observar la figura 4.2 en la cual graficamos la distancia media relativa L(p) L(0) y el grado de clustering relativo C(p) C(0). en función de la aleatoriedad p para una elección particular de N y k. Ambas magnitudes decaen fuertemente en función de valores crecientes de p, pero a distintos ritmos, dando la posibilidad de la existencia del régimen intermedio buscado. Este régimen es el correspondiente a las redes small world. La transición de las redes ordenadas a las redes aleatorias es suave, de tal manera que no tiene sentido definir una expresión matemática para el intervalo de p que describa el régimen small world. Sin embargo podrı́amos precisar un indicar sencillo que nos permita visualizar de manera cualitativa esta transición: κ=. C(p) L(p) − C(0) L(0). (4.2). y afirmar que la red small world más representativa es aquella que maximiza κ en función de p (ver figura 4.3). Si graficamos este indicador para distintos valores de k, podemos apreciar que los valores de psmallworld se encuentran muy.

(39) 4.2. LA RED SMALL WORLD DIRIGIDA. 27. L(p) L(0). y el grado de clustering relativo. Figura 4.2: La distancia media relativa C(p) C(0). en función de la aleatoriedad p (N = 1000, k = 5).. cercanos (ver figuras 4.4 y 4.5). Las propiedades dinámicas del proceso de propagación de información serán presentadas en el capı́tulo 5. Aquel capı́tulo se encuentra organizado de acuerdo a los distintos tipos de redes resultantes de la presente clasificación. A continuación enumeramos los distintos tipos: 1. Red totalmente conectada 2. Red ordenada 3. Red aleatoria 4. Red small world dirigida.

(40) 28. CAPÍTULO 4. CLASIFICACIÓN DE LAS REDES. Figura 4.3: El indicar κ nos permite seleccionar de manera cualitativa la red small world más reprentativa. (N = 1000, k = 5, psmallworld ≈ 10−2 ).. Figura 4.4: Indicador κ(p) en función de la aleatoriedad p para distintos valores de k. El intervalo de psmallworld es pequeño (N = 100)..

(41) 4.2. LA RED SMALL WORLD DIRIGIDA. 29. Figura 4.5: Indicador κ(p) en función de la aleatoriedad p para distintos valores de k. El intervalo de psmallworld es pequeño (N = 1000)..

(42) 30. CAPÍTULO 4. CLASIFICACIÓN DE LAS REDES.

(43) Capı́tulo 5. Propiedades dinámicas Es de esperarse que las propiedades dinámicas de los procesos de propagación de información dependan fuertemente de la topologı́a del escenario de interacción. En nuestro modelo el escenario de interacción es representado por una clase de redes que son construidas mediante un algoritmo particular descrito en el capı́tulo 2 y cuyas propiedades geométricas fueron presentadas en el capı́tulo 3. Estas propiedades geométricas nos permitieron clasificar esta clase de redes en 4 tipos: red totalmente conectada, red ordenada, red aleatoria y red small world dirigida. El presente capı́tulo inicia con una exposición general acerca de la caracterización de las propiedades dinámicas de los procesos de propagación de información en esta clase de redes. Luego se presentan los resultados numéricos y analı́ticos organizados de acuerdo a los tipos de redes mencionados anteriormente.. 5.1.. Generalidades. Tanto en el algoritmo de construcción de las redes (sección 2.1) como en la dinámica de interacción modelada (sección 2.2), los elementos probabilı́sticos son predominantes. Es de nuestro interés describir la evolución temporal del número de nodos informados I(t). Es evidente que I(t) es un proceso estocástico, ya que cada realización γ de nuestro experimento numérico da como resultado una función Iγ (t) (figura 5.1). Asimismo, para cada valor fijo t0 del tiempo, I(t0 ) es una variable aleatoria con una distribución de probabilidades asociada (figura 5.2). Estas distribuciones no serán analizadas. Nos enfocaremos en el valor medio del número de nodos informados para cada tiempo t. Este promedio la denotaremos de manera abreviada como I(t). A continuación derivamos una ecuación diferencial para I(t). Para esto definimos Π(s) como la probabilidad de que un nodo sea informado en el paso de simulación s. Es decir P {I(s + 1) = I(s) + 1} P {I(s + 1) = I(s)} 31. = Π(s) = 1 − Π(s).. (5.1) (5.2).

(44) 32. CAPÍTULO 5. PROPIEDADES DINÁMICAS. Figura 5.1: El número de nodos informados en función del tiempo I(t) es un proceso estocástico. (3 realizaciones para N = 1000, k = 5 y p = 10−2 ).. Figura 5.2: Para cada valor fijo t0 del tiempo, I(t0 ) es una variable aleatoria con una distribución de probabilidades asociada..

(45) 5.2. LA RED TOTALMENTE CONECTADA. 33. El valor medio I(s + 1) es entonces I(s + 1). =. (I(s) + 1) Π(s) + I(s)(1 − Π(s)). = I(s) + Π(s).. (5.3). Agrupamos términos de la ecuación 5.3, la dividimos entre ∆t(s) e identificamos I(s + 1) − I(s) como ∆I(s). I(s + 1) − I(s) = I(s + 1) − I(s) = ∆t(s) ∆I(s) = ∆t(s). Π(s) Π(s) ∆t(s) Π(s) ∆t(s). (5.4). Si recordamos que todos los nodos informados intentan de manera simultánea informar a sus vecinos derivamos que ∆t(s) =. 1 . I(s). (5.5). De las ecuaciones 5.4 y 5.5 resulta ∆I(s) = Π(s) I(s) ∆t(s). (5.6). y haciendo tender ∆t hacia cero obtenemos la ecuación diferencial que buscábamos: dI = Π(I) I, (5.7) dt en la cual denotamos de manera explı́cita la dependencia de la probabilidad de informar Π del número de nodos informados I.. 5.2.. La red totalmente conectada. Como mencionamos anteriormente, la red totalmente conectada es una estructura poco frecuente en sistemas naturales y artificiales. Esto se debe al gran número de conexiones presentes que, si son asociadas con una energı́a de conexión o un costo, las hacen del todo anti económicas. Nuestro interés en el estudio de este tipo de redes se encontró inicialmente motivado en la validación de nuestros algoritmos de simulación, ya que permiten un tratamiento analı́tico cerrado. Como veremos en la sección 5.4, estas expresiones analı́ticas sirvieron posteriormente como base de la descripción fenomenológica de las propiedades dinámicas de las redes aleatorias. Recordemos que la distancia media Ltc de la red totalmente conectada es igual a 1; es por eso que la información se propaga a la máxima velocidad posible. En ese sentido estas redes son las “más veloces”. Nos interesa calcular la probabilidad de informar Πtc (I) de la red totalmente conectada. Para esto invitamos al lector a observar la figura 5.3. De acuerdo a la.

(46) 34. CAPÍTULO 5. PROPIEDADES DINÁMICAS. dinámica de interacción, el primer paso consiste en elegir un nodo al azar (con probabilidad uniforme) del conjunto de nodos informados. La probabilidad de que el nodo informado j haya sido elegido para informar es P {nodo j es elegido} =. 1 . I. (5.8). El segundo paso es seleccionar, también con probabilidad uniforme, una de las salidas del nodo j. La probabilidad de que la salida seleccionada apunte hacia un nodo no informado es. P {salida seleccionada apunte hacia nodo no inf ormado} =. N −I . N −1. (5.9). Es decir que la probabilidad que el nodo j informe es 1N −I . (5.10) I N −1 De la simetrı́a de la red deducimos que cualquiera de los I nodos informados poseen la misma probabilidad de lograr informar, entonces Pj = {nodo j inf orme} =. Πtc (I) =. I X. Pj =. j=1. I X N −I 1N −I = . I N − 1 N −1 j=1. (5.11). La ecuación 5.11 se simplifica levemente si consideramos que N À 1 Πtc (I) ≈. N −I N. (5.12). Insertamos la expresión derivada para Πtc (I) en la ecuación 5.7 para encontrar finalmente la ecuación diferencial que describe la dinámica de la red totalmente conectada. dItc dt. = Πtc (Itc ) Itc =. 1 Itc (N − Itc ) . N. (5.13). Esta ecuación es la conocida ecuación logı́stica. Si graficamos esta ecuación diferencial en el espacio de las fases (figura 5.4) se puede apreciar que este sistema dinámico poses dos puntos fijos, uno inestable para IP F 1 = 0 y otro estable para IP F 2 = N . La ecuación 5.13 se puede resolver utilizando el método de separación de variables. El resultado es:. Itc (t) =. N Itc (0) exp (t) . Itc (0) exp (t) + N − Itc (0). (5.14).

(47) 5.2. LA RED TOTALMENTE CONECTADA. 35. 1 2 3 N Nodos en total I Nodos informados. .... 4. I-1. Nodos informados. 1. Nodos no informados. 2 j. 3. .... 4. N-I. Figura 5.3: Ilustración de ayuda para la derivación analı́tica de la probabilidad de informar Πtc (I) de la red totalmente conectada.. dI/dt N/4. 0. N/2. N. I. Figura 5.4: La ecuación diferencial que describe la dinámica de la red totalmente conectada graficada en el espacio de las fases. Se pueden apreciar dos puntos fijos, uno inestable para I = 0 y otro estable para I = N ..

(48) 36. CAPÍTULO 5. PROPIEDADES DINÁMICAS. Figura 5.5: Simulación numérica y solución analı́tica de Itc (t). Se grafican dos soluciones analı́ticas para Itc (0) = 1 y Itc (0) = 0,5 respectivamente de acuerdo a la expresión de la ecuación 5.14. En la figura 5.5 se comparan la simulación numérica con soluciones analı́ticas (ecuación 5.14 ) para dos condiciones iniciales distintas. La solución numérica no coincide con la solución analı́tica para Itc (0) = 1. Esto se debe a que al inicio del proceso de propagación de información ∆I es del orden de 1, hecho que se encuentra en desacuerdo con nuestra derivación de la ecuación 5.7 en la que dI identificamos ∆I ∆t con el diferencial dt . Por otro lado si ajustamos las condiciones iniciales a Itc (0) = 0,5 la simulación numérica coincide satisfactoriamente con la solución analı́tica descrita por la ecuación 5.14. Estas discrepancias se deben a la distorsión originada por describir una simulación con variables discretas mediante una ecuación diferencial, que es una descripción en el continuo de las variables I y t.. 5.3.. La red ordenada. El punto de partida del algoritmo de construcción es una red ordenada. Cuando la aleatoriedad de la red p = 0, el proceso de desordenamiento no tiene efecto alguno en la topologı́a, de tal manera que el tipo de red resultante sigue siendo una red ordenada. Las soluciones numéricas de I(t) de estas redes, presentadas en las figuras 5.6 y 5.7, evidencian la existencia de dos regı́menes dinámicos distintos. Uno esencialmente lineal, válido para k ¿ N , y otro de tipo “logı́stico” cuando la conectividad k es del orden del número de nodos N y que tiene como caso lı́mite la red totalmente conectada estudiada en la sección 5.2..

(49) 5.3. LA RED ORDENADA. 37. Figura 5.6: I(t) de redes ordenadas para distintos valores de la conectividad k (k ¿ N ). Se observan excepciones en la linealidad para valores iniciales de t y al finalizar el proceso cuando I(t) satura el valor N . Estas excepciones se pueden atribuir respectivamente al proceso inicial de la formación de los frentes de ondas y a la colisión de estos frentes cuando la información alcanza toda la red. Nos interesa derivar una expresión analı́tica que describa el régimen lineal, el cual puede ser explicado como la propagación de dos ondas informativas, las cuales avanzan en direcciones opuestas y a velocidades constantes vf . La naturaleza de este fenómeno nos lleva a un tratamiento analı́tico en forma de una ecuación integro diferencial. Estamos interesados en la dependencia de vf de k, ası́ como en el perfil espacial del frente de onda. Proponemos la siguiente ecuación para la densidad lineal de sitios informados n(x, t): ∂n(x, t) 1 = fe (1 − n(x, t)) ∂t 2k. x+k Z. n(x0 , t) dx0. (5.15). x−k. con condiciones de contorno: lı́m n(x, t) = 0. (5.16). lı́m n(x, t) = 1.. (5.17). x→∞. x→−∞. Con la ecuación integro diferencial 5.15 postulamos que la velocidad de propagación de la densidad de nodos informados ∂n(x,t) en el punto del espacio x ∂t está determinada por un producto de dos factores. El primer factor es proporcional a la densidad de nodos no informados en ese punto del espacio x y el.

(50) 38. CAPÍTULO 5. PROPIEDADES DINÁMICAS. Figura 5.7: I(t) de redes ordenadas para distintos valores de la conectividad k. (k ≈ O[N ]) segundo es proporcional a la densidad de nodos informados que pueden alcanzar a través de sus conexiones el punto del espacio en cuestión. La frecuencia fe es aquélla con la cual los agentes informados intentan transmitir. La transformación ξ = x − vf t nos lleva a las siguientes ecuaciones: ∂n(ξ) fe 1 = (n(ξ) − 1) ∂ξ vf 2k. ξ+k Z. n(ξ 0 )dξ 0. (5.18). ξ−k. lı́m n(ξ) = 0. (5.19). lı́m n(ξ) = 1. (5.20). ξ→∞. ξ→−∞. que describen el perfil espacial del frente de onda n(ξ). Las soluciones numéricas de esta ecuación se presentan en la figura 5.8. El ancho del frente es aproximadamente igual a 4k. La velocidad del frente vf en función de k y de fe se describe mediante la siguiente ecuación:. vf = c =. c k fe 0,565029 . . .. (5.21) (5.22). La constante c es adimensional. Las velocidades vf medidas en las simulaciones numéricas del proceso de propagación de información en las redes ordenadas coinciden en una buena aproximación con la ecuación 5.21 (ver figura 5.9)..

(51) 5.3. LA RED ORDENADA. 39. k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10. 1. k. n(ξ) 0.5 k. 0. −20. −15. −10. −5. 0. 5. 10. 15. 20. ξ. Figura 5.8: El perfil espacial n(ξ) de la onda informativa en función de la conectividad k cuando se propaga en redes ordenadas en el régimen lineal (k ¿ N ). 10. 9. fe = 1: ecuación integro diferencial fe = 2: ecuación integro diferencial fe = 1: Mediciones de vf en simulaciones. 8. 7. 6. vf (k) = k fe c. vf. c = 0.565029.... 5. 4. 3. 2. N = 1000 nodos realizaciones = 1000. 1. 0. 0. 1. 2. 3. 4. 5 k. 6. 7. 8. 9. 10. Figura 5.9: Velocidad de propagación vf del frente de onda informativa en función de k y fe . Comparación entre resultados numéricos de la solución analı́tica de la ecuación integro diferencial y mediciones de vf en las simulaciones de propagación de información en redes ordenadas (N = 1000, p = 0, 1000 realizaciones)..

(52) 40. 5.4.. CAPÍTULO 5. PROPIEDADES DINÁMICAS. La red aleatoria. El proceso de desorden, descrito por el parámetro p, introduce atajos en la red ordenada inicial. Estos atajos reducen la distancia media L de la red tal como se vió en la sección 3.2. De esto se puede deducir que los procesos de propagación de información deberı́an culminar en un tiempo menor cuando ocurren en escenarios de interacción con topologı́as correspondientes a redes aleatorias. Invitamos al lector a observar las figuras 5.10 y 5.11, en las cuales se muestran los resultados numéricos de las simulaciones. Las curvas de I(t) para distintos valores de k ¿ N y para valores de la aleatoriedad p > psmallworld muestran cualitativamente evoluciones temporales de tipo “logı́stico”. Esto nos conduce a una descripción fenomenológica de este régimen mediante la siguiente ecuación, derivada de las propiedades dinámicas de la red totalmente conectada:. Iτ (t) =. N Iτ (0) exp ( τt ) . Iτ (0) exp ( τt ) + N − Iτ (0). (5.23). El parámetro τ es un tiempo caracterı́stico que describe satisfactoriamente la evolución temporal del proceso de propagación de información en redes aleatorias. Para demostrar esto realizamos el fiteo de las curvas resultantes de las simulaciones numéricas utilizando la ecuación 5.23 y calculamos el tiempo caracterı́stico τ que mejor las describa. La calidad de este fiteo fue medida con el indicador Rsquare . 1 Los resultados se presentan en la figura 5.13. Para τ = 1 se recupera el caso de la red totalmente conectada. Todos los valores de Rsquare ≈ 0,99. Esta descripción fenomenológica va perdiendo calidad conforme p va disminuyendo en dirección de psmallworld (ver figura 5.12).. 1 Si definimos y como el vector de datos con n componentes y ŷ como el vector resultante del proceso de fiteo, entonces el indicador Rsquare queda precisado a través de las siguientes cantidades: n X. SSE =. (yi − ŷi )2. (5.24). i=1 n. X SST =. (yi − ȳ)2. (5.25). SSE SST. (5.26). i=1. Rsquare = 1 −.

(53) 5.4. LA RED ALEATORIA. 41. Figura 5.10: La evolución temporal del número de nodos informados I(t) para distintos valores de la conectividad k y p = 1 (N = 1000, 1000 realizaciones).. Figura 5.11: La evolución temporal del número de nodos informados I(t) para distintos valores de p > psmallworld y k = 5 (N = 1000, 1000 realizaciones)..

(54) 42. CAPÍTULO 5. PROPIEDADES DINÁMICAS. Figura 5.12: La calidad de la descripción fenomenologica va disminuyendo conforme p decrece en dirección de psmallworld .. Figura 5.13: El tiempo caracterı́stico τ (p) en función de la aleatoriedad p para distintos valores de la conectividad k (N = 1000, 1000 realizaciones)..

(55) 5.5. LA RED SMALL WORLD DIRIGIDA. 43. Figura 5.14: La red small world dirigida no permite ser descripta fenomenológicamente por la ecuación 5.23.. 5.5.. La red small world dirigida. Las propiedades dinámicas de la red small world dirigida no permiten ser descriptas por la ecuación 5.23. Invitamos al lector a observar la figura 5.14 en la cual se compara un caso particular de una red de este tipo con el correspondiente fiteo mediante la ecuación 5.23. La red small world dirigida es más veloz al inicio de la evolución temporal, pero es alcanzada por la correspondiente red aleatoria. Las dos redes concluyen el proceso de propagación aproximadamente al mismo tiempo. Esta evidencia permite utilizar el tiempo caracterı́stico τ como un indicador global acerca de la velocidad de propagación en redes small world dirigidas. Esto quiere decir que τ no describe detalladamente la evolución temporal del número de nodos informados I(t) pero sı́ es un indicador adecuado para caracterizar la velocidad “promedio” del proceso. Dicho esto nos permitimos extender el gráfico de la figura 5.13 hasta valores de p en el corazón del intervalo small world (ver figura 5.15)..

(56) 44. CAPÍTULO 5. PROPIEDADES DINÁMICAS. Figura 5.15: El tiempo caracterı́stico τ (p) en función de la aleatoriedad p para distintos valores de la conectividad k (N = 1000, 1000 realizaciones)..

(57) Capı́tulo 6. Mecanismos de detección y corrección de errores Por lo general los canales de transmisión de información no son perfectos. Podemos pensar en el ruido electromagnético siempre presente en canales de transmisión de sistemas artificiales de comunicación como, por ejemplo, la red telefónica, ası́ como en la mala interpretación de una de las partes en una conversación verbal, ocasionada por una manera incorrecta de expresarse del correspondiente interlocutor. Estos son sólo dos ejemplos dentro de una amplia gama de situaciones, en las cuales se comprueba que los canales de transmisión están sujetos a ruido. En este capı́tulo nos proponemos estudiar la influencia de canales ruidosos en la fracción de nodos erróneamente informados, ası́ como en un mecanismo no supervisado de detección y corrección de errores basado en un esquema que aprovecha el grado de clustering C de las redes estudiadas en este trabajo.. 6.1.. Canales ruidosos. Para poder estudiar la influencia que tiene el ruido en el proceso de propagación de información se implementó un modelo sencillo basado en una probabilidad pE , la cual definimos como la probabilidad de que un nodo transmita de manera errónea. Para esto es necesario ampliar el espacio de estados posibles de los agentes interactuantes. Los estados posibles son tres: no informado, informado correctamente e informado incorrectamente. La dinámica de interacción, que modela la propagación de información es la misma explicada en la sección 2.2 con la excepción de que con probabilidad pE el nodo receptor de información es informado de manera incorrecta. A su vez, este nodo mal informado, se convierte en una fuente de “desinformación”. Es decir que el nodo en cuestión no es consciente de que se encuentra mal informado e intenta transmitir la información incorrecta que posee a sus nodos vecinos. Una vez que todos los N nodos fueron informados, correcta o incorrectamente, al menos una vez, el proceso concluye. Nos interesa la fracción i− de nodos desinformados al culminar 45.

(58) 46CAPÍTULO 6. MECANISMOS DE DETECCIÓN Y CORRECCIÓN DE ERRORES. Figura 6.1: La fracción de nodos desinformados i− en función de la probabilidad de informar erróneamente pE para distintos valores de la aleatoriedad de la red p, (N = 1000, k = 5, 2500 realizaciones). la propagación de información. En las figuras 6.1 y 6.2 se presentan algunos resultados numéricos. Es evidente que cuando pE = 1 la mitad de los nodos se encuentran desinformados. La topologı́a de la red no tiene influencia sobre este hecho, es decir: 1 i− (pE = 1) = , ∀ N, k, p. (6.1) 2 Dado un valor fijo de la conectividad k, tanto la fracción de nodos desinformados i− como el grado de clustering C decrecen a medida que la red se desordena. Las evidencias numéricas demuestran que las redes con un elevado C son menos robustas contra ruido en los canales de transmisión. Esta desventaja se convertirá en una ventaja cuando se introduzcan mecanismos de detección y corrección de errores en la próxima sección. En las figuras 6.3 y 6.4 se aprecia la influencia de la conectividad de la red k sobre la fracción de nodos desinformados i− para un valor fijo de pE y para distintos valores de p. La red es más robusta a la difusión de errores a medida que el desorden p y la conectividad k aumentan..

(59) 6.1. CANALES RUIDOSOS. 47. Figura 6.2: La fracción de nodos desinformados i− en función de la probabilidad de informar erróneamente pE para distintos valores de la aleatoriedad de la red p, (N = 1000, k = 10, 1000 realizaciones).. Figura 6.3: La fracción de nodos desinformados i− en función de la conectividad k para distintos valores de p y para una probabilidad de error fija pE = 10−2 (N = 1000, 3000 realizaciones)..