Desarrollo de una metodología para el desarrollo de herramientas de medición de desempeño

Texto completo

(1)Desarrollo de una metodologı́a para el desarrollo de herramientas de medición de desempeño. Trabajo de Tesis presentado al Departamento de Ingenierı́a Eléctrica y Electrónica por. Liliana Rodrı́guez Amorocho Asesor: Néstor Peña Traslaviña. Para optar al tı́tulo de Magı́ster en Ingenierı́a Electrónica y de Computadores. Ingenierı́a Eléctrica y Electrónica Universidad de Los Andes Noviembre 2006.

(2) Desarrollo de una metodologı́a para el desarrollo de herramientas de medición de desempeño. Aprobado por:. Néstor Peña Traslaviña, Asesor. Fecha de Aprobación.

(3) IEMC-I-06-14. A Dios, A mi hijo, Juan Diego, quien es mi alegrı́a A mi esposo, Alejandro, por su paciencia y apoyo A mis padres, Francisco y Marı́a del Carmen, por su ayuda incondicional.. iii.

(4) IEMC-I-06-14. Prefacio. Establecer mecanismos que permitan el máximo aprovechamiento de los recursos de la red, diseñar sistemas de monitoreo eficientes a diversos niveles de escala temporal y agrupar esto en modelos de control de congestión capaces de brindar la mejor calidad del servicio al cliente, son algunos de los desafı́os impuestos a los desarrolladores de aplicaciones de equipos y programas para Internet [1]. Para las etapas de diseño y prueba de tales desarrollos, se requiere una infraestructura que permita recrear escenarios para la puesta en marcha de experimentos controlables y reproducibles. Esto implicarı́a contar no sólo con las instalaciones y equipos de la red, sino además con usuarios dispuestos a participar en diversos experimentos. Por razones de ı́ndole logı́stica, económica, por seguridad, entre otras, es imposible conducir un experimento repetitivo con tales caracterı́sticas. Esta situación, es la que motiva la generación de cargas de tráfico de manera sintética. Existen diferentes metodologı́as para la generación de cargas representativas de tráfico, en particular, esta investigación se basa en la generación de tráfico de usuarios equivalentes[2] [3] [4] [5]. Dada la evidencia de que algunas variables relacionadas con el tráfico de Internet no obedecen a los modelos de tráfico clásico [6] [7], la fuente de tráfico implementada reproduce la actividad de un usuario de internet real, el cual puede ser ajustado a. iv.

(5) IEMC-I-06-14 las condiciones particulares de una red por medio de la medición del tráfico de los usuarios reales. En el capı́tulo final del documento, se muestra como la fuente de tráfico se somete a una serie de pruebas para determinar su equivalencia con el tráfico que genera un usuario real, en términos de autosimilaridad y dependencia a largo plazo (LRD). Posteriormente, la verificación se realiza sobre fuentes de tráfico agregadas, y se evalúa la capacidad de los algoritmos implementados, para reproducir tráfico con las caracterı́sticas reportadas por Downey [8]. Finalmente, se muestra como la infraestructura tiene un impacto importante en la evaluación y desarrollo de medidores de desempeño, mostrando el caso particular de las medidas relacionadas con el ancho de banda.. v.

(6) IEMC-I-06-14. Reconocimientos. Agradezco a Néstor Peña Traslaviña, mi asesor, por su guı́a y la confianza depositada. También agradezco a la Universidad de los Andes y en especial a los directivos y personal del Departamento de Ingenierı́a Eléctrica y Electrónica por facilitar sus instalaciones, recursos y el apoyo necesario durante el curso de mis estudios. También quiero manifestar mi agradecimiento a la DTI (Dirección de tecnologı́as e Informática) y al MOX (Dirección de servidores) de la Universidad de los Andes, por la asesorı́a brindada y por facilitar información a cerca del tráfico de la red Uniandes. A los coordinadores de los Laboratorios de Eléctrica y Electrónica (Departamento de Ingenierı́a Eléctrica y Electrónica) y de Redes (Departamento de Ingenierı́a de Sistemas y Computación) de la Universidad de los Andes, por su gran colaboración respecto a las facilidades de infraestructura y equipos que muy amablemente pusieron a disposición, para el desarrollo de la presente investigación.. vi.

(7) IEMC-I-06-14. Tabla de Contenido Dedicatoria. III. Prefacio. IV. Reconocimientos. VI. Lista de Tablas. IX. Lista de Figuras. XI. Resumen I.. XIII. Estado del arte. 1. 1.1. Medición de tráfico . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Modelamiento y caracterización de tráfico de Internet . . . . . . . .. 4. 1.2.1. Definición de autosimilaridad . . . . . . . . . . . . . . . . . .. 7. 1.2.2. Distribuciones con cola pesada . . . . . . . . . . . . . . . . .. 8. 1.3. Generadores de tráfico . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 1.3.1. Mah [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.2. Choi y Limb [2] . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3.3. Barford y Crovella [5] . . . . . . . . . . . . . . . . . . . . . . 15 1.3.4. Heegard [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.5. Deng [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3.6. Influencia de la autosimilaridad en el desempeño de la red . . 17 II. Caracterización de tráfico HTTP 2.1. Caracterización de un usuario 2.1.1. Volumen de tráfico. 19. . . . . . . . . . . . . . . . . . . . . . 24. . . . . . . . . . . . . . . . . . . . . . . . 25. vii.

(8) IEMC-I-06-14 2.1.2. Tiempo entre llegadas de paquetes . . . . . . . . . . . . . . . 27 2.2. Caracterización de la red Uniandes . . . . . . . . . . . . . . . . . . . 30 2.2.1. Volumen de tráfico. . . . . . . . . . . . . . . . . . . . . . . . 30. 2.2.2. Tiempo entre paquetes . . . . . . . . . . . . . . . . . . . . . 32 2.3. Tráfico de fondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 III. Implementación de una fuente de tráfico HTTP. 36. 3.1. Herramientas de Software para construir aplicaciones de red . . . . . 36 3.2. Algoritmo para construir un usuario equivalente (UE) . . . . . . . . 37 3.2.1. Implementación de las variables del modelo . . . . . . . . . . 41 3.3. Múltiples usuarios UE . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4. Red de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 IV. Implementación de diversos experimentos usando usuarios equivalentes en ambientes controlados 55 4.1. Evaluación de una fuente de tráfico sintética implementada con el algoritmo UE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2. Evaluación de la agregación de múltiples fuentes de tráfico implementadas con el algoritmo UE . . . . . . . . . . . . . . . . . . . . . 57 4.3. Efecto del multiprocesamiento sobre el tráfico generado por múltiples fuentes UE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4. Evaluación de la intrusividad en la medición de ancho de banda disponible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 V. Conclusiones y recomendaciones. 68. Apéndice A.. — Métodos para el cálculo del parámetro de Hurst. 71. Apéndice B.. — Documentación electrónica adicional. 77. Referencias. 78. Vita. 81. viii.

(9) IEMC-I-06-14. Lista de Tablas 1.. Estándares relacionados con la medición del tráfico de Internet . . . .. 2.. Parámetros del modelo propuesto por Choi y Limb . . . . . . . . . . 14. 3.. Parámetros del modelo propuesto por Barford y Crovella . . . . . . . 16. 4.. Resultados de las medidas de tráfico realizadas a un usuario real de Internet (Enero 2006). . . . . . . . . . . . . . . . . . . . . . . . . . . 25. 5.. Resumen de las estadı́sticas para el volumen de tráfico generado por de un usuario de Internet real. . . . . . . . . . . . . . . . . . . . . . . 28. 6.. Resumen de las estadı́sticas para el tiempo entre paquetes del tráfico de un usuario de Internet. . . . . . . . . . . . . . . . . . . . . . . . . 28. 7.. Resumen de las estadı́sticas para el volumen de tráfico de la red Uniandes (Mayo de 2004). . . . . . . . . . . . . . . . . . . . . . . . . 32. 8.. Cuadro comparativo de las estadı́sticas del tráfico de fondo real y el sintético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35. 9.. Relación de las variables que hacen parte de un modelo para producir tráfico representativo, basado en el comportamiento de un usuario de Internet. Se incluye la información de la distribución empleada, media, varianza y autor de referencia. . . . . . . . . . . . . . . . . . . 39. 10.. Cálculo de la correlación entre conjuntos de números aleatorios generados por el algoritmo implementado. . . . . . . . . . . . . . . . . . 43. 11.. Cálculo del coeficiente de correlación entre conjuntos de números aleatorios generados por el algoritmo implementado. . . . . . . . . . . 43. 12.. Función de probabilidad acumulada empı́rica para datos con distribución Gamma(0.6,1349). . . . . . . . . . . . . . . . . . . . . . . . . . . 47. 13.. Cuadro comparativo de las variables analizadas para el caso de un usuario real (UR) descrito en el capı́tulo 2 y un usuario equivalente (UE), generado con el algoritmo propuesto en el capı́tulo 3. . . . . . . 56. ix. 3.

(10) IEMC-I-06-14 14.. Cuadro comparativo del volumen de tráfico generado por un usuario real (UR), vs. un usuario equivalente (UE) para una agregación en el tiempo de 1, 10, 100 y 1000ms. . . . . . . . . . . . . . . . . . . . . . 56. 15.. Resultados de la estimación del parámetro de Hurst por los métodos descritos en el Apéndice A: (1) R/S, (2) Varianza de procesos agregados y (3) aproximación al ruido fraccional gaussiano; aplicados al tráfico producido por cuatro usuarios equivalentes. . . . . . . . . . . . 57. 16.. Cuadro comparativo de la ejecución de múltiples usuarios usando multiprocesamiento y múltiples usuarios usando múltiples procesadores. 63. x.

(11) IEMC-I-06-14. Lista de Figuras 1.. Escenario de medición del tráfico producido por un usuario de Internet de la sala de asistentes graduados del Departamento de Ingenierı́a Eléctrica y Electrónica de la Universidad de los Andes. . . . . . . . . 20. 2.. Diagrama de flujo para la reducción y análisis de información . . . . . 23. 3.. Parámetro de Hurst obtenido por: (a) Método de la varianza (b) Método R/S, aplicados al volumen de tráfico producido por un usuario de Internet real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26. 4.. Coeficientes de correlación para el volumen de tráfico producido por un usuario de Internet real. . . . . . . . . . . . . . . . . . . . . . . . 27. 5.. Prueba log-log de la CCDF para varios niveles de agregación del tiempo entre llegadas de paquetes http del tráfico generado por un usuario de Internet real. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29. 6.. Volumen de tráfico para la red Uniandes (Mayo de 2004). (a) 15 minutos de tráfico, vistos con una precisión de 1s. (b) 100 segundos de tráfico vistos con una precisión de 0.1s (c) 10 segundos de tráfico vistos con una precisión de 0.01s. . . . . . . . . . . . . . . . . . . . . 31. 7.. Ajuste de las variables, tiempo entre paquetes (a) y tamaño del paquete (b) para el tráfico que no es HTTP, presente en la traza capturada de la red Uniandes (Mayo de 2004) . . . . . . . . . . . . . . . . . . . 34. 8.. Diagrama de flujo para una fuente de tráfico sintético basada en el comportamiento de un usuario de Internet. . . . . . . . . . . . . . . . 40. 9.. Función de distribución acumulada para los datos producidos por el generador de números Weibull(81.4,0.9), para la variable Tiempo ON del algoritmo UE comparados con números con la misma distribución generados por MathLab . . . . . . . . . . . . . . . . . . . . . . . . . 44. 10.. Función de distribución acumulada complementada para los datos producidos por el generador de números Pareto (0.9,60), para la variable Tiempo OFF del algoritmo UE. . . . . . . . . . . . . . . . . . . 45. xi.

(12) IEMC-I-06-14 11.. Función de distribución acumulada complementada para el tiempo entre solicitudes Web. De la figura se nota como para obtener tiempos medios entre solicitudes de 5s, se requiere ajustar el generador de números aleatorios a una Weibull(0.45,0.54) . . . . . . . . . . . . . . 46. 12.. Contenidos de la carpeta HTTP del servidor Apache. . . . . . . . . . 49. 13.. Función de distribución acumulada complementada para el tamaño de los objetos HTML a solicitar. Los números aleatorios obedecen a una distribución Log Normal(1.8,1) y fueron obtenidos con un generador basado en una función de distribución acumulada empı́rica. . . . . . . 50. 14.. Algoritmo para múltiples usuarios UE (Usuarios Equivalentes). . . . . 51. 15.. Efecto de los tiempos entre usuario sobre el volumen de tráfico generado. 52. 16.. Configuración de la red de prueba implementada en las instalaciones del Laboratorio de redes del Departamento de Ingenierı́a de Sistemas y Computación de la Universidad de los Andes. Los equipos designados como Generadores HTTP, corren el algoritmo implementado para el usuario equivalente (UE). . . . . . . . . . . . . . . . . . . . . 53. 17.. Volumen de tráfico para 4 UE (a) 16 minutos de tráfico, vistos con una precisión de 1 s. (b) 100 segundos de tráfico vistos con una precisión de 0.1 s (c) 10 segundos de tráfico vistos con una precisión de 0.01 s.. 58. 18.. Auto correlación del proceso de bytes por unidad de tiempo, para cuatro Usuarios Equivalentes. Los datos corresponden a una traza de 1 hora de duración. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60. 19.. Diagrama CCDF (Distribución de probabilidad acumulada complementada) para el tiempo entre llegadas de paquetes del tráfico generado por cuatro usuarios equivalentes. . . . . . . . . . . . . . . . . . 61. 20.. Diagrama CCDF (Distribución de probabilidad acumulada complementada) para el tamaño de los archivos solicitados por cuatro usuarios equivalentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61. 21.. Mediciones de ancho de banda usando Pathload. (a) Medida bajo condiciones de bajo tráfico. Pathload arroja como resultado un ancho de banda disponible de entre 8.84 y 8.9Mbps en un enlace de 10Mbps. (b) Medida bajo condiciones de alto tráfico. Pathload reporta que el ancho de banda disponible es de 0 Mbps. . . . . . . . . . . . . . . . . 66. xii.

(13) IEMC-I-06-14. Resumen. En este documento se ilustra el proceso de implementación de una infraestructura para la reproducción de escenarios con cargas de tráfico representativas en aras de facilitar la experimentación en el desarrollo de sistemas de medición de desempeño y de control de redes corporativas. La infraestructura desarrollada consiste de un conjunto de herramientas de análisis, un generador de tráfico HTTP, una red de prueba y un proceso metodológico para la caracterización de tráfico autosimilar. Una serie de experimentos, permite verificar que la infraestructura implementada presenta un tráfico con las caracterı́sticas de autosimilaridad y dependencia a largo plazo que señalan los trabajos de medición sobre redes reales realizados y reportados en la literatura técnica.. xiii.

(14) IEMC-I-06-14. Capı́tulo I. Estado del arte A continuación, se resume parte del trabajo investigativo de las últimas décadas, que ha permitido conocer más del comportamiento de la red Internet y se concluye con una proyección de lo que deberı́a ser el trabajo a futuro en el mejoramiento del desempeño de la red.. 1.1.. Medición de tráfico. La experiencia de medición, ha constituido la columna vertebral de la mayorı́a de los trabajos en busca de establecer modelos para el tráfico de Internet [10][3][2][4][11]. Esto se debe a que partir de una concepción meramente analı́tica se pueden obviar muchos de los factores de influencia en el comportamiento del tráfico real. Dentro de los autores consultados, se tiene registro de la existencia de trabajos de medición desde finales la década de los 80, y a pesar de que son ya más de 15 años de trabajo, no se puede decir que todo está hecho en este campo. El trabajo de medición es un trabajo que ha estado limitado por razones tecnológicas, de infraestructura y de seguridad, lo que ha impedido que a hoy no se posea un conjunto de trazas lo suficientemente representativas como para establecer una clara tendencia en el tráfico. A pesar de los esfuerzos de grupos como MAWI [12] e ITA [13], las trazas disponibles. 1.

(15) IEMC-I-06-14 no cumplen con muchas de las expectativas del investigador. Por ejemplo, en MAWI se tienen trazas de servidores a nivel mundial, discriminadas por año, dı́a y hora. Cada traza tiene 15 minutos de tráfico y luego de hacer un filtro, se tiene que no posee ni una solicitud Web, y además, luego de hacer un análisis de volumen de tráfico, se obtiene una tendencia muy determinı́stica, que no cumple con las expectativas de un tráfico totalmente impredecible como el que se esperaba. No se sabe si todas las trazas tienen la misma caracterı́stica, no obstante y debido a que este proceso podrı́a tomar dias e incluso meses, no resulta muy atractivo utilizar este tipo de trazas. Respecto de las trazas ITA, se tiene que son trazas que han sufrido una reducción substancial la mayorı́a de las trazas apenas contienen una marca de tiempo con precisión de segundos y la cantidad de bytes para cada paquete. Esta información resulta insuficiente para los propósitos de esta investigación, cuando se quiere determinar, por ejemplo, el número de solicitudes HTTP por unidad de tiempo, pues los encabezados de los paquetes han sido omitidos. Con base en lo anterior, se hace evidente la necesidad de medir el tráfico, para esto, la herramienta más popular es tcpdump [14] un poderoso software de captura de paquetes que usa la librerı́a libpcap [14]. Tcpdump es un programa de libre distribución desarrollado en Lawrence Berkeley Laboratory, de la Universidad de California por: Van Jacobson, Craig Leres, y Steven McCanne. Fue diseñado originalmente para analizar los problemas de desempeño de TCP/IP y hoy en dı́a es el más popular en el área con un sin número de aplicaciones. Otras herramientas desarrolladas para capturar y filtrar tráfico son: Analyzer, Argus, Cflowd, Ethereal, NetraMet, PasTmon, Snoop, Snuffle, Natas, Netflow, Packetsizer, tcptrace, tcpshow, tcppurify, tcpdpriv, flstats, entre otras, las cuales pueden ser obtenidas de la página web de CAIDA (The Cooperative Association for Internet Data análisis)[15].. 2.

(16) IEMC-I-06-14 1.1.0.1. Medición de desempeño Existe una manifiesta dificultad no solo en establecer las métricas del desempeño, sino en el establecimiento de las metodologı́as para su medición. Dada esta necesidad, nace en 1998, el capı́tulo IPPM (Internet Protocol Performance Metrics), dedicado a la búsqueda de respuestas en el campo del desempeño de redes de Internet. En la tabla 1 se listan los números publicados (RFC=Request for comments) [16] hasta el momento en el área de la medición de tráfico de Internet: RFC RFC2330 RFC4148 RFC2678 RFC2679 RFC2680 RFC2681 RFC3148 RFC3357 RFC3393 RFC3432. TEMA Metodologı́a general para las mediciones de desempeño IP IPPM, lineamientos para el registro de métricas IP Métricas IPPM, para la medición de conectividad Métrica IPPM, para la medición del retardo en un sentido Métrica IPPM, para la medición de la pérdida en un sentido Métrica IPPM, para le medición del retardo de ida y vuelta Metodologı́a para mediciones de capacidad de transferencia Métricas para el muestreo de patrones de pérdida Métrica IPPM, de la variación del retardo de paquetes IP Medidas de desempeño de la red para flujos periódicos. AÑO 1998 2005 1999 1999 1999 1999 2001 2002 2002 2002. Tabla 1: Estándares relacionados con la medición del tráfico de Internet Las mediciones de desempeño, según la clasificación publicada en la RFC2330, pueden ser:. Formales o analı́ticas: son aquellas que pueden expresarse de manera abstracta y matemática, como: el tiempo de propagación, el tiempo de transmisión. El ancho de banda del enlace, el ancho de banda de la red, el ancho de banda del cuello de botella, la ruta instantánea de un enlace, el contador de nodos de un enlace, el tamaño del buffer, el tamaño instantáneo de la cola, la máxima capacidad de la red, el parámetro de Hurst instantáneo, la conectividad, el jitter, la disponibilidad de la. 3.

(17) IEMC-I-06-14 red, la utilización, el tiempo en que se envı́a y retorna un NOC (manejo de fallos), tiempo de propagación de un enlace, el ancho de banda de un enlace para paquetes de un tamaño determinado, etc.. Medidas empı́ricas: son aquellas que requieren de un proceso metodológico e involucran una o más medidas formales, como por ejemplo, la medición de la mejor capacidad de flujo alcanzable mientras se observa el control de congestión de TCP. En la RFC2330[17], también se enuncian las caracterı́sticas necesarias para validar una medición de desempeño, las cuales se listan a continuación: Concreción y buena definición. Repetible, bajo circunstancias similares en aras de obtener los mismos resultados. Exhibir una tendencia cuando se aplica a redes con la misma tecnologı́a. La métrica debe ser útil a los usuarios y a los proveedores para entender el nivel de desempeño que ellos experimentan o proveen.. 1.2.. Modelamiento y caracterización de tráfico de Internet. Tradicionalmente, los modelos poissonianos han permitido describir diversos tipos de tráfico, no obstante cuando se habla de tráfico de paquetes en Internet, se ha podido comprobar que dichos modelos fallan. Paxon [6], hace alusión a este fenómeno en su estudio de trazas TCP basado en 24 trazas de 2 horas de duración cada una, en el cual analiza el tiempo entre el establecimiento de las conexiones de diversos protocolos y llega a determinar que solo las aplicaciones de TELNET y FTP, se ajustan al modelo poissoniano homogéneo. Para otras aplicaciones, como las 4.

(18) IEMC-I-06-14 conexiones TCP y HTTP, el modelo falla y resulta en medidas de desempeño como el retardo y el tamaño de buffer muy poco fiables. Respecto de esta conclusión, se da a la tarea de sugerir un modelo que logre ser tan impredecible como el tráfico real el cual a diferencia de los modelos clásicos no solo debe reproducir una caracterı́stica de dependencia a corto plazo (SRD)1 sino, además, una dependencia a largo plazo (LRD)2 . Como un resultado notable, se llega a que los tiempos entre llegadas de paquetes se ajustan mejor a una distribución Pareto en lugar de una exponencial y sugiere el modelo M/G/∞ como un modelo que puede reflejar las caracterı́sticas de este tipo de tráfico. Otro estudio importante, es el Willinger [18], quien por medio de la medición de tráfico en una red LAN, llega a demostrar que el tráfico de Internet se comporta como un proceso asintóticamente autosimilar de segundo orden como se explicará mas adelante. Otros modelos aplicados al tráfico de Internet, son reseñados en el trabajo de Ma y Ji [19]:. Modelos basados en cadenas de Markov: Estos modelos se ajustan bien hasta cierto punto, ya que modelan procesos de corta dependencia. No obstante, cuando el tráfico empieza a exhibir caracterı́sticas acentuadas de larga dependencia, los modelos se vuelven muy complicados de parametrizar. 1. Dependencia a corto plazo (SRD): Los valores posibles del proceso corresponden a un proceso sin memoria (variables con distribución exponencial) y la suma de los coeficientes de correlación del procesos resultan en una cantidad finita: r(k) < ∞ 2 Dependencia a largo plazo (LRD): la función de correlación del proceso se puede aproximar a r(k) = k −β donde, 0 < β < 1, lo que implica un fenómeno de persistencia, esto es, el fenómeno estadı́stico presenta valores muy grandes o muy pequeños de manera consecutiva. Las variables aleatorias con dependencia a largo plazo, se caracterizan porque los coeficientes de correlación no se pueden sumar, y por tanto r(k) → ∞. 5.

(19) IEMC-I-06-14 Modelos basados en el ruido fraccional gaussiano (FGN): Tienen la ventaja de representar muy bien la larga dependencia (LRD) del tráfico IP, pero son incapaces de modelar la dependencia a corto plazo (SRD).. Modelos basados en la escena (para el caso de estudio de VBR) o en la conexión (tráfico IP): como los modelos MMPP, FARIMA o M/G/∞ . Logran describir muy bien las dos dependencias SLD y LRD y realmente reflejan el comportamiento fı́sico de las tramas. No obstante, el MMPP requiere que se elija un segmento de tráfico que represente lo mejor posible las estadı́sticas del tráfico total (lo cual es muy difı́cil de conseguir); FARIMA, tiene el problema del alto costo computacional y M/G/∞ resulta atractivo, pero no se han podido generar altos volúmenes de tráfico sintético usando este modelo.. Modelos no gaussianos: utilizan funciones de densidad de probabilidad con cola pesada como la función Pareto. Son modelos basados en ajuste estadı́stico que permiten predecir con buena precisión la probabilidad de overflow del buffer. Su mayor desventaja es que no tienen en cuenta los factores de escala y se basan únicamente en las estadı́sticas del proceso a nivel de paquete.. Modelos basados en onditas: Son diseñados para modelar el movimiento browniano fraccional y aquellos procesos invariantes con la escala. Dentro de las ventajas de estos modelos están los que describen la LRD y SRD, obteniendo probabilidades de desbordamiento del buffer muy cercanas a las del proceso real, tal precisión implica alto costo computacional, Ma y Ji tratan de abordar el proceso y de establecer una metodologı́a para ajustar los coeficientes de las onditas, finalmente hacen una simulación exitosa de los resultados observando la respuesta del buffer.. 6.

(20) IEMC-I-06-14 Modelos de fuentes ON/OFF: consisten en la implementación de fuentes únicas de tráfico, que se encuentran en estado ON, cuando intercambian información con el servidor, o en estado OFF, cuando se encuentran en un estado de inactividad ya sea porque están procesando la información obtenida o porque finalizaron la conversación. Este tipo de modelos ha permitido generar tráfico que sin requerir un alto costo computacional, puede reproducir tanto la caracterı́stica de SRD, como la LRD. 1.2.1.. Definición de autosimilaridad. Sea X una variable aleatoria, estacionaria, de segundo orden y sea X (m) (i), la serie agregada del proceso X, esto es, la suma de elementos consecutivos en grupos disyuntos de m elementos. El proceso se denomina exactamente autosimilar de segundo orden, si se cumple que para todo m > 1: V ar(m(1−H) · X (m) ) = σ 2. (1). r(k)(m) = 1/2 · (|k + 1|2·H − 2 · |k|2·H + |k − 1|2·H ). (2). Un caso especial de los procesos autosimilares de segundo orden, son los procesos asintóticamente autosimilares de segundo orden, en los cuales se cumple que para m → ∞,se cumple que:. V ar(m(1−H) · X (m) ) → σ 2. (3). r(k)(m) → 1/2 · (|k + 1|2·H − 2 · |k|2·H + |k − 1|2·H ). (4). En la ecuación (4), H es el parámetro de Hurst o parámetro de autosimilaridad. Para que una serie sea autosimilar se debe cumplir H > 0,5. El parámetro H de una serie puede estimarse por medio de diversas metodologı́as. En el apéndice A, se 7.

(21) IEMC-I-06-14 explican detalladamente los métodos utilizados en el presente estudio, los cuales se mencionan a continuación: Análisis de varianza-tiempo de procesos agregados. [20]. Método R/S o de estadı́sticas por rangos. [21]. Método por aproximación a un Ruido fraccional gaussiano (FGN). [22]. Los detalles de cada método, se muestran en el anexo A. 1.2.2.. Distribuciones con cola pesada. Se dice que una distribución es de cola pesada, si se cumple que:. P (X ≤ x) ≈ x−α , x → ∞, 0 < α < 2. (5). P (X ≤ x) = 1 − (k/x)α , x → ∞, 0 < α < 2. (6). La ecuación 6 muestra un caso particular de las distribuciones con cola pesada, la función de distribución Pareto. Esta distribución es hiperbólica en todo el rango y es la más popular en el modelamiento de variables en el área de las redes de computadores. En la ecuación 6, k es el mı́nimo valor de la variable aleatoria o factor de escala, en tanto que α, es la que determina que tan rápido decae la cola de la distribución y se denomina factor de forma. El factor de forma α, incide en el comportamiento estadı́stico de la variable, para α < 2, la varianza es infinita, pero si además α < 1 la media también es infinita. Esto implica que la variable aleatoria tiene valores posibles que tienden a infinito y cuya probabilidad de ocurrencia es mayor a cero. El factor de escala α para una función Pareto se puede calcular con la ecuación 7.. 8.

(22) IEMC-I-06-14 Donde P (X ≥ x), es la función de distribución acumulada complementada (CCDF) de P (X ≤ x) y se define como P (X ≥ x) = 1 − P (X ≤ x). dlog(P (X ≥ x)) = −α dlogk/x. 1.3.. (7). Generadores de tráfico. Existen dos tendencias que se pueden identificar dentro de los generadores de tráfico disponibles comercial o libremente: Tráfico basado en una función de distribución o caja negra: Este tipo de generadores, recolectan numerosas trazas de tráfico, para determinar estadı́sticas que las describan y hacer ajustes a modelos como Ruido fraccional gaussiano, procesos ARIMA o procesos de Markov modulados. Para implementar tales procesos, existen numerosos generadores de tráfico que permiten generar paquetes ya sea UDP o TCP con una función de distribución de probabilidad para el tiempo entre paquetes y el tamaño de los mismos. Para el caso de la presente investigación, se usó el generador de tráfico de libre distribución D-ITG[23], cuya efectividad fue corroborada como lo señalan los resultados mostrados en secciones siguientes. La concepción de caja negra tiene como principal inconveniente, el ajuste a futuras condiciones de la red y a variaciones en la demanda. Tráfico basado en el comportamiento del usuario (Modelos empı́ricos): A partir del análisis estadı́stico de diversas trazas recolectadas en una red real, se logran algoritmos que imitan el comportamiento del usuario navegando en el Internet. Los generadores de este tipo tienen como ventajas: que son más flexibles y más portables que los anteriores, pues se construyen libres de la influencia de 9.

(23) IEMC-I-06-14 parámetros de hardware y software de la red. La principal dificultad consiste en que requieren medidas mas detalladas que en los otros casos. La información necesaria para construir un modelo empı́rico, puede ser obtenida por diversos métodos:. Tráfico basado en la información proveniente de los registros de solicitudes hechas al servidor: Esta metodologı́a da información respecto al comportamiento de las solicitudes que llegan a un servidor. De esta metodologı́a, se puede obtener el tiempo de llegada de una solicitud, el archivo requerido y eventualmente el tamaño del archivo. La principal desventaja, es que esta información resulta insuficiente para estudios de localidad, es decir, no se pueden determinar las preferencias de los usuarios respecto de servicios fuera de la red de estudio, y solo permite caracterizar al usuario respecto de un servidor en particular.. Información proveniente de los registros de solicitudes hechas desde el cliente: A diferencia de la técnica anterior, esta permite hacer estudios de localidad y en realidad es la técnica que permite caracterizar de la mejor forma al cliente. No obstante, esta técnica tiene como principal desventaja, que resulta en experimentos difı́ciles de realizar, pues es necesario disponer de un navegador de Internet que capture la información del lado del usuario. Un navegador con tales caracterı́sticas vulnera la seguridad y la privacidad del cliente, por lo que un experimento basado en este tipo de información requiere permisos y poblaciones especiales.. Información capturada en un enlace de la red de estudio: Este tipo de estudios es el más popular y soluciona las dificultades presentes en los métodos anteriores. Consiste en el uso de un Sniffer, que es un software que permite capturar. 10.

(24) IEMC-I-06-14 tráfico de una red activa. Uno de los más populares es el tcpdump [14] para Linux y windump[24] para windows. La principal desventaja consiste en la dificultad para reconstruir los archivos a partir de la información suministrada, lo que dificulta establecer el tamaño del archivo, su tiempo de transferencia y asociar los archivos que pertenecen a una misma página Web. A continuación se hace una reseña de algunas de las investigaciones que desarrollan modelos de tipo empı́rico o basados en el comportamiento del usuario, se describe el modelo y algunos resultados obtenidos. 1.3.1.. Mah [3]. En esta investigación, se recolectan trazas de la red Ethernet de 10 Mbps de la División de Ciencia de Computadores de la Universidad de California en Berkeley, en los meses de Septiembre a Noviembre de 1995. La finalidad del estudio es la construcción de un modelo que se ajuste a las caracterı́sticas reales de tráfico, para la evaluación de redes por simulación. Cada traza tenı́a una duración de entre 24 y 36 horas y una longitud de entre 186,000 y 676,000 paquetes. Las variables modeladas fueron:. Tamaño de las solicitudes desde el cliente: Una solicitud está definida como un conjunto de paquetes que tienen como caracterı́stica común la dirección de origen, la de destino y el puerto de conexión TCP. Se obtiene que esta variable, exhibe caracterı́sticas bimodales. El tamaño de la solicitud es de entre 10 y 2000 bytes, con una media de 300 bytes.. Tamaño de las respuestas desde el servidor: La metodologı́a es similar a la de las solicitudes y se obtiene que esta variable se puede modelar con una distribución. 11.

(25) IEMC-I-06-14 de cola pesada, como la Pareto con parámetro de escala α de entre 1.04 a 1.16.. Archivos por página Web: Para determinar este parámetro, se usa una aproximación heurı́stica que consiste en asumir que los archivos consecutivos, pertenecen al mismo documento Web. Este tiempo se estima está entre 1 y 30 segundos. Mah elige como regla 1 s, porque es más probable que la página Web se visualice en un tiempo inferior a 1 s. El autor demuestra que el tiempo elegido no es crı́tico y que en promedio se solicitan 3 archivos por documento Web.. Solicitudes primarias y secundarias:. Una solicitud primaria se define como. la primera solicitud que se hace cuando el usuario se conecta a un servidor Web. Esta solicitud generalmente devolverá un archivo HTML. Una solicitud secundaria se define como la o las solicitudes realizadas para visualizar la página Web de manera apropiada a partir de la información entre lı́neas presente en el documento HTML solicitado. En resumen la solicitud del documento primario va entre 20 y 2,400 bytes. En tanto que para una solicitud secundaria, está entre 100 y 1,200 bytes.. Respuestas secundarias y primarias: Se definen como la información proveniente del servidor a partir de la solicitud hecha por el cliente. Estas variables nuevamente exhiben una caracterı́stica de cola pesada y están entre 100 y 8,146,000 bytes (media de 17 kbytes) para el caso de las respuestas a solicitudes primarias y entre 45 y 2,413,000 bytes (media de 7 kbytes) para respuestas a solicitudes secundarias.. Tiempo de inactividad del cliente: Todo tiempo entre conexiones TCP que sea mayor a 1 s. Se tiene un máximo de 80,681 s en dı́as no festivos y una media de. 12.

(26) IEMC-I-06-14 850 s, la cual se ve atenuda por la baja afluencia en dı́as festivos.. Número de descargas consecutivas de un mismo servidor: Este parámetro tiene que ver con estudios de popularidad de servidores y se obtiene que un usuario requiere de manera consecutiva entre 4 a 112 archivos de un servidor web, antes de cambiar de servidor.. Selección del servidor: Este parámetro es útil para determinar la popularidad de un servidor Web y la frecuencia de accesos a un servidor. Se ha modelado por distribuciones de cola pesada como la Ley de Zipf. Del estudio realizado por Mah se obtiene como resultado que los servidores más populares son los locales. La metodologı́a utilizada tiene como desventaja que no tiene información adicional a la dirección IP del servidor, con lo cual no se puede saber si varias IP pertenecen a un mismo servicio o cuando una misma IP ofrece servicios diferentes. El modelo se implementó para usarse en el simulador de redes INSANE [25] y las variables obedecen a los histogramas empı́ricos obtenidos[26]. 1.3.2.. Choi y Limb [2]. El estudio se desarrolló con base en la recolección de tráfico, usando tcpdump, en el backbone del campo de Georgia Tech, de las 11 a.m. a las 12 p.m. en Octubre de 1998. Participan aproximadamente 1,900 clientes que hacen 24,000 solicitudes. Aunque el autor indica que esta información no es representativa, es útil para fines de evaluación de la metodologı́a de caracterización de tráfico para el uso en la planeación y aprovisionamiento de la red, ası́ como la evaluación de protocolos. En la tabla 2, se resumen los parámetros del modelo implementado. Los autores, definen la solicitud Web como un evento iniciado por una acción. 13.

(27) IEMC-I-06-14 PARÁMETRO Tamaño de la solicitud Tamaño del objeto primario Tamaño del objeto secundario Tiempo de análisis en la máquina Número de objetos secundarios Tiempo entre arribos de documentos Tiempo de inactividad Número de solicitudes Web no en caché Número de solicitudes Web en caché. MEDIA 360 bytes 10.7 kbytes 7.7 kbytes 130 ms 5.55 860 ms 39.5 s 12.6 1.7. DISTRIBUCIÓN Log Normal Log Normal Log Normal Gamma Gamma Gamma Weibull Log Normal Geométrica. Tabla 2: Parámetros del modelo propuesto por Choi y Limb humana (clic). Del estudio realizado, se tiene que la mayorı́a de las solicitudes Web corresponden a archivos del tipo HTML. Lo novedoso con respecto de la investigación hecha por Mah, es que se verifica el tipo MIME del archivo, el cual indica que tipo de información va en el paquete, para determinar si es una solicitud primaria o secundaria, es decir si es un archivo con extensión html (solicitud primaria) o un archivo con extensión de imagen o video (solicitud secundaria). Además, de los conceptos introducidos por Mah, Choi y Limb introducen el efecto de los archivos temporales de Internet sobre el tráfico y lo modelan creando dos variables, una para las solicitudes atendidas desde la carpeta de archivos temporales y otra para las solicitudes atendidas directamente desde el servidor. El modelo se valida con base en:. Ancho de banda requerido: Se calcula el número de bytes tramitados en periodos de 100 ms y se obtiene que en promedio es de 4.6 kbytes tanto para las trazas reales como para las trazas generadas.. Pruebas de autosimilaridad: Usando el método R/S para calcular el parámetro de Hurst del proceso se encuentra que es de 0.8 para la traza real y de 0.77 para la 14.

(28) IEMC-I-06-14 traza generada. 1.3.3.. Barford y Crovella [5]. La metodologı́a de recolección de información que usaron, es basada en la obtención de información en el lado usuario, lo cual se logró al instrumentar el navegador Web NCSA Mosaic. Por medio de una modificación en el código fuente, los investigadores logran obtener la URL del archivo solicitado, la hora y fecha de la solicitud. El experimento tuvo lugar en las instalaciones del departamento de Ciencias de Computación de la Universidad de Boston, en 32 estaciones dedicadas a estudiantes de pregrado, y en 5 estaciones dedicadas a estudiantes de postgrado. El experimento recolecta información desde Noviembre de 1994 a Mayo de 1995[10]. En un trabajo posterior[5], y con base en las trazas reseñadas anteriormente, producen un generador de tráfico llamado SURGE (Scalable Referente URL Generator), motivados en la necesidad de experimentar con servidores y redes usando tráfico de alta variabilidad. A continuación se explica la filosofı́a del modelo, el cual se basa en los conceptos de usuarios equivalentes y modelos con variables ajustadas a una función de distribución de probabilidad.. Usuarios equivalentes: Es la caracterı́stica que determina la intensidad de la demanda. Un usuario equivalente es un proceso que alterna entre dos estados, uno solicitando archivos y otro de inactividad. Cada usuario equivalente es una fuente de tráfico ON/OFF[11]. Los tiempos OFF, son despreciados en algunos generadores de tráfico, en los cuales se hacen solicitudes tan rápido como sea posible. No obstante, Bradford y Crovella logran demostrar en su investigación que es este parámetro el que le da la caracterı́stica de autosimilaridad al tráfico y por tanto, no puede ser despreciado. 15.

(29) IEMC-I-06-14 Una de las principales dificultades en el ajuste del modelo tiene que ver con la dificultad de ajustar las variables que exhiben una cola pesada. En la tabla 3 se muestran las variables del modelo adoptado. PARÁMETRO Respuestas a solicitudes primarias Respuestas a solicitudes secundarias Popularidad Localidad temporal Tamaño de las solicitudes Tiempos entre solicitudes embebidas Tiempos entre solicitudes Web Número de referencias embebidas. DISTRIBUCIÓN Log normal Pareto Zipf LogNormal Pareto Weibull Pareto Pareto. Tabla 3: Parámetros del modelo propuesto por Barford y Crovella Para validar el modelo, se hacen pruebas del generador que corre en 6 computadores. El tráfico generado tiene un parámetro de Hurst de 0.75. 1.3.4.. Heegard [9]. Esta investigación produce una aplicación llamada Gensyn, un generador de tráfico basado en un modelo de cadenas de Markov, de tres estados:. Apagado: Es el estado en el que se encuentra una fuente ON/OFF cuando no está solicitando archivos.. Lectura: El usuario lee la página y decide que hará a continuación, para lograr la variabilidad deseada, este estado se modela como 4 posibles estados de lectura, con lo que se logra implementar un comportamiento hiperexponencial del proceso.. Descarga: Una vez que el usuario toma la decisión, abre la conexión a una URL y descarga el documento y los archivos asociados a su visualización. A diferencia de 16.

(30) IEMC-I-06-14 las otras dos variables, esta variable no corresponde a un espacio de estados aleatorio y está gobernada por un espacio de estados de comunicación cuyo funcionamiento depende de los protocolos y caracterı́sticas inherentes a la red y no por la aplicación. La población de usuarios estará en uno de los 6 estados posibles y permanecerá en cada uno de ellos por un tiempo determinado por una ley estocástica. La tasa de transferencia asociada y sugerida por el autor es de 1/1800s−1 y la distribución de probabilidad asociada es una exponencial negativa. El autor no expone con detalle los resultados obtenidos y manifiesta tener dificultades en la implementación, que obedecen a limitaciones del lenguaje de programación, que en este caso es Java. Sugiere que serı́a más apropiado el uso de lenguaje C. 1.3.5.. Deng [4]. En esta investigación se hace uso de dos trazas de 2 horas cada una capturadas en agosto de 1995 en el backbone de los laboratorios de la GTE. En donde se obtuvo que entre el 30 % y el 37 % del tráfico correspondı́a a tráfico Web. El modelo está basado en el concepto de fuentes de tráfico ON/OFF y consiste de 4 parámetros: el tiempo entre solicitudes, la duración del tiempo ON , la duración del tiempo OFF y la distribución del tamaño de los archivos. Las dos primeras variables, se ajustan a una función de distribución Weibull y las demás a una distribuón Pareto. 1.3.6.. Influencia de la autosimilaridad en el desempeño de la red. El hallazgo de autosimilaridad en el tráfico de Internet, ha permitido entender las causas de los cambios abruptos entre la subutilización y la congestión de los enlaces de redes de datos, según lo reseñan Crovella, Lindemann y Reiser [1]. Esto ha contribuido al desarrollo de mecanismos de control de congestión capaces de 17.

(31) IEMC-I-06-14 predecir estados futuros del enlace. Gracias a la comprensión del concepto de larga dependencia y al trabajo de medición de la misma, se pudo determinar que el mayor porcentaje del tráfico cursado obedece a la transferencia de archivos pequeños o de corta vida y que los archivos de gran tamaño o larga vida son poco comunes. Esto ha llevado a determinar que una mejora del desempeño sucede cuando los flujos de corta vida pueden ser transportados por una misma conexión TCP y de esta manera evitar tráfico de inicialización de las conexiones que puede ser redundante. Es este principio el que motivó la implementación de HTTP 1.0. Lo anterior es apenas una pequeña muestra del impacto que puede tener el dominar la caracterı́stica autosimilar del tráfico, pero aún falta explorar en otros campos de aplicación que incidan de manera favorable en el desempeño de las redes.. Respecto a la labor a futuro, se requiere el planteamiento de controles de red escalables, que tengan en cuenta que la red tiene procesos que suceden en escalas de tiempo diferentes, lo que involucra el uso de diversos controles que incluso pueden suceder de manera simultánea basados en sistemas de monitoreo de red que permitan retroalimentar de manera eficiente (en tiempo real) dichos controles. También es necesario lograr optimizar el consumo de recursos y lograr minimizar el número de negaciones del sistema, lo cual se puede lograr con una alta distribución de las fuentes de información y de los servicios de computación lo que evitará la información redundante en Internet. Esta es la filosofı́a de los algoritmos de almacenamiento de archivos temporales, los cuales pueden mejorar en aras de aumentar la calidad del servicio al usuario final.. 18.

(32) IEMC-I-06-14. Capı́tulo II. Caracterización de tráfico HTTP El proceso de caracterización de tráfico, es un proceso, que provee puntos de verificación de los modelos implementados. Además, es la etapa en la que se evalúan las herramientas de análisis empleadas. La etapa de caracterización, permite verificar resultados obtenidos por otros investigadores, y es una actividad que aporta mucho a la investigación, pues a través de este proceso es más fácil familiarizarse con los fenómenos de estudio en la red. Dentro del proceso de caracterización de tráfico, se distinguen tres fases: Medición Reducción Ajuste estadı́stico. Medición: La etapa de medición es muy importante, ya que de ella depende el éxito de los resultados obtenidos. Para la medición, se emplea el programa tcpdump[14], que como se dijo anteriormente es una potente herramienta que permite capturar tráfico desde y hacia la tarjeta de red. La figura 1, muestra el escenario de medición de tráfico real.. 19.

(33) IEMC-I-06-14. Figura 1: Escenario de medición del tráfico producido por un usuario de Internet de la sala de asistentes graduados del Departamento de Ingenierı́a Eléctrica y Electrónica de la Universidad de los Andes.. 20.

(34) IEMC-I-06-14 La finalidad de este experimento, es capturar el tráfico que transmite y recibe un usuario mientras navega en Internet. Para aumentar la precisión de la medida, no se capturan paquetes en la misma tarjeta de red del usuario, esta actividad se realiza en un computador diferente, denominado snnifer, corriendo la aplicación tcpdump, según aconseja Paxon en [17]. Dentro de las subredes, los usuarios, tienen el acceso a Internet a través de elementos de conmutación (Switch), para que a cada tarjeta de red solo llegue el tráfico destinado a ésta y el tráfico de difusión. Con esto, una tarjeta en modo promiscuo, en una red conmutada, no puede ver el tráfico de otras máquinas en la misma subred. Para lograr que la tarjeta de red del snnifer vea el tráfico del cliente en observación, se emplea un concentrador (Hub), que tiene como fin multiplexar el nodo, pero no tiene inteligencia como para filtrar el tráfico de acuerdo a la dirección de destino como lo hace el switch. Para iniciar la medida, se digita en la lı́nea de comandos windump [24] (Windows) o tcpdump [14] (para Linux) según corresponda, a continuación, y para evitar el exceso de información, se puede aplicar además un filtro para no capturar tráfico de difusión, el comando que inicia la captura de tráfico HTTP se muestra a continuación: windump. -i 2 -w captura port 80. Esto provocará que se guarde el tráfico HTTP visto por la interface de red número 2, en un archivo binario llamado captura. Reducción: Esta fase consiste en extraer de entre los 60 y 1500 octetos que hay por cada paquete, la información de interés. Se aprovecha la facilidad de tcpdump que produce un resumen del encabezado de la trama IP, como el que se muestra a. 21.

(35) IEMC-I-06-14 continuación: 16:41:28.070018 IP (tos 0x0, ttl. 64, id 2825, offset 0, flags [DF],. proto: TCP (6), length: 1500) 192.168.0.10.80 > 192.168.0.21.4008: La información de los bytes se decodifica en cadenas de texto de este estilo, de las cuales se puede extraer: El tiempo de llegada a la tarjeta de red, dado en horas, minutos, segundos, milisegundos y microsegundos (timestamp). El tipo de protocolo de transporte El tamaño en bytes del paquete Las direcciones IP de origen y destino Los puertos de origen y destino. La mayor dificultad que reviste el proceso de reducción, consiste en el gran volumen de información que tiene cada captura, lo que puede implicar mucho tiempo de ejecución (horas o incluso dı́as) y un costo computacional elevado, por lo cual es importante elegir un lenguaje de programación adecuado. Una herramienta muy eficiente, en el manejo de cadenas, es el G77[27]. Esta es una distribución binaria, que corresponde a la versión GNU de Fortran y trae numerosas funcionalidades no solo para manejo de cadenas, sino para el cálculo matemático. Los tiempos de procesamiento están alrededor de 3 segundos por cada Megabyte de información. En la figura 2 se ilustra el algoritmo escrito en Fortran que reduce la traza y que además determina la estadı́stica descriptiva de la misma. El algoritmo, permite filtrar la información por tipo de protocolo de trasporte, por el puerto de origen y/o destino 22.

(36) IEMC-I-06-14 y extrae la información necesaria para determinar las estadı́sticas del tiempo entre llegadas y de la cantidad de bytes por unidad de tiempo (con precisión de milisegundos) por último, se puede introducir una serie de datos y hacer la agregación de los datos (suma de los elementos por grupos de igual tamaño, que no tienen elementos comunes). Los detalles del algoritmo (código y manual del usuario), se encuentran en la documentación electrónica que complementa este documento (Ver Anexo B).. Inicio GENERAR EL ARCHIVO DE RESUMEN Extrae timestamps y los convierte a ms Extrae el tamaño, tipo de protocolo de transporte, puerto de origen y destino. Introduzca el nombre del archivo que contiene la serie que va a agregar. Introduzca el número de elementos de la agregación. Se quiere generar el proceso de ms?. Cálculo de las estadísticas de la nueva serie: - Media, varianza, total elementos - Coeficientes de correlación - Parámetro de Hurst, basado en el primer coeficiente de correlación. SI TCP puerto 80 o UDP?. Resumen de cada paquete perteneciente al protocolo elegido: - Tiempo desde el paquete anterior (ms) - Tamaño del paquete (Bytes). Conteo de bytes/ms del protocolo. Figura 2: Diagrama de flujo para la reducción y análisis de información. 23.

(37) IEMC-I-06-14 Ajuste estadı́stico: Es el proceso mediante el cual, se determinan los parámetros de las funciones de distribución que mejor describen las variables involucradas en el modelo. Este procedimiento se lleva a cabo con la versión estudiantil de Mathlab 7. Este programa tiene utilidades para el ajuste automático de series de datos a un amplio rango de funciones de distribución (dfittool ) y para el ajuste manual, pruebas de ajuste como la prueba de Smirnov Kolmogorov (kstest2), que permite comparar dos series y ajustar parámetros aplicando una táctica iterativa. El ajuste inicial, se hace con la herramienta automática y posteriormente se inicia un proceso de prueba y error para el ajuste fino de los parámetros en busca del mı́nimo error (menor al 5 %). Estos métodos funcionan bien, para series que se ajustan a funciones de distribución como la Normal, LogNormal y Exponencial, pero los ı́ndices de error resultan muy altos en el ajuste de funciones Pareto (series con varianzas y/o medias infinitas). Para estos casos, se hace un ajuste por verificación visual. En un gráfico log-log de la CCDF empı́rica de la serie de datos, es fácil determinar la pendiente de la lı́nea que mejor se ajusta a los datos, la cual se puede constatar con una regresión lineal aplicada a la cola de la CCDF empı́rica. Esta metodologı́a, permite determinar los parámetros de forma α (la pendiente de la recta) y el factor de escala k (el punto inicial de la recta), de la distribución Pareto que mejor se ajusta.. 2.1.. Caracterización de un usuario. A continuación, se muestran los resultados más relevantes del análisis aplicado al tráfico que genera un usuario mientras navega en Internet, consulta el correo, chatea, hace consultas y descarga archivos, usando Internet Explorer para Windows XP, la captura tiene una duración de 30 minutos y contiene información de 30000 paquetes de tráfico HTTP. El experimento tiene lugar en las instalaciones del laboratorio de. 24.

(38) IEMC-I-06-14 Eléctrica y Electrónica de la Universidad de los Andes en Enero de 2006 (periodo vacacional). En la tabla 4, se muestran algunas estadı́sticas obtenidas con Ethereal, en este capı́tulo, se hace un análisis detallado de la traza correspondiente a la medida número 4. Medida No. Bits/segundo Paquetes/hora Solicitudes Web/hora Conexiones TCP/hora Solicitudes Web/conexión TCP. 1 26k 20k 892 504 1.7. 2 120k 10k 372 201 1.8. 3 65k 38k 660 828 0.79. 4 118k 67k 354 216 1.6. Tabla 4: Resultados de las medidas de tráfico realizadas a un usuario real de Internet (Enero 2006).. 2.1.1.. Volumen de tráfico. Se define volumen de tráfico a la suma de la longitud en bytes de los paquetes que llegaron a la tarjeta de red en un periodo determinado, que para el caso se fijó en 1 ms. Con la herramienta de agregación, se pueden generar diversos conjuntos de series para escalas de 1, 10, 100 y 1000 ms. Para hacer una verificación formal de la caracterı́stica autosimilar del volumen generado por un usuario de Internet, se aplican las pruebas de autosimilaridad descritas en el capı́tulo anterior. En la figura 3, se muestran los resultados de las pruebas gráficas de los métodos R/S y de varianzas agregadas. El tercer método estudiado en este documento (Ver apéndice A) es el método por aproximación a un Ruido Fraccional Gaussiano (FGN). Para esto, se construye la gráfica de la función de correlación del volumen de datos de un usuario real y se busca el parámetro de Hurst del Ruido Fraccional Gaussiano que mejor se ajusta a los datos medidos. Los resultados se ilustran en la figura 4. Nótese que es claro que. 25.

(39) IEMC-I-06-14. Figura 3: Parámetro de Hurst obtenido por: (a) Método de la varianza (b) Método R/S, aplicados al volumen de tráfico producido por un usuario de Internet real. un Ruido Fraccional Gaussiano con H = 0.95 tiene una función de correlación que se ajusta bastante bien al tamaño en bytes por segundo que se tramitan mientras un usuario navega en Internet, esto permite concluir que la serie es autosimilar y presenta una dependencia a largo plazo (la función de correlación decae lentamente a cero). En la tabla 5, se muestra la varianza y la media de cada serie agrupada y se resumen los resultados obtenidos por los distintos métodos para diversos niveles de agregación (número de elementos de cada grupo de 1, 10, 100, 1000). De tales resultados, se observa que el proceso tiene un grado de autosimilaridad (H > 0,5) para todas las agrupaciones y que tal caracterı́stica se acentúa cuando el nivel de agrupación es mayor (H crece), además, se verifica la presencia de una dependencia a largo plazo, pues se observa una varianza que aumenta con mayor rapidez que el tamaño de la agrupación. 26.

(40) IEMC-I-06-14. Correlación del proceso de agregación 1s: r(k). 1 Coeficientes de correlación del throughput (bytes/seg) Exponencial = 0.7exp(-0.01x) Correlación para un proceso FGN, con H=0.95 Correlación para un proceso FGN, con H=0.925 Correlación para un proceso FGN, con H=0.9. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 0. 100. 200. 300 k. 400. 500. 600. Figura 4: Coeficientes de correlación para el volumen de tráfico producido por un usuario de Internet real. De lo anterior, se observa como el proceso de agregación hace que la traza obtenida aumente su caracterı́stica autosimilar. Las series con niveles de agregación mayores, además, presentan una función de correlación de caı́da lenta por lo cual se puede decir que la variable tiene dependencia a largo plazo. 2.1.2.. Tiempo entre llegadas de paquetes. La herramienta de reducción descrita anteriormente, permite construir una serie de datos que contienen la diferencia en milisegundos entre paquetes que llegan de manera consecutiva a la tarjeta de red del medidor (sniffer ). Para el estudio que se muestra a continuación, se eligen únicamente los paquetes TCP con puerto de origen y/o destino 80 (paquetes HTTP).. 27.

(41) IEMC-I-06-14 Agregación ms 1 10 100 1000. Varianza [bytes2 ] 11129 526350 12086000 957160000. Media [bytes] 29 158 1400 14500. R/S H 0.78 0.84 0.92 0.94. Var-Agreg H 0.59 0.64 0.76 0.97. FGN H 0.86 0.83 0.94 0.91. Tabla 5: Resumen de las estadı́sticas para el volumen de tráfico generado por de un usuario de Internet real. Se aplican las pruebas para el cálculo del parámetro de Hurst, de la serie tiempos entre paquetes y se obtienen los resultados mostrados en la tabla 6. De la tabla, se puede apreciar, que para la variable tiempo entre paquetes, no se aplica una agregación por tiempo, sino por elementos de la serie. Al hacer esto, en la agregación de 1000, se cuenta con una serie de apenas 30 datos, la cual tiene muy pocos elementos como par aplicar los métodos R/S y el de varianzas agregadas, por tanto el cálculo queda indeterminado (Ind.) Agregación paquetes 1 10 100 1000. Varianza [ms2 ] 218914 3200841 80507072 4e+9. Media [ms] 107 588 5366 51000. R/S H 0.75 0.78 0.89 Ind.. Var-Agreg H 0.74 0.79 0.67 Ind.. FGN H 0.8 0.8 0.83 0.72. Tabla 6: Resumen de las estadı́sticas para el tiempo entre paquetes del tráfico de un usuario de Internet. De los resultados de la tabla 6, se puede deducir que el proceso de tiempos entre llegadas es una variable con una tendencia autosimilar (H > 0,5). A continuación, se validará el método del análsis por medio del ajuste de la serie a una función de distribución Pareto como se sugiere en [6]. Para esto, se emplea la herramienta dfittool de Mathlab, pero se llega a la conclusión, que los parámetros ajustados tienen un margen de error amplio y que no son ajustables a una distribución exponencial. 28.

(42) IEMC-I-06-14. CCDF -Prob(Tiempo >X). 1. 0.13. 0.01. 2e-3. 3e-4. 0. 1ms. Agregación de 1 Agregación de 10 Agregación de 100 Agregación de 1000 Pareto(1.4,20) Pareto(1.4,200) Pareto(1.4,2000) Pareto(1.4,20000). 50ms 3s Tiempo entre paquetes. 27min. Figura 5: Prueba log-log de la CCDF para varios niveles de agregación del tiempo entre llegadas de paquetes http del tráfico generado por un usuario de Internet real. Por tanto, es necesario hacer una prueba de ajuste diferente, para esto, se emplea la metodologı́a descrita en [28], a partir de la obtención de la función de distribución acumulada complementaria (CCDF) como se muestra en la figura 5. Por un ajuste visual, se determina la pendiente que mejor se ajusta a los datos, obteniéndose que los mismos se ajustan a una función Pareto con parámetro α=1.4. A pesar de que los resultados obtenidos, coinciden con los reportados [28][6] por cuanto se verifica que la variable tiempo entre paquetes se ajusta mejor a una distribución Pareto de varianza infinita (α < 2) que a una exponencial, la estadı́stica descriptiva de la serie (ver tabla 6) indica que la varianza no deja ver una clara tendencia a ser infinita. Ante esto, debe considerarse que ni este estudio, ni los. 29.

(43) IEMC-I-06-14 estudios de referencia se pueden catalogar como representativos, pues la duración de las trazas no es lo suficientemente larga y por tanto puede acotar los resultados posibles del proceso.. 2.2.. Caracterización de la red Uniandes. El tráfico capturado por una red con tantos usuarios como la red Uniandes, no es fácil de recolectar. La DTI (Dirección de Tecnologı́as e Información), facilitó un archivo de 60 minutos de tráfico capturado con tcpdump en el backbone de la Universidad de los Andes, la captura sucedió en el mes de Mayo de 2004 (época de parciales finales). El archivo de 1.2 Gbytes, contiene 12’227679 paquetes, de los cuales, 6’602.638 corresponden a tráfico HTTP, lo que equivale a que el tráfico de Internet durante el intervalo capturado, corresponde aproximadamente, al 54 % del tráfico total. 2.2.1.. Volumen de tráfico. A continuación, se muestra el análisis del comportamiento de el volumen de tráfico de la red Uniandes para los primeros 15 minutos de la captura. Para tal fin, se procesan los primeros 3 millones de paquetes y se obtiene el volumen en bytes procesado cada milisegundo, con esta información, se puede deterrminar que el consumo de ancho de banda en el momento de la medición es de 1.8Mbytes por segundo, esto es, 14.5 Mbps. En la figura 6, se busca ilustrar el fenómeno de autosimilaridad presente en el tráfico capturado. En primer lugar se hace una vista a gran escala del fenómeno, se observan 15 minutos de tráfico (900 segundos), luego, se elige una porción de esta vista y se magnifica, para observar 100 segundos (parte b) y de estos se visualizan en la parte c de la figura 10 segundos. Como resultado, se obtienen 3 gráficas que realmente lucen muy similares, a tal punto que de no ser por 30.

(44) IEMC-I-06-14. Figura 6: Volumen de tráfico para la red Uniandes (Mayo de 2004). (a) 15 minutos de tráfico, vistos con una precisión de 1s. (b) 100 segundos de tráfico vistos con una precisión de 0.1s (c) 10 segundos de tráfico vistos con una precisión de 0.01s.. 31.

(45) IEMC-I-06-14 los ejes no se podrı́a advertir el efecto de la magnificación, lo que coincide con las mediciones hechas en redes LAN por Willinger [11]. La autosimilaridad se verifica por medio del cálculo del parámetro de Hurst aplicado a la serie para diferentes niveles de agregación, los resultados se consignan en la tabla 7. Obsérvese que a medida que aumenta la agregación, aumenta el parámetro de Hurst, que para todos los casos es superior a 0.5 y por tanto implica autosimilaridad. Agregación ms 1 10 100 1000. Varianza [bytes2 ] 1.4e+6 27.3e+6 532.3e+6 14e+9. Media [kbytes] 11 130 1000 10000. R/S H 0.72 0.73 0.77 0.82. Var-Agreg H 0.67 0.72 0.76 0.80. FGN H 0.82 0.85 0.80 0.87. Tabla 7: Resumen de las estadı́sticas para el volumen de tráfico de la red Uniandes (Mayo de 2004).. 2.2.2.. Tiempo entre paquetes. Aplicando la metodologı́a descrita anteriormente, se tiene que el tráfico agregado de numerosos usuarios exhibe caracterı́sticas distintas al mostrado en el caso de un único usuario. En este caso, casi el 99 % de los paquetes del tráfico llegan al snnifer a intervalos exponencialmente distribuidos. No obstante, la presencia de tiempos largos en la traza hace que aparezca una cola pesada (el 1 % restante), que se ajusta muy bien a una distribución Pareto, de varianza y media finitas. La principal razón de este resultado, puede estar asociada a la corta duración de la captura, lo cual puede acotar significativamente los tiempos entre paquetes. Obtener muestras de mayor duración tiene como principal inconveniente que se pueden generar grandes volúmenes de información, de 12 millones de datos por cada hora de tráfico, esto quiere decir que para poder analizar un dı́a de tráfico se tendrı́an 288 millones de. 32.

(46) IEMC-I-06-14 datos, lo cual demanda un gasto computacional importante. Para la reducción de la traza de 1 hora, por ejemplo, se requirió de un computador con Windows XP de 2 GHz y 256 Mbytes en RAM haciendo el proceso durante 4 horas.. 2.3.. Tráfico de fondo. Los análisis previos se han dedicado a la caracterización del tráfico HTTP. El resto de tráfico (46 %), es la suma de otros flujos TCP y los flujos UDP, a los cuales se les denominará tráfico de fondo. En busca de escenarios de medición lo mas reales posibles, un desarrollador de herramientas para medición de desempeño, requiere la presencia de tales flujos que además de imprimir el realismo, permitirán introducir circunstacias de tráfico diversas (estados de alta y baja carga, comunicaciones no orientas a conexión, etc.). A continuación se plantea una estrategia para la producción sintética de tráfico de fondo en una red real, para esto, se utiliza el modelo simplificado que usan diversos generadores de tráfico, que consiste en establecer una función de distribución para el tamaño de los paquetes y el tiempo entre llegadas de los paquetes que se van a emitir. Para poner este flujo en la red, se utiliza un program de libre distribución llamado D-ITG[23]. El generador requiere que el usuario indique el tipo de distribución deseada (dentro de las posibles distribuciones: exponencial, gamma, pareto, normal) y los parámetros de la distribución. Luego del ajuste de la serie de datos del tráfico capturado, se logra determinar que la mejor opción para tiempo entre paquetes es una exponencial con una media de 0.5 ms y para el tamaño de los paquetes, se elige una función Gamma con una media de 104 bytes (ver figura 7).. Para el tiempo entre paquetes, se obtiene un error del orden de 4e−5 para una. 33.

(47) IEMC-I-06-14. Traza Generada Tráfico de fondo Unidades Función Exp(2000). Traza Generada Tráfico de fondo Unidades Función Gamma(0.8,130). milisegundos. bytes. Figura 7: Ajuste de las variables, tiempo entre paquetes (a) y tamaño del paquete (b) para el tráfico que no es HTTP, presente en la traza capturada de la red Uniandes (Mayo de 2004). 34.

(48) IEMC-I-06-14 prueba de Smirnov Kolmogorov con un intervalo de confianza del 5 %. En tanto, que el ajuste para el tamaño del paquete es bueno solo para el 70 % de los datos. La dificultad de lograr un ajuste mejor se atribuye a que los paquetes de tamaño superior a 500 bytes son en su mayorı́a de 1500 bytes, lo cual no se puede modelar con una función continua. El modelo ajustado, se pone a prueba en una red real y permite verificar que el. Traza real Función teórica Traza generada. Tiempo entre paquetes Media Varianza [ms] [ms2 ] 0.5184 1.899 0.5043 0.254 0.5408 0.517. Tamaño del paquete Media Varianza [bytes] [bytes2 ] 335 2.4e+5 104 1.35e+4 133 1.31e+4. Tabla 8: Cuadro comparativo de las estadı́sticas del tráfico de fondo real y el sintético generador de tráfico tiene un buen comportamiento respecto del tiempo entre paquetes. Para la variable tamaño del paquete el tráfico generado sigue muy bien el modelo propuesto, pero, como se esperaba, resulta un modelamiento que no reproduce con alta fidelidad los datos reales (ver tabla 8). Para esto se podrı́a emplear una estrategia con dos flujos, uno para los paquetes de menos de 500 bytes y otro para paquetes de 1500 bytes.. 35.

(49) IEMC-I-06-14. Capı́tulo III. Implementación de una fuente de tráfico HTTP 3.1.. Herramientas de Software para construir aplicaciones de red. La librerı́a Winpcap [24] : Es la versión para Windows de la reconocida API de Unix libpcap[14] y es la herramienta estándar de la industria para el acceso a la capa de enlace de la red. Esta librerı́a, permite construir aplicaciones para capturar y transmitir paquetes en la red omitiendo la pila de protocolos, y como utilidades adicionales, incluye la posibilidad de hacer filtrado de paquetes, herramientas estadı́sticas y soporte para captura de remota de paquetes. Gracias a sus caracterı́sticas, winpcap es la maquinarı́a de captura y filtrado de muchas de las herramientas para la red, libres y comerciales, incluyendo analizadores de protocolo, monitores de red, sistemas de detección de intrusión, sniffers, generadores de tráfico y medidores de red. Algunas de esas herramientas son Ethereal[29], Nmap, Snort, Ntop ampliamente reconocidas y utilizadas dentro de los estudiosos de las redes de comunicaciones, las cuales pueden ser encontradas en la página de herramienta para medición de CAIDA[15]. Para comenzar a trabajar con winpcap, basta con instalar la librerı́a y descargar los archivos de desarrollo, en los que se encuentran ejemplos para la generación y. 36.

(50) IEMC-I-06-14 captura de paquetes, se sugiere emplear la versión 3.0, la cual no presenta conflictos con winsock de Windows XP. Para la generación de paquetes usando este software, es necesario tener un conocimiento previo de la estructura de los datagramas para construir el encabezado necesario para que los paquetes lleguen al destino propuesto, ya que, como se dijo anteriormente el programador se salta las capas de nivel superior al de enlace.. La librerı́a Wininet [30]:El API Wininet permite enviar y recibir archivos, usando los protocolos: HTTP, FTP y Gopher, desde un servidor remoto o desde la carpeta de archivos temporales de Internet, de manera fácil, por medio de un conjunto de funciones que crean una sesión en el nivel de aplicación. La principal ventaja de WinInet es que no hay que conocer la sintaxis del protocolo a utilizar, ni establecer una comunicación con los puertos (sockets) de Windows. Las funciones tienen nombres muy descriptivos como: CInternetSession, HttpRequest, SendRequest, etc., lo que facilita familiarizarse rápidamente con el API.. 3.2.. Algoritmo para construir un usuario equivalente (UE). Un usuario equivalente es un proceso que puede ser modelado por una fuente ON/OFF [11][4]. Durante el estado ON, el usuario solicita archivos al servidor, durante el estado OFF, el usuario procesa la información adquirida, la lee o simplemente se desconecta de la red. Los tiempos OFF, son despreciados en algunos generadores de tráfico, en los cuales se hacen solicitudes tan rápido como sea posible. No obstante, Bestavros y Crovella[7], logran demostrar en su investigación que es este parámetro el que le da la caracterı́stica de autosimilaridad al tráfico y por tanto, no puede ser despreciado.. 37.

(51) IEMC-I-06-14 En general, un usuario equivalente, fusiona la acción humana y la acción del navegador de Internet. La acción de solicitar un enlace la simula haciendo la solicitud de un objeto principal (documento HTML), la acción del navegador la simula solicitando uno o varios archivos al servidor (objetos secundarios), que corresponden a los archivos necesarios para la correcta visualización de la página solicitada. A continuación se describe la construcción de una fuente Usuario Equivalente (UE), basada en los modelos reseñados en el capı́tulo 1. Los parámetros del modelo implementado son:. Tiempo ON: Es el tiempo durante el cual se hacen solicitudes de una o más páginas web al servidor.. Tiempo OFF: El tiempo durante el cual el usuario deja de solicitar archivos del servidor, ya sea porque está procesando la información obtenida o porque abandona la sala.. Tiempo IR: Es el tiempo entre solicitudes de archivos al servidor.. Tamaño Obj: Es el tamaño en bytes de los archivos requeridos luego de la lectura del archivo HTML por parte del navegador para la correcta visualización de una página Web.. Tamaño Ppal: Es el tamaño del objeto HTML solicitado al servidor, cuando el usuario hace clic.. Número Obj: Es el número de objetos que pueden ser solicitados por cada página Web. 38.

(52) IEMC-I-06-14 Cada una de estas variables es representada por una función de distribución, en la tabla 9, se muestra un cuadro que indica los parámetros de las funciones de distribución que mejor las representan y se referencia el autor del cual se toma el ajuste. La razón de utilizar los parámetros de los modelos de Mah, Deng, Crovella y Choi y no calcularlos con base en las trazas descritas en el capı́tulo 2, obedece a que son reportes basados en trazas que involucraron el estudio realizado a un número considerable de individuos y por tanto, se puede decir son representativas. Variable Tiempo ON Tiempo OFF Tiempo IR Tamaño Obj Tamaño Ppal Número Obj. CDF Weibull(81.4,0.9) Pareto( 0.99,60) Weibull(1.46,0.38) LogNormal(1,4) LogNormal(1.8,1) Gamma(0.6,1349). Media 84 s ∞ 5.5 s 8 kbyte 12 kbyte 5.55. Varianza 9000 s2 ∞ 3530 s2 8x1012 bytes2 430bytes2 130. Autor Deng[4] Deng[4] Crovella[5] Choi[2] Choi[2] Choi[2]. Tabla 9: Relación de las variables que hacen parte de un modelo para producir tráfico representativo, basado en el comportamiento de un usuario de Internet. Se incluye la información de la distribución empleada, media, varianza y autor de referencia. El algoritmo que implementa el modelo, se ilustra en el diagrama de flujo de la figura 8. El algoritmo inicia con el cálculo de los números aleatorios con la distribución de probabilidad deseada para cada variable del modelo. Posteriormente, se hace la solicitud del archivo HTML de tamaño Tamaño PPal, que es el código fuente de una página Web. Con base en la variable Num Obj, se determinan cuantos archivos se solicitarán a continuación, antes de que la fuente de tráfico ingrese a un estado de inactividad (Tiempo OFF), estos archivos de tamaño Tamaño Obj se solicitan a intervalos diferentes entre solicitudes determinados por el arreglo Tiempo IR[Num Obj], una vez todos los archivos son solicitados, se verifica que el Tiempo ON,que se contabiliza desde la primera solicitud (documento HTML),se haya vencido. Si este tiempo no ha vencido, se solicita una nueva página Web y sus 39.