--U! tiç:!.ir jp
rv••-•'
etisado d
Vr
4f
J
VoÓ
/(
aot
d
/---I.J
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
ESCUELA DE CIENCIAS DE LA COMPUTACIÓN
"Construcción de una herramienta para predecir el
comportamiento del tráfico generado por las aplicaciones
de Internet más utilizadas en la red LAN de la Universidad
Técnica Particular de Loja."
Tesis previa a la obtención del título de Ingeniería en Sistemas Informáticos y Computación
AUTORAS
Ruth María Reátegul Rojas
Priscila Marisela Valdiviezo Díaz
DIRECTOR
Ing. Rommel Torres
res
SIS
Ingeniero
Rommel Torres
DIRECTOR DE TESIS
CERTIFICA
Que el presente trabajo de investigación
"Construcción de una herramienta para predecir el
co7rportamiento del tráfico generado por las aplicaciones de Internet mas utilizadas en la red LAN de la
Universidad Técnica Particular de Lgia"
ha sido minuciosamente revisado, por lo que queda
autorizada su presentación.
AUTORÍA
LOS CONCEPTOS, INTERPRETACIONES E IDEAS VERTIDAS EN EL
PRESENTE INFORME SON PLASMADOS BAJO RESPONSABILIDAD
EXCLUSIVA DE SUS AUTORAS.
Las Autoras:
DEDICATORIA
Dedico este trabajo a Dios quien al
darme la vida también me dio lo
necesario para poder seguirlo; a mi
familia que siempre me apoya y alienta.
Ruth Reátegui
Esta tesis está dedicada a Dios por
ser mi guía y compañero, a mi
madre y hermano por su apoyo y
motivación para seguir adelante, a
mis tíos que de alguna manera
contribuyeron para mi formación, y
a mi padre que desde el cielo ha
estado siempre presente en mi vida.
AGRADECIMIENTO
Expresamos nuestro agradecimiento a la Universidad Técnica Particular de Loja y a la
Escuela de Ciencias de la Computación por habernos formado como profesionales.
Al Ingeniero Juan Carlos Torres de la Modalidad Virtual y al Grupo de telecomunicaciones
de la Unidad de Proyectos y Sistemas Informáticos - UPSI, por habernos apoyado con los recursos tecnológicos para el desarrollo de este proyecto.
Al Economista Luís Moncada y al Matemático Pablo Ramón por su asesoría prestada
durante el desarrollo del proyecto.
Al Ingeniero Rommel Torres por haber dirigido de forma adecuada este proyecto.
LAS AUTORAS
CESIÓN DE DERECHOS
Nosotras, Ruth María Reátegui Rojas y Priscila Marisela Valdiviezo Díaz declaramos
conocer y aceptar la disposición del Art. 67 del Estatuto Orgánico de la Universidad
Técnica Particular de Loja que en su parte pertinente textualmente dice: "Forman parte del
patrimonio de la Universidad la propiedad intelectual de investigaciones, trabajos científicos
o técnicos y tesis de grado que se realicen a través, o con el apoyo financiero, académico o
institucional (operativo de la Universidad)".
• •...
•••í•..••
Ruth M. Reátegui R.
Priscila M. Valdiviezo D.
CONTENIDOS
INTRODUCCIÓN
1. ANÁLISIS PRELIMINAR DE LA RED LAN DE LA UTPL
1.1 Revisión de la tecnología y topología de la red
1.2 Estado lógico de la red
1.3 Descripción de los protocolos
2. DETERMINACIÓN DE LA HERRAMIENTA DE MONITOREO
2.1 Estudio de la herramienta de monitoreo
2.2 Selección de la herramienta
2.3 Configuración de equipos para el monitoreo de la red
2.3.1 Instalación del NTOP
2.3.2 Creación de la base de datos NTOP
3. MONITOREO DE LA RED DE LA UTPL
3.1 Captura de datos
3.2 Análisis de los datos
3.2.1 Análisis de los protocolos de Internet en tiempos pico
3.2.2 Análisis del tráfico HYfP
laborables
3.2.3 Análisis del tráfico total
3.3 Validación de los datos capturados
y NBIOS- IP en jornadas b bles y no /
/ . ,
( -)
4. CARACTERÍSTICAS DEL TRÁFICO DE INTERNET
4. 1 Comportamiento del tráfico de la Red LAN
4.2 Análisis de la función de autocorrelación
4.3 Análisis del parámetro de Hurst
5. ESTUDIO DE MODELOS DE TRÁFICO
3.1 Modelos de trafico
5.1. 1 Modelos incorrelados
3.1.2 Modelos de dependencias a corto plazo
5.1.3 Modelos de dependencias a largo plazo (LRD)
6. IDENTIFICACIÓN DEL MODELO
6.1 Determinación de la estacionariedad de la serie
6.2 Detectar la dependencia lineal de la serie
6.3 Identificación del orden autorregrcsivo (p) y de medias móviles (
7. ESTIMACIÓN Y PRONÓSTICO
7.1 Determinación del modelo ARFIMA(p,d,q
7.2 Estimación de coeficientes
7.3 Validación del modelo
7.3.1. Estadísticos de validez
7.3.2 Interpretación de resultados
7.4 Pronóstico
8. CONSTRUCCIÓN DE LA HERRAMIENTA DE PRONÓSTICO
8.1.1 Análisis de los lenguajes de programación
8.1.2 Selección del lenguaje
8.2 Herramienta de pronóstico de tráfico IP
8.2.1 Descripción de la herramienta
8.2.2 Análisis de requerimientos
8.2.2.1 Casos de uso de la herramienta
8.2.2.2 Descripción de los casos de uso
8.2.2.3 Diagramas USE CASE
8.2.3 Plataforma y herramientas de desarrollo
8.2.4 Diseño de la interfaz
8.3 Base de datos de la herramienta
8.3.1 Descripción de las tablas de la base de datos MODELO
8.4. Implementación de la herramienta
8.5 Validación de la herramienta
CONCLUSIONES Y RECOMENDACIONES
GLOSARIO
BIBLIOGRAFÍA
INTRODUCCIÓN
A medida que las redes de computadoras y los servicios de telecomunicaciones como el
Internet crecen, ha surgido en las organizaciones la necesidad de estar en permanente
conocimiento de las condiciones en las que esta trabajando la red, así como el desempeño
de cada una de las aplicaciones que la conforman.
Un amplio conocimiento del tráfico de red que es transmitido implica: caracterizar,
modelar e incluso predecir con precisión el comportamiento de éste. Por tal motivo el
presente proyecto describe los modelos matemáticos que hoy en día son los más utilizados
para el tráfico de Internet, prestando mayor atención a los modelos con memoria larga,
ARMA fraccionalmente integrados (ARFIMA), describiendo los principales métodos de
estimación y los contrastes de validación para la aceptación del modelo.
El propósito de la investigación es conocer el futuro crecimiento del tráfico de Internet en
la red del campus San Cayetano de la UTPL, en base a datos capturados mediante un
software de monitoreo, de ahí que la utilización de esta herramienta va dirigida
especialmente a los administradores de la red para la toma de decisiones en cuanto al
crecimiento de tráfico de las aplicaéiones de Internet, así como determinar si es necesario o
no contar con la implementación de un mayor ancho de banda.
Se contemplan entonces para la ejecución del proyecto los siguientes capítulos:
Análisis preliminar de la red de la UTPL,
en la cual se hará una revisión del estadofísico y lógico de la red.
Determinación de la herramienta de monitoreo,
en este capítulo se hará una revisiónde algunas herramientas de monitoreo, y la selección de una de ellas para el monitoreo de la
Monitoreo de la red,
capítulo en el cual se analizará el comportamiento de la red de laUTPL, centrándonos específicamente en el tráfico de Internet.
Características del tráfico de Internet,
se analizará las series agregadas y el parámetro deHurst, para determinar las características que presenta el tráfico IP.
Estudio de modelos de tráfico,
se realizará un estudio de los diferentes modelos quepueden ser aplicables al tráfico Internet.
Identificación del modelo,
se establecerá cuál es el modelo que mejor se ajusta al tráficode Internet, determinando: la estacionariedad a través de los coeficientes de auto co rrelació n
simple y parcial; y la dependencia lineal mediante el parámetro d.
Estimación y Pronóstico,
se determinarán los coeficientes del modelo identificado, losestadísticos de validación y el pronóstico.
construcción de la Herramienta de Pronóstico,
se detallará los pasos necesarios parala elaboración de la herramienta a partir de la metodología de desarrollo de software
orientado a objetos UML.
(7/a
•T.
CAPITULO 1
CAPÍTULO 1. ANÁLISIS PRELIMINAR DE LA RED LAN DE LA UTPL
1.1 REVISIÓN DE LA TECNOLOGÍA Y TOPOLOGÍA DE LA RED
La red física implementada actualmente en la UTPL esta formada por un eje principal o
backbone de Gigabit Ethernet, lo cual permite contar con una velocidad de 1 Gbps, esto
significa un buen ancho de banda para las aplicaciones utilizadas en la red LAN.
:\ este eje principal están interconectados con fibra óptica cinco edificios. Modalidad
Abierta, Administración Central, Octógono, Laboratorios II y Bellas Artes, con topología física en estrella, contando con una comunicación y transmisión de información punto a punto, esto permite que exista una interdependencia entre cada uno de los edificios. El
esquema de interconexión es el siguiente:
Centro de Transferencia de
Tecnología
0
(Modalidad 7Administración
í4"
Octógonoit
Laboratorios Bellas ArtesAbierta Central II
Fig. 1.1 Esquema de interconexión de la red del campus San Cayetano de la UTPL
H nodo principal está ubicado en el edificio denominado Centro de Tranferencia de
Tecnología, en el grupo de Telecomunicaciones de la LTPSI, donde se encuentra el Switch
Principal al cual se conectan los equipos secundarios de cada edificio, y a estos se conectan los equipos para los usuarios finales.
1.2 ESTADO LÓGICO DE LA RED
La red de la UTPL se encuentra segmentada a través de redes LAN virtuales (vlan) que
permiten la interconexión de diferentes LANs separadas físicamente pero que funcionan
como una sola red de área local.
La Red LAN de la Universidad hace uso de los protocolos TCP/IP que permite la
conexión de todas las computadoras a Internet.
La arquitectura del TCP/IP consta de cuatro niveles o capas, éstas son:
ApIicacIi
Tirix»t
Red
Enlace
SMTP, Telnet, FTP, GopheL.
- TCP U D P
• IMP
[image:15.585.117.539.190.475.2]-VUng, FDDI1X.25, Wireles Async, ATM I SNA.. Ethernet, Ta*en
Fig'. 1.2 Protocolos por capas del modelo TCP/IP
Cada capa cumple una función específica y en ellas se agrupan diversos protocolos como
los mostrados en la figura anterior.
Para determinar los protocolos IP que se utilizan en la red de la UTPL fue necesario
realizar un monitoreo preliminar del tráfico que circula por esta nueva red, el monitoreo se realizo a nivel de servidores utilizando el software NetXRay instalado en un servidor
NT de la Universidad. Los servidores y equipos que se monitorearon son:
Servidor NT. Para aplicaciones cliente servidor.
Servidor de Páginas WEB. Permite generar y trasmitir información en formato texto,
Servidor de Correo. Permite el intercambio de mensajes de usuarios entre servidores de
correo basados en Internet.
Servidor Proxy. Permite ocultar una red privada de Internet.
Servidor Dial-Up. Permite que un equipo remoto se conecte a este mediante línea
tcicfónica usando un MODFM.
Ruteador. Para la conexión con redes externas.
Durante el 8 al 19 de abril del 2002 se monitoreó el tráfico TCP/iP de los servidores de la
red LAN de la UTPJ, en el horario de 15:40 a 16:40 para obtener una muestra de los
protocolos IP que se utilizan en la red. El siguiente cuadro indica el tráfico generado por
los protocolos de Internet correspondiente al día martes 16 de abril del 2002 en el que se
obtuvo la mayor carga de dau s.
13001P 69
DNS 709072 4020
FTP 8135811 103741
Gopher 47224 36
ittp 48920243 97939
HTTPS 30738 23
ICMP 1358580 17413
IMAP 44990 33
JRC 31202 23/
LPD 34364 26
NctBios 279860 103
NFS 93668 102
FNP 73494 53
Others 734074033 53309))
1,00 15738808 25854
S\ITP 151253799 173952
SNMP 47562 35
telnet 254953 2638
11FF 40098 31
windows 39382 29
Total 9613042711 96014
u4 p4
'
[image:16.584.212.544.397.712.2]L:H )
Tabla 1.1 Tráfico Internet del martes 16 de abril del 2002
CANTIDAD DE PAQUETES POR PROTOCOLO 600000
500000
400000 --
--. 300000 c.)
200000 100000
- rl n
o
rl (j)
rl
rl
(1)11 (1 00 co(J) O (O CL —E- z
rl
• u- Z - O0
U-0 O - -J ri Z E- Z j
0 z O
[image:17.584.122.527.100.336.2]Protocol
Fig. 1.3 Protocolos IP más utilizados en la red
Los datos presentados en esta tabla permiten determinar que los protocolos de Internet
más utilizados a nivel de aplicación por la red LAN de la LTTPL son los siguientes:
.- SMTP
- HTTP
'-POP
- FTP
'- OTHERS
Estos protocolos son los que serán considerados para la etapa de monitoreo y análisis del
tráfico de Internet, puesto que como se observa el resto de protocolos utilizados para
Internet generan una carga insignificante comparada con los protocolos mencionados
1.3 DESCRIPCIÓN DE LOS PROTOCOLOS
A continuación se da una breve descripción de los diferentes protocolos nombrados
anteriormente:
SMTP (Simple Mail Transfer Protocol). El correo electrónico usa el protocolo SMTP
para definir ci Formato de los mensajes y su manipulación para su entrega. SMTP es independiente del subsistema de transmisión y requiere sólo un fiable y ordenado canal de datos.
HTTP (HyperText Transfer Protocol). Es un conjunto de reglas usado para manejar la
transferencia de páginas de hipertexto en el W\X/W, está basado en el principio
cliente/ servidor. Hipertexto es texto que esta codificado usando un sistema standard
llamado: TIypertext Markup Language (HTN'ft), usado para crear links, que pueden ser
textos o gráficos.
POP3 (Post Office Protocol). El protocolo de oficina de correos es otro de los
protocolos que se utilizan para el correo electrónico, permite a un host cliente tomar el
correo que para él el servidor tiene almacenado.
FTP (File Transfer Protocol). El protocolo de transferencia de archivos permite, a
través de la red, copiar ficheros de una computadora a otra sin importar donde están
localizadas, como estén conectadas o si usan o no el mismo sistema operativo.
OTHERS. Agrupación de varios protocolos que no se detallan en la figura 1.3.
CAPÍTULO II
DETERMINACIÓN DE LA
CAPÍTULO II. DETERMINACIÓN DE LA HERRAMIENTA DE
MONITOREO
2.1 ESTUDIO DE LA HERRAMIENTA DE MONITOREO
Para el monitoreo de la red se han investigado algunas herramientas que permitan observar
como es el comportamiento de la red de la Universidad y que a su vez proporcionen los
datos necesarios para realizar el modelo del tráfico de la red.
Se buscó herramientas que trabajen bajo la plataforma linux ya que la mayoría de los
servidores y equipos con los que cuenta el grupo de Telecomunicaciones trabajan bajo este sistema operativo, además para la selección del software se consideró que la licencia y el
código sean gratuitos.
El análisis de las herramientas estudiadas es el siguiente:
a) NETXRAY
NetXRay es una herramienta que da información en tiempo real del uso de la red
basándose en los protocolos de la capa de red, corre bajo el sistema operativo Windows
NT y provee una amigable interface.
Los protocolos que se puede monitorear son IPX/SPX, TCP/IP, NetBIOS, AppleTalk,
DECnet, LAT, OSI, SNA, Banyan/Vines, Apolo y XNS. Los protocolos no listados se agrupan bajo el nombre de Otfiers. Dentro de los protocolos TCP/IP que se monitorea
están NFS, FTP, Telnet, SMTP, HYFP SNMP, X-Window, IMAP, IRC, LPD y NetBIOS.
Las opciones más importantes y con las que se trabajo son las siguientes:
Host Table: Da información estadística en tiempo real del tráfico por cada nodo de la red.
Guarda en tablas separadas información de las redes MAC, IP , IPX.
Matriz Table: Contiene información estadística y de tiempo real por cada par de nodos
de red que se comunican. Guarda información en tablas separadas por cada red MAC, IP e
IPX.
Traffic map: Da una vista rápida de los estándares de red en tiempo real. Presenta un
gráfico completo de los patrones de tráfico entre nodos.
Protocol Distribution: Da un reporte del uso de red basado en las protocolos 1CP/IP,
IPX/SPX, NetBIOS, AppleTalk, DECnet, SNA, Banyan y otros. Muestra información de los bytes y paquetes con sus respectivos porcentajes para cada uno de los protocolos.
b) ETHEREAL
Ethereal es un analizador de protocolos para Linux y UNIX que utiliza GUI, ofrece una
interfaz sencilla de utilizar y visualiza los contenidos de las cabeceras de los protocolos involucrados en una comunicación de una forma muy cómoda, se puede examinar
fácilmente los datos ya sea desde una captura en tiempo real o desde archivos de capturas
tcpdump previamente generados.
Ethereal puede realizar capturas sobre Ethernet, FDDI, PPP y Token Ring.
La ventana principal de la aplicación se divide en tres partes.
- La primera parte muestra un resumen de los paquetes capturados, como las
direcciones IP y puertos involucrados en la comunicación. Seleccionando un paquete en esta sección podemos obtener más información en las otras dos secciones de la
pantalla.
> En la parte central de la ventana se muestra cada uno de los campos de cada una de las
cabeceras de los protocolos que ha utilizado el paquete para moverse de una máquina a
podremos ver las cabeceras del protocolo 'CP, del 1P y de los que tengamos debajo de
ellos.
La tercera parte de la ventana muestra en formato hexadecimal el contenido del
paquete. Seleccionando cualquier campo en la parte central de la ventana se mostrarán
en negrita los datos correspondientes, estos son los datos reales que están viajando por
la red.
Otra de las opciones que ofrece este programa es la de seguimiento de flujos TCP (Follow
TCP Stream). Esto permite que una vez seleccionado un paquete de entre los capturados,
recuperar solo los paquetes asociados a la misma conexión del paquete seleccionado. Esta
opción es muy útil, porque el sniffer captura todos los paquetes y si en un momento dado
existen varias conexiones distintas los paquetes de todas ellas aparecerían entremezclados.
El menú principal ofrece las siguientes opciones:
File: Este submenú permite abrir, cerrar, grabar, recargar, imprimir archivos
capturados, imprimir paquetes y salir de Ethereal.
r Edit: Contiene opciones para encontrar, ir a y marcar un frame determinado, marcar
o desmarcar todos los frames seleccionados, colocar preferencias, crear y editar filtros,
activar y desactivar el análisis de protocolos editados.
Capture: Tiene opciones para empezar y parar la captura.
Display: Este submenú permite modificar las opciones de presentación de
información de los paquetes, seleccionar frames dando un valor, colorear paquetes,
expandir y reducir los frames, mostrar frames en otra ventana y descifrar ciertos paquetes como un protocolo particular.
- Tools: Tiene opciones que permiten manejar los plugins de Ethereal, mostrar todos los
segmentos TCP capturados que pertenezcan a la misma conexión TCP, muestra
información estadística, y un árbol jerárquico estadístico de los paquetes.
- Help: Contiene información acerca de Ethercal y acceso a una ayuda básica.
C) NTOP
Ntop significa Network TOP, es uno de los más completos programas de monitorizaclón
de red y es GNU. NTOP además de mostrar el uso de la red en tiempo real, permite
detectar malas configuraciones de algún equipo a nivel de servicio. Ntop puede operar en
una red tradicional o en una red Ethernet que hace uso de switches.
Los protocolos que es capaz de monitorear este software son: TCP/UDP/TCMP, (RARP,
IPX, DL(, Decnet, AppleTalk, Netbios, y ya dentro de TCP/UDP es capaz de agruparlos
por ETP, HTTP, DNS, Telnet, SMTP/POP/IMAP, SNMP, NFS, XI
NTOP provee soporte para detectar algunos problemas de configuración de red
incluyendo:
r Identificación de direcciones IP duplicadas.
.- Mala configuración del gateway.
- Mala configuración de aplicaciones software
Excesiva utilización de ancho de banda
CO
NTOP tiene dos formas de ejecutarse:
Modo Interactivo: La información es presentada en una ventana en modo texto.
Modo W eb: Permite mostrar la información a través de un navegador web en forma
remota y en tiempo real, convierte los exploradores web en consolas en las que se pueden ver y controlar las estadísticas de la red.
Las opciones que ofrece el menú principal del navegador de NTOP son:
About: Muestra una explicación del programa, así como los créditos de las
personas que lo han hecho.
r Data Rcvd, Data Sent:
Nos enseña que datos se han recibido /transmitido. Lasposibilidades para visualizarlo es agrupándolo por protocolos, por TCP/UDI, qué
cantidad se ha tratado, la actividad de cada host, y netflows.
r Stats: Es el apartado de estadísticas, que muestra información completa acerca del
estado de la red. Enseña si es tráfico unicast, o multicast, la longitud de los
paquetes, el Time To Live del paquete, y el tipo de tráfico que viaja (todo esto con
porcentajes). También saca un listado de dominios, y qué plugins se pueden activar
o desactivar.
'- IP Traffic: Da información acerca del sentido del tráfico, si va de la red local a una
red remota, o viceversa, presenta una matriz 2D que contiene información del
tráfico enviado desde y hacia un host.
IP Protos: Da estadísticas del uso, pero a nivel de red como conjunto de hosts,
presenta una la lista de sesiones TCP activas por cada host conocido.
Admin: Sirve para poder cambiar la interfaz de red, crear filtros, y un
mantenimiento de usuarios.
2.2 SELECCIÓN DE LA HERRAMIENTA
Una vez analizadas las herramientas de monitoreo se decidió trabajar con NTOP debido a las siguientes razones:
Es de código abierto lo que permite adecuarlo a las necesidades que se tenga.
r Permite trabajar en plataformas linux, esto es una gran ventaja debido a que la
mayoría de los servidores utilizados en el grupo de Telecomunicaciones corren
sobre este sistema operativo.
Permite monitorear a nivel de las capas IP, transporte y aplicación del modelo de referencia TCP/IP.
Ademis se decidió trabajar con esta herramienta porque presenta características como:
Habilidad para presentar los datos de una manera segura en una terminal basada en
texto y en un navegador web.
Soporte para SNMI.
Detección de violaciones de seguridad.
- Corre en plataformas Unix y otras como Win 32.
2.3 CONFIGURACIÓN DE EQUIPOS PARA EL MONITOREO DE LA RED
Al ser la red de la Universidad una red conmutada configurada a través de Vlans, solo se
envía el tráfico al segmento donde está la computadora a la que va dirigida la información,
lo que evita poder monitorear el tráfico de red entre computadoras que estén en segmentos
distintos al que nosotros nos encontremos. Por esta razón, surge la necesidad de configurar
el switch core CISCO 6500 debido a que a éste se conectan los equipos que dan servicio a
todo el campus universitario.
La configuración es la siguiente:
La máquina en la cuál se encuentra instalada la herramienta de monitoreo se conecta al
puerto 2 del switch core que esta configurado como puerto SPAN (Switched Port
Analyzer) algunas veces llamado puerto mirroring, con esta configuración de SPAN cada
paquete recibido o enviado por cada uno de los puertos que conforman el switch será
Fig. 2.1 Esquema de configuración puerto SPAN
En la configuración del puerto SPAN se especificaron de la Vlan 1 a la Vlan 20, que son las
que se van a monitorear y las que conforman la red local de la Universidad.
Para monitorear la red fue necesario instalar la herramienta en una máquina con las
siguientes características: Memoria de 512 M13, Pentium IV, disco de 40GB y sistema
operativo Linux RedHat 8.0, además es necesario contar con un servidor MySQL para
poder almacenar toda la información que genere este programa en una base de datos.
La toma a la que se conecta esta máquina forma parte de la \ 7 lan 1.
2.3.1 Instalación del NTOP
NTOP necesita de los siguientes paquetes para su ejecución.
GDChart: Es un programa para poder hacer gráficos.
jsQf: Es un programa para listar ficheros que están abiertos en el sistema.
nmap: Permite escanear una red de computadoras en busca de información.
lipcap: Muestra las estadísticas actuales del uso de la red.
Estos paquetes se encuentran gratuitos en el Interne?.
Una vez obtenidos los paquetes se procede a la instalación de cada uno de ellos.
El primer paso consiste en descomprimir el paquete NTOP con la siguiente instuicción:
tar —xvzf ntop-2.0.99-rc1tgz
Se crea una carpeta RC2 en la que se encuentra el paquete GDChart y el Ntop. Todos los
paquetes necesarios para el funcionamiento de la herramienta de monitoreo se instalaron
bajo el directorio: /tesis/RC2/
El proceso de instalación es el siguiente:
1. Instalar isof
tar —xvzf lsof_4.65.tar.gz
cd lsof_4.65
tar —xvf lsof_4.65_src.tar
cd lsof_4.65.src
./Configure linux
make
2. Instalar nmap
tar —xvzf nmap-2.54BETA36.tgz
cd nmap-2.54BETA36
./configure
make
make instali
3. Instalar libpcap
tar —xvzf libpcap-0.4.tar.gz
cd libpcap-0.4
./configure
make
make instali
4. Instalar GDChart
cd gdchart
./configure
cd gd-1.8.3/libpng-1.2.1
cp scripts/makefile.linux Makefile
make
cd ../../zlib-1.1.4/
• /configure
make
cd..
make
make insta11
5. Instalar NTOP
cd ntop
./configure
make
make insta!!
Para ejecutar Ntop se escribe la siguiente instrucción:
ntop —P /tesis/RC2/ -u root -w 3000 -W 3003 -i ethO -b localhost:4000
Donde:
-P /tesis/RC2/: Directorio en el que está instalado NTOP y en el cual se dejan las tablas
hash.
-w 3000: Para abrir el servidor en el puerto 3000.
u root: Especifica el usuario con el que se va a correr el programa.
-W 3003: Para abrir servidor SSL en el puerto 3003.
i ethO: Para escuchar todo el tráfico que pasa por la tarjeta de red eth0.
b localhost:4000: Donde está el programa puente para el servidor MySQL.
Ntop proporciona una lista amplia de protocolos, por lo que fue necesario filtrar los
protocolos con los que se trabajó, para ello se creó un archivo llamado "protocolos"
donde se especifica la lista de los protocolos a utilizar. Para que N'J'OP presente
información sólo de estos protocolos es necesario agregar a la línea de ejecución la
siguiente instrucción: - p protocolos.lista
NOTA: El filtrado de protocolos no significa que NTOP no monitoreará el resto de
protocolos existentes en la red, si no que los agrupará a estos dentro de la opción
El archivo protocolo.lista contiene el detalle de los protocolos de Internet que van a ser
monitoreados.
2.3.2 Creación de la base de datos NTOP
Una vez instalado el NTOP se crea la base de datos en la que se va a guardar la
información. Esta base de datos consta de cinco tablas que son:
Hosts: Contiene información de la dirección IP, dirección física, datos enviados, datos
recibidos.
Iptraffic: Especifica la dirección IP y los protocolos de Internet que se encuentran
agrupados en TCP/UDP.
NonlPTraffic: Almacena información de la dirección IP y de los protocolos que no
forman parte del Internet.
NameMapper: Almacena información de la dirección IP y el nombre de la máquina.
TCPsessions: Contiene información de las sesiones que establece cada usuario con un
servidor.
El proceso que se realizó para crear la base de datos es el siguiente:
1. Entrara mysql con:
mysqi —u root
2. Crear la base de datos con la siguiente instrucción:
mysqiadmin create NTOP
3. Cargar el archivo con extensión ".txt" que contiene la creación de las tablas que
conforman la base de datos:
mysqi NTOP <database/mySQLdefs.txt
Donde:
database:
es el directorio donde se encuentra el arcivo.txt
4. Se ejecuta el script de peri que contiene la conexión a la base de datos:
peri databas e/mySQLserver.pi &
5. Finalmente se ejecuta la herramienta de monitoreo para almacenar la información en la
base de datos:
ntop —P /tesis/RC2/ -u root -w 3000 -W 3003 -i ethO -b iocalhost:4000 —p
protocolos.lista
CAPÍTULO III
E1HNTOP
1e •oreo
CAPÍTULO III. MONITOREO DE LA RED DE LA UTPL
La primera tarea a realizar es adquirir el suficiente conocimiento del tráfico que circula por
la red para poder determinar la carga de los servicios que tiene la Universidad, el tiempo de
mayor uso de estos, en especial de los servicios o aplicaciones con los que se va a trabajar.
Para esto se ha planteado los siguientes puntos:
.- Capturar el tráfico generado en la red LAN de la UTPL.
Realizar un análisis de los datos capturados.
3.1 CAPTURA DE DATOS
Los datos obtenidos durante el monitoreo fueron tomados en el nivel de red, transporte y
aplicación. Los paquetes capturados representan todo el tráfico TCP/IP de la red LAN de
la UTPL, en la siguiente figura se representa el esquema de red ]AN a partir de la cual se
[image:33.584.119.539.515.738.2]tomaron las medidas de tráfico.
Se realizó un monitoreo en el mes de julio del 2002 y luego en el mes de septiembre del
mismo año, con una máquina con 64 MB, se monitoreó todas las 8 Vlans que habían hasta
ese entonces, pero surgió un inconveniente por fálta de memoria RAM, teniendo que
suspender ci monitorco hasta contar con nuevos recursos hardware.
Para el año 2003 en ci que se realizó un nuevo monitoreo se consideró este inconveniente y
se incrementó la memoria RAM a 512 MB, porque además de haber aumentado el número
de Vlans también se incrementaron las aplicaciones y esto implica la aparición de nuevos
protocolos de Internet, los cuales se detallarán más adelante.
Las nuevas mediciones se realizaron durante el mes de abril del 2003 en los horarios
laborables y no laborables.
Es necesario mencionar que para el análisis de los datos los domingos no se consideran. La
jornada laborable corresponde al horario comprendido entre las 07:30 a las 12:30 y de 15:30
a 18:30, las jornadas no laborables corresponden al horario en el que el personal de la
UTPL ya no se encuentra en sus oficinas.
En la tabla siguiente se muestra un resumen de los días en los que se realizó este
nuonitorc(
Tabla 3.1 Resumen de los días de monitoreo
Durante los días del mes de abril y mayo se realizó un monitoreo a toda la red LAN de la
L1PL con lo que se importaron datos relevantes en cuanto a:
Tráfico de los protocolos más utilizados en la red.
'l'ráhco total de la red.
, Tráfico total IP.
Con los datos capturados se ha realizado un análisis del tráfico de los protocolos de
Internet que más se utilizan en la UTFL.
3.2 ANÁLISIS DE LOS DATOS
Para el análisis de los datos se consideró dos semanas de monitorco del 14 al 25 de abril del
2003, Lis medidas de tráfico fueron realizadas cada 5 minutos, se ha considerado necesario
monitorear en este lapso de tiempo para tener más exactitud en los datos.
En la gráfica siguiente se indica como se distribuye el tráfico de la red L\N. Esta muestra
fue obtenida con ayuda de la herramienta de monitoreo y corresponde a los 5 minutos pico
de la jornada de la mañana en la que hubo mayor carga en la red. Este tiempo pico
pertenece al día lunes 21 de abril de 11:27 a 11:32.
l'otal 1.8 GB 13,107,921 Pkts
IP 1raffic 1.3 GB [2,127,280 Pkts
Fragrrientcd IP Traffic 0 [0 .00 o
[image:35.584.181.484.487.706.2]Non IP Iraffic 454.1 Ml
Como se puede observar en esta hora la mayor cantidad de tráhco corresponde a los
protocolos de Internet.
Los protocolos IP se encuentran agrupados como se muestra a continuación:
Protocol Data Data
TCP 1.3 GB
IMP 2.4 MB
IP 1.3 GB (74.9°)
ICMP 244.7 KB
Other IP 135.9 KB
(R)ARP 203.6 KB
DLC 6.3MB
IPX 24.6 KB
NctBios 415.0 MB
STP 198.3 KB
[image:36.584.143.514.244.627.2]Other 1.3MB
Fig. 3.3 Detalle de los Protocolos IP y no IP
ln la figura anterior se puede observar que la mayor carga de tráfico es producida por los
protocolos que pertenecen a TCP.
Los 5 minutos pico de la jornada de la tarde corresponde al día martes 21 de abril desde las
17:48 a 17:53.
Total IP fraffic
Fragmented IP Traftic Non IP Traffic
[image:37.584.194.460.215.445.2]1.3 GB 13,090,754 Pkts 1.0 GB 12,705,618 Pkts o [O .0u o 208.6 Ml
Fig. 3.4 Distribución de tráfico IP y no IP de la jornada de tarde
Este gráfico al igual que el anterior muestra que la mayor cantidad de triíico ha sido
generado por los protocolos que pertenecen a Internet.
También se realizó un análisis de la carga de trafico que se genera cada 3 minutos a partir
de las 19h00 a 21h00 donde el personal de la UTPL termina sus labores.
El día en el que se encontró mayor tráfico en la red en horas no laborables corresponde al
Total 197.0 MB L41 1,067 Pkts
IP Traffic 135.9 MB 1270,209 Pkts
Fragmented IP Traffic o {0.O
[image:38.584.242.418.548.729.2]Non IP Traffic 61.1 M
Fig. 3.5 Distribución de tráfico IP y no IP en jornadas nocturnas
3.2.1 Análisis de los protocolos de Internet en tiempos pico
Se determinó los minutos pico donde hUI)O mayor trafico de las aplicaciones de Internet
que más se utilizan en la UTPL.
Los protocolos de Internet que mayor carga generan se encuentran agrupados dentro de
I( P/ Ll)P, como se muestra en la tabla siguiente.
Tabla 3.2 Protocolos de Internet agrupados dentro del TCP/UDP
3.4
Esta tabla corresponde al detalle de los protocolos de Internet de los 5 minutos pico de la
Jornada de la mañana del día lunes 21 de abril desde las 11:27 a 11:32. La tabla anterior se
resume en el diagrama de barras que se muestra a continuación:
c 1 L &)
E—1 Z -. U.. O)
oj
U_ F— 1 l U)
— 1Óc3O)
-o co o.
L
co o. o
D
Fig. 3.6 Protocolos de Internet que mayor carga generan en la jornada de la mañana
El diagrama muestra como en esta mañana la mayor carga de tráfico de Internet ha sido
generada por el protocolo NBios-IP que es un protocolo de uso compartido de ficheros en
Windows, que debe transportarse
entre máquinas utilizando uno de estos protocolos
TCP/IP o UDP/IP.
El detalle de los protocolos de Internet de la jornada de trabajo correspondiente a la tarde
se muestra en el diagrama de barras que se indica a continuación:
0....
= . O)
o co
1-co o.
Li
En ambas jornada de trabajo los protocolos que más se destacan son: HTTP y NBios-IP,
estos utilizan el mayor ancho de banda con respecto al resto de protocolos ya que generan
una carga considerable en comparación con los demás.
Otro de los protocolos de Internet que no aparece en estas gráficas pero que se ha
observado durante el monitoreo de la red que genera gran cantidad de tráfico es el SSH que
es utilizado en lugar de los protocolos Telnet y FTP.
Con la gráfica 3.6 y 3.7 se corroboran los resultados obtenidos en el monitoreo preliminar el cual se mencionó en el capitulo 1, con lo que coinciden algunos de los protocolos de
mayor uso.
Por tanto, los protocolos con los que se trabajará para la elaboración del modelo serán los
que pertenecen al grupo TCP/UDP.
Como podemos observar durante las dos semanas de monitoreo los protocolos HTTP y el
Nbios-IP siguen predominado con respecto al resto de protocolos.
3.2.2 Análisis del tráfico HTTP y NBios- IP en jornadas laborables y no laborables
Para el análisis de los protocolos de Internet se consideró el detalle de la cantidad de datos
enviados que presenta el software de monitoreo.
Con las muestras que se indican a continuación se podrá observar cuáles son los tiempos
picos en los que mayor tráfico T-f1TP se genera por los usuarios de la LTTI)L.
Se ha considerado trabajar con los horarios de trabajo de la mañana y la tarde, y los días no laborables para observar la diferencia en la carga de tráfico H'ITP en la red.
.1
Las gráficas siguientes muestran el comportamiento del tráfico HTTP del 23 de abril de
2003 de la jornada de la mañana.
= - 1 0 0 t 1
2 u O E
a)
07:40 - 07:45
08:36 - 08:41
O 5 O O
0 0
c)
d)
[image:41.584.117.525.240.673.2]10:11 - 10:16
12:25 - 12:30
Fig. 3.8 Tráfico TCP/IP en jornadas laborables
Durante el monitoreo se observo un similar comportamiento en ambos protocolos HITP
y Nbios-1P, por esto se consideró como muestra un día al azar de las dos semanas de
- a a
Z t! - - }_ E u 3
t o o a
o a o
z u1 E
Conclusiones del análisis:
A partir de las 7:30 hora de entrada de la jornada de la mañana la mayor carga corresponde
al protocolo HYFP y permanece alto hasta aproximadamente unos 30 minutos, luego de
ello empieza a predominar el protocolo NBios-IP, lo que permite deducir que el tráfico de
Internet queda distribuido entre HTTP y NBios-IP entre las horas intermedias hasta llegar
a la 12:30 donde empieza a incrementar nuevamente el trMico HTTP, y disminuir el
NBios-IP, es preciso recordar que a partir de esta hora el personal administrativo de la jornada
normal de trabajo termina sus labores, pero se debe considerar que algunas personas
continúan trabajando en ciertas oficinas de la Universidad o en las salas de cómputo fuera del horario de trabajo normal.
El comportamiento de estos protocolos es similar para la jornada de la tarde donde a partir
de las 15:40 aproximadamente, empieza a distribuirse la mayor cantidad de tráfico entre los
protocolos antes mencionados, hasta que las personas que laboran en la UTPL terminan la
jornada de la tarde, donde empieza nuevamente a predominar ante todos los protocolos el HTTP como se verá continuación.
Estas muestras fueron obtenidas cada 5 minutos desde las 19:00 a las 19:30
a) b)
18:58 - 19:03 19:27— 19:32
o, . a - a a Oi
h- Z 6) - H = S
- = -ç 1 (0 = Z U)
61 = O 01 £
U) a
-o
O
c)
21:11 - 21:16
Fig. 3.9 Tráfico TCP/IP en jornadas no laborables
De las muestras presentadas y de los datos observados durante el monitorco se puede
decir que luego de las 19:00 el protocolo 1 I'IITP empieza a subir hasta llegar a ser ci que
predomina con respecto al resto de protocolos, a diferencia del
protocolo de aplicación
NetBios-IP baja completamente su carga debido a que a partir de esta hora el personal
administrativo que son los que hacen mayor uso de los recursos compartidos en la red
ya no se encuentran laborando en sus oficinas.
3.2.3 Análisis del tráfico total
Para analizar el tráfico total que circula por la red se consideró 4 muestras, una de ellas fue
capturada el 11 de julio/2002 por un lapso de una hora, la segunda muestra es del 14 de
abril/2003 por una hora, la tercera corresponde al 17 de abril/2003 en un tiempo de 20 minutos y la última muestra corresponde al 22 de abril/2003 por un lapso de 5 minutos.
Last 60 Hinutes I4verage Throughput 270.0 260.0 250.0 118:8 220.0 210.0 200.0 170.0 160.0 W130.0 : 120.0
L 110.0
1:3
80.0 70.0 60.0 30.0 20.0 10.0 0.0 [image:44.584.136.519.168.394.2]11,11 MM
... .. ... ... . . ... .... . ... ... ... . .... ... . . ... ...
Fig. 3.10 Tráfico del 11 de julio de 2002 desde las 07:05 hasta las 08:05
Last 60 Minutes flverage Throughput
110.0 kbps 100.0 Kbps
90.0kbps
-i
1
-30:0 Kbp: 700Kbp 60.0 Kbp 50.0 <bp. L 40.0 kbp 30.0 <bps 20.0 Khp 10.0 kbpE
0.0khp . . . .
Fig. 3.11. Tráfico del 14 de abril de 2003 desde las 17:16 hasta las 18:16
2.4 2.2 2.1 2.0 1.9 1.8 1.6 1.5 1.4 . 1.2 50 : 1.1
1.0 39.0 36.0 33.0 30.0 27.0 24.0 . 21.0 18.0 15.0 12.0 8.0 6.0 3.0 0.0
En ambas gráficas la cantidad de tráfico generado no pasa de los Kbps, a diferencia de las
siguientes en el que el tráfico sube a los Mbps:
Last 60 Minutos fiveroge Throughput
- - Lfl LC LÇT :-L) P101 [ 1 0) )fl
Fig. 3.12 Tráfico del 17 de abril del 2003 desde las 13:43 hasta las 14:05
Si se compara esta gráfica con la anterior del mes de julio se observa que hay una gran
diferencia en cuanto al tráfico generado, considerando además que la segunda gráfica
pertenece a un horario no laborable.
Una cuarta muestra capturada corresponde a la jornada de la mañana, en la que se observa
una gran diferencia en la cantidad de tráfico con respecto a las tres gráficas anteriores.
last 60 Minutes Average Throughput
EM
Con todas estas muestras capturadas se concluye que:
Comparando las figs. 3.10 y 3.11 se ve que ambas llegan hasta los Kbps debido al
POCO ITa co que hubo en la red. Al comparar estas figuras con la 3.12 que pertenece a
20 minutos no laborables, se observa una variación en el comportamiento del tráfico.
La cantidad de tráfico que se ha generado el 17 de abril (fig 3.12) llega hasta los
Mbps, muestra que se ha generado en horas en las que el personal administrativo de la
jornada normal de trabajo de la UTPL no se encuentra laborando, en comparación
con la gráfica del 22 de abril (fig 3.13) en donde en un lapso de 5 minutos se ha
llegado a obtener hasta 30 Mhps.
3.3 VALIDACIÓN DE LOS DATOS CAPTURADOS
Para la validación se considero lo siguiente:
Se tomo un archivo de word con un tamaño de 26 KB que reside en la máquina
172.16.7.130, utilizando el SSH se lo subió al servidor 192.188.50.99 y se obtuvieron los
siguientes resultados:
Tabla 3.3 Datos recibidos utilizando el protocolo SSH
E?
Tabla 3.4 Datos enviados utilizando el protocolo SSH
En la tabla 3.3, el software de monitoreo muestra 60.8 KB para el servidor web
(192.188.50.99) que corresponde al tamaño del archivo, mas la información adicional para
su correcta transmisión como el tamaño de la cabecera del datagrama, el servidor envía una
respuesta de confirmación al usuario (172.16.7.130) con un tamaño de 10.3 13.
Al observar el detalle de los protocolos enviados, existe en el SSH el total de 71.1 KB que
es el resultado de sumar el tamaño de los datos enviados por el usuario y la respuesta del
servidor.
396.7 Kl
NS 1.3 Kl
elnet 29.9 Kl
[bios-IP 3.6 K]
MP 0.5 Kl
H _-) 71.1 Kl
.her
TCP/UDP-sed Prot. 50.3
Tabla 3.5 Resumen datos enviados por protocolos
Una manera de proporcionar una comunicación fiable es enviando una confirmación
(ACK) que es lo que realiza en este caso el servidor (192.188.50.99). Esta respuesta de
conrmación consiste en que cada vez que llega un mensaje al receptor, este devuelve una
mensaje. Si no le llega esta confirmación pasado un cierto tiempo, el emisor reenvía el
mensaje.
Otra forma de validar los datos que proporciona el software de monitoreo es utilizando el
correo electrónico, el protocolo que interviene en esta validación es el Mail. El proceso
que se realizó fue el siguiente:
Se envío un correo a la siguiente dirección mail: [email protected], con un archivo
adjunto de Excel con tamaño de 26.5 KB
El software de monitoreo presentó los siguientes resultados:
Tabla 3.6 Datos recibidos utilizando el protocolo mail
—Tráfico de1 m Datos
IP Protocolo Mail
172.16.7.130
032.69.135 3.8
Tabla 3.7 Datos enviados utilizando el protocolo mail
En la tabla 3.6 se especifica la cantidad de datos que recibe tanto la máquina que envío el
correo electrónico y el servidor que es el que recibe el mensaje, como se ve el software
muestra una cantidad de 79.6 KB que corresponde al tamaño del mensaje más la cantidad
adicional que le suma por los campos de la trama ethernet, la dirección 172.16.7.130
NMP
)ther TCP/UDP-ased Prot.
NS
elnet íBios-IP Lail
0.7 Kl 4.3 Ml 5.2 Kl 87.5 KIl 118.9 Kl 83.4 Kl 57.0 Kl
137.6
(emisor) recibe un mensaje de 3.8 KB que corresponde a la respuesta ACK de
confirmación de envío del mensaje.
En la siguiente tabla se ve que la cantidad de datos enviados por el protocolo Mail es de
[image:49.584.206.433.311.512.2]83.4 KB que corresponde a la suma de los datos de la tabla 3.7.
CAPITULO IV
600 500 400 300 200 100 o
Oy
0.
KB
CAPÍTULO IV. CARACTERÍSTICAS DEL TRAFICO DE INTERNET
Una
vez
hecho el análisis de los datos generados en la red de la LJTPL, es necesario
determinar las características del comportamiento del tráfico capturado.
Para determinar estas características del tráhco es necesario muesftearlo y convertirlo en
una serie numérica donde los valores de la serie tienen un significado concreto que será el
tiempo del suceso y la cantidad de información. Estas series son generadas por un proceso
estocástico, entendiéndose por proceso cstocástico
ilconjunto de variables aleatorias Nt)
donde el subíndice t es el tiempo y Xt representa una característica de interés medible en el
tiempo t.
4.1 COMPORTAMIENTO DEL TRÁFICO DE LA RED LAN
En las figuras 4.1, 4.2 y 4.3 se muestra la evolución del tráfico a diferentes escalas de
tiempo (1,3 y 5 minutos). Como se ve, la forma en que se presentan las ráfigas de paquetes
en las 3 muestras son similares (comportamiento fractal).
Tráfico IP del 22 de abril
Tiempo
Tráfico IP del 22 de abril
ULO
7U0
oo-. -
-KB o:'
ul 1)
[1 -'
y • :bP a.,. .:;' . .t
[image:52.584.176.478.145.358.2]Tiempo
Fig. 4.2 Evolución del tráfico a escalas de tiempo de 3 minutos
Tráfico IP 25 de abril
o
! ' .
A
T IwpO
Fig. 4.3 Evolución del tráfico a escalas de tiempo de 5 minutos
El término fractal o autosemejante hace referencia a la característica que tiene una serie
estudiada de mantener su estadística más o menos invariable a diferentes escalas temporales
[image:52.584.180.488.454.654.2]de agregación (escala de tiempo obtenida a partir de una escala original). Además el tráfico
autosemejante se caracteriza por la presencia permanente de ráfagas a través de diferentes
escalas de tiempo.
Por consiguiente se ha realizado un análisis necesario para primeramente detectar
autosemejanza en el tráfico TCP/IP, y luego escoger el modelo adecuado que se adapte al
comportamiento que presenta el tráfico Internet generado por la red LAN de la
Universidad.
Para demostrar que ci tráfico es de naturaleza fractal es necesario obtener las series
agregadas para indicar que ci comportamiento es similar con respecto a la serie original.
Se trabaja con series agregadas debido a la existencia de múltiples escalas temporales de las
aplicaciones y protocolos de Internet. Con esta finalidad se define la agregación temporal
como:
(rn)
-X (k) - hm (Xkmrn+1 +...
.
+Xkm) ;t ^
1
donde x(111 ¿
k
es el valor de la nueva serie, construida a partir de la división de x (serie
original) en bloques no superpuestos de m elementos secuenciales, es decir que se crea una
nueva serie en el tiempo obtenida por el promedio de la serie original X.
Para el cálculo de las series agregadas se tomo como serie original los datos capturados los
días 22 al 25 de abril del 2003 con una escala temporal original de 3 minutos, las series
agregadas se calcularon para un m (número de elementos secuenciales) de 2 y 3, la serie
SERIE
1 ( IM
-ME'
\r l\l Nro KIS Nro KIS Nro KB Nro KIl Nr lI1 Nm 101 Ni 101 1 380.3 21 417.9 41 356.8 61 396.8 81 684.7 101 315.1 121 591.4 141 305.i 2 452.2 22 511.9 42 564.7 62 347.0 82 558.3 102 271.2 122 350.4 142 545.5 3 483.3 23 367.6 43 270.9 63 371.5 83 594.6 103 243.1 123 860.9 143 436.1 4 924.2 24 652.3 44 333,3 64 418.7 84 648.2 104 208.6 124 249.7 144 386.8 5 939.6 25 397.5 45 290.8 65 311.0 85 932.3 105 373.3 125 300.4 145 236.4 6 206.2 26 181.0 46 265.4 66 326.9 86 682,1 106 298.7 126 362.3 146 21.7 7 256.1 27 299.0 47 261.0 67 319.4 87 360.9 107 404.1 127 283.9 147 13.3 8 304. 28 264.9 48 260.0 68 354.2 88 573.2 108 349.5 128 331.5 148 269.7 9 370.8 29 341.2 49 414.3 69 441.7 89 294.8 109 196.1 129 312.9 149 339.3 10 442.8 30 257.2 50 434.5 70 367.20 90 258.5 110 155.6 130 339.4 150 249.7 11 290.6 31 289.3 51 232.4 71 466.9 91 294.9 111 150.3 131 403.5 151 257.9 12 386.1 32 314.0 52 286.9 72 380.8 92 417.0 112 267.7 132 -100.6 152 413.8 13 271.2 33 228.0 53 331.2 73 355.8 93 296.1 113 204.4 133 279.9 153 287.4 14 418.3 34 293.2 54 34.9 74 320.5 94 438.0 114 43 2. 5 134 296.2 154 136.2 15 431.9 35 327.0 55 399.6 75 493.2 95 431.5 115 279.2 135 336.4
16 364.4 36 375.2 56 280.2 76 264.3 96 443.2 116 52 0. 2 136 278.4 17 620.9 3 325.5 57 237.8 77 309.7 97 354.7 117 370.2 137 340.7 18 579.2 38 384.0 58 180.3 78 567.0 98 171.3 118 550.6 138 374.0 19 441.6 39 276.9 59 100.2 79 730.3 99 127.7 119 452.2 139 308.3 20 410.1 -10 344.2 60 233.5 80 667.2 100 209.0 120 364.7 140 378.9
Tabla 4.1 Datos de la serie original
De la serie original se obtienen dos nuevas series llamadas series agregadas que
corresponden a un m2 y m3.
La tabla siguiente muestra los datos de las series agregadas:
- SERIES AGREGADAS
=2 in=3
1 416.25 21 460.75 6215 61 4-lo.9(
2 03.75 2 3021€ 42 621,4€ 6 555,3€ 2 6900€ 22 352.2 4: 304.13
3 5729€ 23 2781€ 43 807.2( 63 331.35 3 310.53 23 371.7667 43 309.43
4 2804€ 2 260,5€ 44 467.05 6 3072 4 373.17 24 404.9667 4- 381.17
5 4068€ 25 4244€ 45 276.65 65 326.15 5 373.8 25 389.8333 45 304.17
6 338.35 26 259.65 46 355.95 66 402.05 6 5215€ 26 380.3333 46 33 1.03
7344.75 27 339.55 47 367.05 6 288.05 7 4232€ 27 694.0667 47 330.73
8 398.15 2 339.9( 48 437.35 6€ 307.4 8 5106€ 28 600.3667 4 456.13
9 600.05 29 209.05 49 2630€ 69 357.35 9 2925€ 29 658.4333 49 209.13
10 425.85 3€ 166.85 5€ 168.35 7€ 3436€ 10 287.77 30 375.5 5€ 286.23
11 4649€ 31 3719€ 51 293.15 71 425.25 11 2771€ 31 336 51 319,7€
12 509.95 3 395,1€ 52 225.85 7 411.45 12 331,8€ 32 437.5667 51 454€
13 289.25 33 3 18.9 5 53 336,0€ 73 227.05 13 328,8€ 33 217.9
14 281.95 3 3368€ 54 376,8€ 7 221,5€ 14 421,9€ 34 265.1
15 299.2( 35 404.45 55 175.85 75 294,5€ 15 298.33 35 275
16 301.65 36 423.85 56 209,0€ 76 335.85 16 262.13 36 350.7667
17 2606€ 37 338.15 57 318.45 77 211,8€ 17 360. 37 16.3333
18 351,1€ 3 378. 7 5 58 3997€ 18 322,0€ 38 301.5333
19 354.75 39 438.35 59 460,4€ 19 305.87 39 389.8667
[image:55.584.129.531.138.532.2]20 310.55 4€ 69€€75 60 408.45 20 17 1.33 40 455.8333
Tabla 4.2 Datos series agregadas
Con la gráhea de la serie original Fig 4.4 y las gráficas de las series agregadas Fig 4.5 y 4.6 se observa que no existe mayor diferencia en su forma, corroborando lo explicado en el
SERIE ORIGINAL
1000
800
600
400
200
o
1 14 27 40 53 66 79 92 105 118 131 144
[image:56.584.206.461.76.751.2]Nro
Fig. 4.4 Serie original
SERIE AGREGADA m2
1000
1 6 11 16 21 2631 3641 46 51 5661 6671 76
Nro
Fig. 4.5 Serie agregada con un m 2
SERIE AGREGADA m3
800 700 600 500 400 300 200 100
o
1471013161922252831343740434649
Nro.
Fig. 4.6 Serie agregada con m 3
Del análisis anterior se ve que en todas las muestras (gráficas) el comportamiento es
similar, por lo que cumple con la condición de fractalidad.
Para comprobar que el tráfico es fractal o autosimilar es necesario:
1. Calcular la función de autocorrelación
2. Calcular el coeficiente de Hurst
4.2 ANÁLISIS DE LA FUNCIÓN DE AUTOCORRELACIÓN
"El coeficiente de correlación permite medir el grado de relación entre dos variables y
describe lo que tiende a sucederle a una de ellas si se da un cambio en la otra, éste
coeficiente varía entre 1 y —1, un valor aproximado a 1 implica una fuerte relación positiva entre las dos variables, es decir si el valor de una variable aumenta la otra debe aumentar
también, por el contrario un valor de —1 indica que si una variable aumenta el valor de la
otra disminuirá. Un coeficiente de cero indica que las dos variables no están relacionadas`.
El coeficiente de autocorrelación describe la asociación o relación mutua entre valores de la
misma variable pero en diferentes períodos.
La autocorrelación nos dice que un proceso x es autosimilar si para todo k se cumple que:
r (k) -* r(k) ; V k
Esta condición de autosimilaridad quiere decir que, la autocorrelación del proceso
agregado (serie agregada) tiene la misma forma que el proceso original (serie original). Esto
implica que ci grado de variabilidad o grado de rúfagas podría ser el mismo a diferentes
escalas de tiempo.
La función de coeficientes de autocorrelación r(k) de cierta señal Y[t] se define como:
k (Y t )(Yk
-rk=
- Y)2 Ir
Donde:
es la media de la serie yt.
k es el desfase entre las observaciones.
m es el número de elementos secuenciales.
En la tabla siguiente se incluyen los valores de los 3 primeros coeficientes de
autocorrelación correspondiente a las series original y agregadas pertenecientes a los datos
de la semana del 22 al 25 de abril.
Tabla 4.3 Autocorrelaciones de la semana del 22 al 25 de abril
Entre los coeficientes de autocorrelacion de la serie original y de las series agregadas no hay
mucha diferencia, existe una semejanza entre ellos por lo que se puede decir que si
cumple con la condición de fractalidad o autosimilaridad.
Además para comprobar esto se consideró otra muestra que corresponde a los datos de la
semana del 27 al 30 de mayo y se encontraron resultados similares a los del mes de abril. La tabla siguiente muestra el resumen:
Tabla 4.4 Autocorrelaciones de la semana del 27 al 30 de mayo
En ambas tablas se observa como el coeficiente de auto correlación va decreciendo a cero
conforme aumenta k. El análisis de la autocorrelación se lo mencionará más detalladamente
en capítulos posteriores para la identificación del modelo a utilizar.
4.3 ANÁLISIS DEL PARÁMETRO DE HURST
Otra forma de ver si ci tráfico es de naturaleza fractal es calculando el parámetro de Iiurts.
Este parámetro permite medir el grado de autosemejanza o autosimilaridad de un proceso
Para calcular ci parámetro de Hurst se lo realiza con la estimación del método R/S
denominado Rango Reescalado o análisis R/S, que fue propuesto por Hurts,
El análisis R/S se basa en la construcción de! estadístico R/S que mide el rango de las
desviaciones de las sumas parciales de una serie temporal respecto de su media, dividido
por la desviación típica de la serie. Además este método es útil para determinar la existencia
de dependencia a largo plazo como consecuencia de la tendencia que presentan las
observaciones a desviarse del valor medio durante un período de tiempo más o menos
amplio.
La fórmula que permite calcular el rango reescalado o estadístico R/S se expresa del
siguiente modo:
R/S=1=
SI,
maxi
k - -mini
kn(X
-y
XX
,]2-Donde:
IX Ik
1 : Es una submuestra de tamaño k, formada por k observaciones consecutivas de la
serie.
Xk : Es la media muestral de dicha submuestra.
S:
Es la desviación estándar de la submuestra de tamaño n.Se denomina rango y es la diferencia entre los valores máximo y mínimo de las sumas parciales de las primeras k desviaciones de cada observación de !a submuestra respecto a su
media muestral.
Para calcular el parámetro de Hurts se consideró los datos de la serie original de la muestra
del mes de abril y de mayo con lo que se obtuvo los siguientes resultados:
Del 22 - 25 de abril:
Tabla 4.5 Rango Reescalado
Del 27-29demayo:
Tabla 4.6 Rango Reescalado
Una
vez
calculado el rango reescalado se procede a determinar el parámetro de Hurts(H)que
caracteriza
el comportamiento de la serie, a través de la siguiente expresión:R
1-
= anEsto quiere decir que el estadístico R/S es igual a una constante a multiplicada por el
número de observaciones que forman la suhmuestra elevado al exponente de Hurts.
Aplicando logaritmo natural en ambos extremos y despejando H se obtiene que:
SI,
L,( n)
En la tabla siguiente se indican los resultados obtenidos del cálculo de H para la serie
original de ambas muestras:
[image:62.584.101.522.214.661.2]Del 22 al 25 de abril:
Tabla 4.7 Cálculo parámetro de Hurst
Del 27 al 30 de mayo:
Tabla 4.8 Cálculo parámetro de Hurst
Se observa en ambas tablas que el valor del parámetro de Hurst es mayor que 0.5 con lo
que se demuestra que existe autosimilaridad en la serie.
El valor de este parámetro permitirá elegir el modelo adecuado con que se modelara la red
de la Universidad.
[image:62.584.180.488.375.438.2]CAPÍTULO V
CAPÍTULO V. ESTUDIO DE MODELOS DE TRÁFICO
Una vez demostrado que el tráfico Internet presenta una naturaleza auto-similar es decir
fractal, se hace el estudio de los modelos que se pueden aplicar a este tipo de tráfico.
5.1 MODELOS DE TRÁFICO
Los modelos de tráfico estudiados se clasifican de acuerdo al análisis de la función de
autocorrelación que presentan cada uno de ellos. La función de coeficientes de
autocorrelación r(k) de cierta señal Y[t] indica el grado de dependencia lineal que existe
entre una muestra Y[j+l y la k-ésima muestra anterior (Ver fórmula de la función de autocorrelación en el capítulo 4.1)
La señal Y[t] hace referencia a una variable aleatoria física que puede ser: el número de
usuarios conectados, número de bits transmitidos durante cierto intervalo, tiempo entre
paquetes, tamaño del paquete, etc. Para el presente caso se considera el número de bits
transmitidos durante cierto intervalo.
De acuerdo con la forma que el modelo impone a esta función, se puede distinguir algunos
modelos de tráfico como:
,- Modelos incorrelados
Modelos de dependencias a corto plazo
Modelos de dependencias a largo plazo
A continuación se describe brevemente cada uno de ellos, para luego determinar cuál podrá
ser el que mejor se ajuste a los datos obtenidos.
5.1. 1 Modelos incorrelados
Llamados también ruidos blancos que son una sucesión de variables aleatorias (proceso
estocástico) estadísticamente independientes, es decir que no existe ningún tipo de relación
entre las muestras. Una condición que deben cumplir para que sea ruido blanco es que: la
media sea nula, la varianza debe ser constante y debe haber una ausencia de correlación
entre lo valores correspondientes a períodos diferentes, es decir que r(k)0 para toda k O,
la media t O y la varianza cy2 <
Los modelos incorrelados han sido utilizados para modelar algunos aspectos de la
generación de tráfico como: el tiempo entre llamadas, la duración de la llamada o el tamaño
de los ficheros transmitidos.
Dentro de los modelos incorrelados se incluyen los modelos de Poisson los cuáles se
caracterizan por la ausencia de ráfagas y la baja variabilidad reflejadas en la independencia de
las muestras. La distribución de Poisson es usada para describir situaciones que
conciernen el conteo del número de veces que cierto tipo de evento ocurre en un marco
específico de oportunidades.
5.1.2 Modelos de dependencias a corto plazo
Estos modelos se caracterizan por la ausencia de correlación entre las muestras futuras y las
pasadas.
Dentro de estos modelos estn:
Los procesos markovianos: Donde la correlación viene dada por el hecho de que el
Markov se caracterizan porque poseen memoria, "Recuerdan" el último evento y esto
condiciona las posibilidades de los eventos futuros. Esta dependencia del evento
anterior distingue a las cadenas de markov de las series de eventos independientes.
- Modelos Autorregresivos: Un modelo autorregresivo es aquel que explica una
variable por su valor en uno o varios períodos anteriores más un término de error,
estableciendo una relación funcional de tipo lineal. Un modelo autorregresivo se
abrevia con la palabra AR, indicando el orden del modelo: AR(p), donde p indica el
número de observaciones retrasadas de la serie temporal analizada.
A continuación se indica un ejemplo de un modelo autorregresivo de orden uno A11(1):
yt = + iYt-i +
Donde:
yt: Variable a modelar.
yt4: Variable Y t rezagada en un periodo es decir es el valor de y en el periodo anterior.
, : Coeficientes a estimar.
C: Término de error (ruido blanco).
La expresión general de un modelo autorregresivo de orden p: AR(p) es el siguiente:
Yt = o + 1 + ct2Y2...++ pyt-p +
Quedando de forma abreviada:
CVp(L) y1
=q: 0
+
Donde ctp(L) se denomina operador polinomial de retardos y se representa como sigue:
ct(L)=1-
1
L-2
L2-
... LEl término L es el operador retardo tal que aplicado al valor de una variable en t, de como
resultado el valor de esa misma variable en
t-1.
LY
= Y1y aplicando sucesivamente p veces retarda el valor en p períodos.
LY, =
>
Modelos de Medias Móviles:
Los modelos de medias móviles permiten predeciruna variable en función de los errores observados en períodos precedentes,
convenientemente ponderados. Un modelo de medias móviles de orden q,
MA(q),
quedará definido como:
yt
= jL+ 6 + + O2
c2
+ ...+ °qt-qDonde:
Ji:
Es la media del proceso.9q:
Puede ser positivo o negativo.De forma abreviada:
Yt =O
q(L)Et
+ Ji Estos modelos siempre son estacionarios.La