Construcción de una herramienta para predecir el comportamiento del tráfico generado por las aplicaciones de interenet más utilizadas en la red LAN de la UTPL

(1)

--U! tiç:!.ir jp

rv••-•'

etisado d

Vr

4f

J

Vo

Ó

/(

aot

d

(2)

/---I.J

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

ESCUELA DE CIENCIAS DE LA COMPUTACIÓN

"Construcción de una herramienta para predecir el

comportamiento del tráfico generado por las aplicaciones

de Internet más utilizadas en la red LAN de la Universidad

Técnica Particular de Loja."

Tesis previa a la obtención del título de Ingeniería en Sistemas Informáticos y Computación

AUTORAS

Ruth María Reátegul Rojas

Priscila Marisela Valdiviezo Díaz

DIRECTOR

Ing. Rommel Torres

(3)

res

SIS

Ingeniero

Rommel Torres

DIRECTOR DE TESIS

CERTIFICA

Que el presente trabajo de investigación

"Construcción de una herramienta para predecir el

co7rportamiento del tráfico generado por las aplicaciones de Internet mas utilizadas en la red LAN de la

Universidad Técnica Particular de Lgia"

ha sido minuciosamente revisado, por lo que queda

autorizada su presentación.

(4)

AUTORÍA

LOS CONCEPTOS, INTERPRETACIONES E IDEAS VERTIDAS EN EL

PRESENTE INFORME SON PLASMADOS BAJO RESPONSABILIDAD

EXCLUSIVA DE SUS AUTORAS.

Las Autoras:

(5)

DEDICATORIA

Dedico este trabajo a Dios quien al

darme la vida también me dio lo

necesario para poder seguirlo; a mi

familia que siempre me apoya y alienta.

Ruth Reátegui

Esta tesis está dedicada a Dios por

ser mi guía y compañero, a mi

madre y hermano por su apoyo y

motivación para seguir adelante, a

mis tíos que de alguna manera

contribuyeron para mi formación, y

a mi padre que desde el cielo ha

estado siempre presente en mi vida.

(6)

AGRADECIMIENTO

Expresamos nuestro agradecimiento a la Universidad Técnica Particular de Loja y a la

Escuela de Ciencias de la Computación por habernos formado como profesionales.

Al Ingeniero Juan Carlos Torres de la Modalidad Virtual y al Grupo de telecomunicaciones

de la Unidad de Proyectos y Sistemas Informáticos - UPSI, por habernos apoyado con los recursos tecnológicos para el desarrollo de este proyecto.

Al Economista Luís Moncada y al Matemático Pablo Ramón por su asesoría prestada

durante el desarrollo del proyecto.

Al Ingeniero Rommel Torres por haber dirigido de forma adecuada este proyecto.

LAS AUTORAS

(7)

CESIÓN DE DERECHOS

Nosotras, Ruth María Reátegui Rojas y Priscila Marisela Valdiviezo Díaz declaramos

conocer y aceptar la disposición del Art. 67 del Estatuto Orgánico de la Universidad

Técnica Particular de Loja que en su parte pertinente textualmente dice: "Forman parte del

patrimonio de la Universidad la propiedad intelectual de investigaciones, trabajos científicos

o técnicos y tesis de grado que se realicen a través, o con el apoyo financiero, académico o

institucional (operativo de la Universidad)".

• •...

•••í•..••

Ruth M. Reátegui R.

Priscila M. Valdiviezo D.

(8)

CONTENIDOS

INTRODUCCIÓN

1. ANÁLISIS PRELIMINAR DE LA RED LAN DE LA UTPL

1.1 Revisión de la tecnología y topología de la red

1.2 Estado lógico de la red

1.3 Descripción de los protocolos

2. DETERMINACIÓN DE LA HERRAMIENTA DE MONITOREO

2.1 Estudio de la herramienta de monitoreo

2.2 Selección de la herramienta

2.3 Configuración de equipos para el monitoreo de la red

2.3.1 Instalación del NTOP

2.3.2 Creación de la base de datos NTOP

3. MONITOREO DE LA RED DE LA UTPL

3.1 Captura de datos

3.2 Análisis de los datos

3.2.1 Análisis de los protocolos de Internet en tiempos pico

3.2.2 Análisis del tráfico HYfP

laborables

3.2.3 Análisis del tráfico total

3.3 Validación de los datos capturados

y NBIOS- IP en jornadas b bles y no /

/ . ,

( _-)

(9)

4. CARACTERÍSTICAS DEL TRÁFICO DE INTERNET

4. 1 Comportamiento del tráfico de la Red LAN

4.2 Análisis de la función de autocorrelación

4.3 Análisis del parámetro de Hurst

5. ESTUDIO DE MODELOS DE TRÁFICO

3.1 Modelos de trafico

5.1. 1 Modelos incorrelados

3.1.2 Modelos de dependencias a corto plazo

5.1.3 Modelos de dependencias a largo plazo (LRD)

6. IDENTIFICACIÓN DEL MODELO

6.1 Determinación de la estacionariedad de la serie

6.2 Detectar la dependencia lineal de la serie

6.3 Identificación del orden autorregrcsivo (p) y de medias móviles (

7. ESTIMACIÓN Y PRONÓSTICO

7.1 Determinación del modelo ARFIMA(p,d,q

7.2 Estimación de coeficientes

7.3 Validación del modelo

7.3.1. Estadísticos de validez

7.3.2 Interpretación de resultados

7.4 Pronóstico

8. CONSTRUCCIÓN DE LA HERRAMIENTA DE PRONÓSTICO

(10)

8.1.1 Análisis de los lenguajes de programación

8.1.2 Selección del lenguaje

8.2 Herramienta de pronóstico de tráfico IP

8.2.1 Descripción de la herramienta

8.2.2 Análisis de requerimientos

8.2.2.1 Casos de uso de la herramienta

8.2.2.2 Descripción de los casos de uso

8.2.2.3 Diagramas USE CASE

8.2.3 Plataforma y herramientas de desarrollo

8.2.4 Diseño de la interfaz

8.3 Base de datos de la herramienta

8.3.1 Descripción de las tablas de la base de datos MODELO

8.4. Implementación de la herramienta

8.5 Validación de la herramienta

CONCLUSIONES Y RECOMENDACIONES

GLOSARIO

BIBLIOGRAFÍA

(11)

INTRODUCCIÓN

A medida que las redes de computadoras y los servicios de telecomunicaciones como el

Internet crecen, ha surgido en las organizaciones la necesidad de estar en permanente

conocimiento de las condiciones en las que esta trabajando la red, así como el desempeño

de cada una de las aplicaciones que la conforman.

Un amplio conocimiento del tráfico de red que es transmitido implica: caracterizar,

modelar e incluso predecir con precisión el comportamiento de éste. Por tal motivo el

presente proyecto describe los modelos matemáticos que hoy en día son los más utilizados

para el tráfico de Internet, prestando mayor atención a los modelos con memoria larga,

ARMA fraccionalmente integrados (ARFIMA), describiendo los principales métodos de

estimación y los contrastes de validación para la aceptación del modelo.

El propósito de la investigación es conocer el futuro crecimiento del tráfico de Internet en

la red del campus San Cayetano de la UTPL, en base a datos capturados mediante un

software de monitoreo, de ahí que la utilización de esta herramienta va dirigida

especialmente a los administradores de la red para la toma de decisiones en cuanto al

crecimiento de tráfico de las aplicaéiones de Internet, así como determinar si es necesario o

no contar con la implementación de un mayor ancho de banda.

Se contemplan entonces para la ejecución del proyecto los siguientes capítulos:

Análisis preliminar de la red de la UTPL,

en la cual se hará una revisión del estado

físico y lógico de la red.

Determinación de la herramienta de monitoreo,

en este capítulo se hará una revisión

de algunas herramientas de monitoreo, y la selección de una de ellas para el monitoreo de la

(12)

Monitoreo de la red,

capítulo en el cual se analizará el comportamiento de la red de la

UTPL, centrándonos específicamente en el tráfico de Internet.

Características del tráfico de Internet,

se analizará las series agregadas y el parámetro de

Hurst, para determinar las características que presenta el tráfico IP.

Estudio de modelos de tráfico,

se realizará un estudio de los diferentes modelos que

pueden ser aplicables al tráfico Internet.

Identificación del modelo,

se establecerá cuál es el modelo que mejor se ajusta al tráfico

de Internet, determinando: la estacionariedad a través de los coeficientes de auto co rrelació n

simple y parcial; y la dependencia lineal mediante el parámetro d.

Estimación y Pronóstico,

se determinarán los coeficientes del modelo identificado, los

estadísticos de validación y el pronóstico.

construcción de la Herramienta de Pronóstico,

se detallará los pasos necesarios para

la elaboración de la herramienta a partir de la metodología de desarrollo de software

orientado a objetos UML.

(7/a

•T.

(13)

CAPITULO 1

(14)

CAPÍTULO 1. ANÁLISIS PRELIMINAR DE LA RED LAN DE LA UTPL

1.1 REVISIÓN DE LA TECNOLOGÍA Y TOPOLOGÍA DE LA RED

La red física implementada actualmente en la UTPL esta formada por un eje principal o

backbone de Gigabit Ethernet, lo cual permite contar con una velocidad de 1 Gbps, esto

significa un buen ancho de banda para las aplicaciones utilizadas en la red LAN.

:\ este eje principal están interconectados con fibra óptica cinco edificios. Modalidad

Abierta, Administración Central, Octógono, Laboratorios II y Bellas Artes, con topología física en estrella, contando con una comunicación y transmisión de información punto a punto, esto permite que exista una interdependencia entre cada uno de los edificios. El

esquema de interconexión es el siguiente:

Centro de Transferencia de

Tecnología

0

(Modalidad 7Administración

í4"

Octógono

it

Laboratorios Bellas Artes

Abierta Central _II

Fig. 1.1 Esquema de interconexión de la red del campus San Cayetano de la UTPL

H nodo principal está ubicado en el edificio denominado Centro de Tranferencia de

Tecnología, en el grupo de Telecomunicaciones de la LTPSI, donde se encuentra el Switch

Principal al cual se conectan los equipos secundarios de cada edificio, y a estos se conectan los equipos para los usuarios finales.

(15)

1.2 ESTADO LÓGICO DE LA RED

La red de la UTPL se encuentra segmentada a través de redes LAN virtuales (vlan) que

permiten la interconexión de diferentes LANs separadas físicamente pero que funcionan

como una sola red de área local.

La Red LAN de la Universidad hace uso de los protocolos TCP/IP que permite la

conexión de todas las computadoras a Internet.

La arquitectura del TCP/IP consta de cuatro niveles o capas, éstas son:

ApIicacIi

Tirix»t

Red

Enlace

SMTP, Telnet, FTP, GopheL.

- TCP U D P

• IMP

[image:15.585.117.539.190.475.2]

-VUng, FDDI1X.25, Wireles Async, ATM I SNA.. Ethernet, Ta*en

Fig'. 1.2 Protocolos por capas del modelo TCP/IP

Cada capa cumple una función específica y en ellas se agrupan diversos protocolos como

los mostrados en la figura anterior.

Para determinar los protocolos IP que se utilizan en la red de la UTPL fue necesario

realizar un monitoreo preliminar del tráfico que circula por esta nueva red, el monitoreo se realizo a nivel de servidores utilizando el software NetXRay instalado en un servidor

NT de la Universidad. Los servidores y equipos que se monitorearon son:

Servidor NT. Para aplicaciones cliente servidor.

Servidor de Páginas WEB. Permite generar y trasmitir información en formato texto,

(16)

Servidor de Correo. Permite el intercambio de mensajes de usuarios entre servidores de

correo basados en Internet.

Servidor Proxy. Permite ocultar una red privada de Internet.

Servidor Dial-Up. Permite que un equipo remoto se conecte a este mediante línea

tcicfónica usando un MODFM.

Ruteador. Para la conexión con redes externas.

Durante el 8 al 19 de abril del 2002 se monitoreó el tráfico TCP/iP de los servidores de la

red LAN de la UTPJ, en el horario de 15:40 a 16:40 para obtener una muestra de los

protocolos IP que se utilizan en la red. El siguiente cuadro indica el tráfico generado por

los protocolos de Internet correspondiente al día martes 16 de abril del 2002 en el que se

obtuvo la mayor carga de dau s.

13001P 69

DNS 709072 4020

FTP 8135811 103741

Gopher 47224 36

ittp 48920243 97939

HTTPS 30738 23

ICMP 1358580 17413

IMAP 44990 33

JRC 31202 23/

LPD 34364 26

NctBios 279860 103

NFS 93668 102

FNP 73494 53

Others 734074033 53309))

1,00 15738808 25854

S\ITP 151253799 173952

SNMP 47562 35

telnet 254953 2638

11FF 40098 31

windows 39382 29

Total 9613042711 96014

u4 p4

'

[image:16.584.212.544.397.712.2]

L:H ₎

Tabla 1.1 Tráfico Internet del martes 16 de abril del 2002

(17)

CANTIDAD DE PAQUETES POR PROTOCOLO 600000

500000

400000 --

--. 300000 c.)

200000 100000

- rl n

o

rl (j)

rl

(1)11 (1 00 co(J) O (O CL —

E- z

rl

• u- Z - O

0

U-0 O - -J ri Z E- Z j

0 z O

[image:17.584.122.527.100.336.2]

Protocol

Fig. 1.3 Protocolos IP más utilizados en la red

Los datos presentados en esta tabla permiten determinar que los protocolos de Internet

más utilizados a nivel de aplicación por la red LAN de la LTTPL son los siguientes:

.- SMTP

- HTTP

'-POP

- FTP

'- OTHERS

Estos protocolos son los que serán considerados para la etapa de monitoreo y análisis del

tráfico de Internet, puesto que como se observa el resto de protocolos utilizados para

Internet generan una carga insignificante comparada con los protocolos mencionados

(18)

1.3 DESCRIPCIÓN DE LOS PROTOCOLOS

A continuación se da una breve descripción de los diferentes protocolos nombrados

anteriormente:

SMTP (Simple Mail Transfer Protocol). El correo electrónico usa el protocolo SMTP

para definir ci Formato de los mensajes y su manipulación para su entrega. SMTP es independiente del subsistema de transmisión y requiere sólo un fiable y ordenado canal de datos.

HTTP (HyperText Transfer Protocol). Es un conjunto de reglas usado para manejar la

transferencia de páginas de hipertexto en el W\X/W, está basado en el principio

cliente/ servidor. Hipertexto es texto que esta codificado usando un sistema standard

llamado: TIypertext Markup Language (HTN'ft), usado para crear links, que pueden ser

textos o gráficos.

POP3 (Post Office Protocol). El protocolo de oficina de correos es otro de los

protocolos que se utilizan para el correo electrónico, permite a un host cliente tomar el

correo que para él el servidor tiene almacenado.

FTP (File Transfer Protocol). El protocolo de transferencia de archivos permite, a

través de la red, copiar ficheros de una computadora a otra sin importar donde están

localizadas, como estén conectadas o si usan o no el mismo sistema operativo.

OTHERS. Agrupación de varios protocolos que no se detallan en la figura 1.3.

(19)

CAPÍTULO II

DETERMINACIÓN DE LA

(20)

CAPÍTULO II. DETERMINACIÓN DE LA HERRAMIENTA DE

MONITOREO

2.1 ESTUDIO DE LA HERRAMIENTA DE MONITOREO

Para el monitoreo de la red se han investigado algunas herramientas que permitan observar

como es el comportamiento de la red de la Universidad y que a su vez proporcionen los

datos necesarios para realizar el modelo del tráfico de la red.

Se buscó herramientas que trabajen bajo la plataforma linux ya que la mayoría de los

servidores y equipos con los que cuenta el grupo de Telecomunicaciones trabajan bajo este sistema operativo, además para la selección del software se consideró que la licencia y el

código sean gratuitos.

El análisis de las herramientas estudiadas es el siguiente:

a) NETXRAY

NetXRay es una herramienta que da información en tiempo real del uso de la red

basándose en los protocolos de la capa de red, corre bajo el sistema operativo Windows

NT y provee una amigable interface.

Los protocolos que se puede monitorear son IPX/SPX, TCP/IP, NetBIOS, AppleTalk,

DECnet, LAT, OSI, SNA, Banyan/Vines, Apolo y XNS. Los protocolos no listados se agrupan bajo el nombre de Otfiers. Dentro de los protocolos TCP/IP que se monitorea

están NFS, FTP, Telnet, SMTP, HYFP SNMP, X-Window, IMAP, IRC, LPD y NetBIOS.

Las opciones más importantes y con las que se trabajo son las siguientes:

Host Table: Da información estadística en tiempo real del tráfico por cada nodo de la red.

Guarda en tablas separadas información de las redes MAC, IP , IPX.

(21)

Matriz Table: Contiene información estadística y de tiempo real por cada par de nodos

de red que se comunican. Guarda información en tablas separadas por cada red MAC, IP e

IPX.

Traffic map: Da una vista rápida de los estándares de red en tiempo real. Presenta un

gráfico completo de los patrones de tráfico entre nodos.

Protocol Distribution: Da un reporte del uso de red basado en las protocolos 1CP/IP,

IPX/SPX, NetBIOS, AppleTalk, DECnet, SNA, Banyan y otros. Muestra información de los bytes y paquetes con sus respectivos porcentajes para cada uno de los protocolos.

b) ETHEREAL

Ethereal es un analizador de protocolos para Linux y UNIX que utiliza GUI, ofrece una

interfaz sencilla de utilizar y visualiza los contenidos de las cabeceras de los protocolos involucrados en una comunicación de una forma muy cómoda, se puede examinar

fácilmente los datos ya sea desde una captura en tiempo real o desde archivos de capturas

tcpdump previamente generados.

Ethereal puede realizar capturas sobre Ethernet, FDDI, PPP y Token Ring.

La ventana principal de la aplicación se divide en tres partes.

- La primera parte muestra un resumen de los paquetes capturados, como las

direcciones IP y puertos involucrados en la comunicación. Seleccionando un paquete en esta sección podemos obtener más información en las otras dos secciones de la

pantalla.

> En la parte central de la ventana se muestra cada uno de los campos de cada una de las

cabeceras de los protocolos que ha utilizado el paquete para moverse de una máquina a

(22)

podremos ver las cabeceras del protocolo 'CP, del 1P y de los que tengamos debajo de

ellos.

La tercera parte de la ventana muestra en formato hexadecimal el contenido del

paquete. Seleccionando cualquier campo en la parte central de la ventana se mostrarán

en negrita los datos correspondientes, estos son los datos reales que están viajando por

la red.

Otra de las opciones que ofrece este programa es la de seguimiento de flujos TCP (Follow

TCP Stream). Esto permite que una vez seleccionado un paquete de entre los capturados,

recuperar solo los paquetes asociados a la misma conexión del paquete seleccionado. Esta

opción es muy útil, porque el sniffer captura todos los paquetes y si en un momento dado

existen varias conexiones distintas los paquetes de todas ellas aparecerían entremezclados.

El menú principal ofrece las siguientes opciones:

File: Este submenú permite abrir, cerrar, grabar, recargar, imprimir archivos

capturados, imprimir paquetes y salir de Ethereal.

r Edit: Contiene opciones para encontrar, ir a y marcar un frame determinado, marcar

o desmarcar todos los frames seleccionados, colocar preferencias, crear y editar filtros,

activar y desactivar el análisis de protocolos editados.

Capture: Tiene opciones para empezar y parar la captura.

Display: Este submenú permite modificar las opciones de presentación de

información de los paquetes, seleccionar frames dando un valor, colorear paquetes,

expandir y reducir los frames, mostrar frames en otra ventana y descifrar ciertos paquetes como un protocolo particular.

- Tools: Tiene opciones que permiten manejar los plugins de Ethereal, mostrar todos los

segmentos TCP capturados que pertenezcan a la misma conexión TCP, muestra

información estadística, y un árbol jerárquico estadístico de los paquetes.

- Help: Contiene información acerca de Ethercal y acceso a una ayuda básica.

(23)

C) NTOP

Ntop significa Network TOP, es uno de los más completos programas de monitorizaclón

de red y es GNU. NTOP además de mostrar el uso de la red en tiempo real, permite

detectar malas configuraciones de algún equipo a nivel de servicio. Ntop puede operar en

una red tradicional o en una red Ethernet que hace uso de switches.

Los protocolos que es capaz de monitorear este software son: TCP/UDP/TCMP, (RARP,

IPX, DL(, Decnet, AppleTalk, Netbios, y ya dentro de TCP/UDP es capaz de agruparlos

por ETP, HTTP, DNS, Telnet, SMTP/POP/IMAP, SNMP, NFS, XI

NTOP provee soporte para detectar algunos problemas de configuración de red

incluyendo:

r Identificación de direcciones IP duplicadas.

.- Mala configuración del gateway.

- Mala configuración de aplicaciones software

Excesiva utilización de ancho de banda

CO

NTOP tiene dos formas de ejecutarse:

Modo Interactivo: La información es presentada en una ventana en modo texto.

Modo W eb: Permite mostrar la información a través de un navegador web en forma

remota y en tiempo real, convierte los exploradores web en consolas en las que se pueden ver y controlar las estadísticas de la red.

Las opciones que ofrece el menú principal del navegador de NTOP son:

About: Muestra una explicación del programa, así como los créditos de las

personas que lo han hecho.

(24)

r Data Rcvd, Data Sent:

Nos enseña que datos se han recibido /transmitido. Las

posibilidades para visualizarlo es agrupándolo por protocolos, por TCP/UDI, qué

cantidad se ha tratado, la actividad de cada host, y netflows.

r Stats: Es el apartado de estadísticas, que muestra información completa acerca del

estado de la red. Enseña si es tráfico unicast, o multicast, la longitud de los

paquetes, el Time To Live del paquete, y el tipo de tráfico que viaja (todo esto con

porcentajes). También saca un listado de dominios, y qué plugins se pueden activar

o desactivar.

'- IP Traffic: Da información acerca del sentido del tráfico, si va de la red local a una

red remota, o viceversa, presenta una matriz 2D que contiene información del

tráfico enviado desde y hacia un host.

IP Protos: Da estadísticas del uso, pero a nivel de red como conjunto de hosts,

presenta una la lista de sesiones TCP activas por cada host conocido.

Admin: Sirve para poder cambiar la interfaz de red, crear filtros, y un

mantenimiento de usuarios.

2.2 SELECCIÓN DE LA HERRAMIENTA

Una vez analizadas las herramientas de monitoreo se decidió trabajar con NTOP debido a las siguientes razones:

Es de código abierto lo que permite adecuarlo a las necesidades que se tenga.

r Permite trabajar en plataformas linux, esto es una gran ventaja debido a que la

mayoría de los servidores utilizados en el grupo de Telecomunicaciones corren

sobre este sistema operativo.

Permite monitorear a nivel de las capas IP, transporte y aplicación del modelo de referencia TCP/IP.

(25)

Ademis se decidió trabajar con esta herramienta porque presenta características como:

Habilidad para presentar los datos de una manera segura en una terminal basada en

texto y en un navegador web.

Soporte para SNMI.

Detección de violaciones de seguridad.

- Corre en plataformas Unix y otras como Win 32.

2.3 CONFIGURACIÓN DE EQUIPOS PARA EL MONITOREO DE LA RED

Al ser la red de la Universidad una red conmutada configurada a través de Vlans, solo se

envía el tráfico al segmento donde está la computadora a la que va dirigida la información,

lo que evita poder monitorear el tráfico de red entre computadoras que estén en segmentos

distintos al que nosotros nos encontremos. Por esta razón, surge la necesidad de configurar

el switch core CISCO 6500 debido a que a éste se conectan los equipos que dan servicio a

todo el campus universitario.

La configuración es la siguiente:

La máquina en la cuál se encuentra instalada la herramienta de monitoreo se conecta al

puerto 2 del switch core que esta configurado como puerto SPAN (Switched Port

Analyzer) algunas veces llamado puerto mirroring, con esta configuración de SPAN cada

paquete recibido o enviado por cada uno de los puertos que conforman el switch será

(26)

Fig. 2.1 Esquema de configuración puerto SPAN

En la configuración del puerto SPAN se especificaron de la Vlan 1 a la Vlan 20, que son las

que se van a monitorear y las que conforman la red local de la Universidad.

Para monitorear la red fue necesario instalar la herramienta en una máquina con las

siguientes características: Memoria de 512 M13, Pentium IV, disco de 40GB y sistema

operativo Linux RedHat 8.0, además es necesario contar con un servidor MySQL para

poder almacenar toda la información que genere este programa en una base de datos.

La toma a la que se conecta esta máquina forma parte de la \ 7 lan 1.

2.3.1 Instalación del NTOP

NTOP necesita de los siguientes paquetes para su ejecución.

GDChart: Es un programa para poder hacer gráficos.

jsQf: Es un programa para listar ficheros que están abiertos en el sistema.

nmap: Permite escanear una red de computadoras en busca de información.

(27)

lipcap: Muestra las estadísticas actuales del uso de la red.

Estos paquetes se encuentran gratuitos en el Interne?.

Una vez obtenidos los paquetes se procede a la instalación de cada uno de ellos.

El primer paso consiste en descomprimir el paquete NTOP con la siguiente instuicción:

tar —xvzf ntop-2.0.99-rc1tgz

Se crea una carpeta RC2 en la que se encuentra el paquete GDChart y el Ntop. Todos los

paquetes necesarios para el funcionamiento de la herramienta de monitoreo se instalaron

bajo el directorio: /tesis/RC2/

El proceso de instalación es el siguiente:

1. Instalar isof

tar —xvzf lsof_4.65.tar.gz

cd lsof_4.65

tar —xvf lsof_4.65_src.tar

cd lsof_4.65.src

./Configure linux

make

2. Instalar nmap

tar —xvzf nmap-2.54BETA36.tgz

cd nmap-2.54BETA36

./configure

(28)

make

make instali

3. Instalar libpcap

tar —xvzf libpcap-0.4.tar.gz

cd libpcap-0.4

./configure

make

make instali

4. Instalar GDChart

cd gdchart

./configure

cd gd-1.8.3/libpng-1.2.1

cp scripts/makefile.linux Makefile

make

cd ../../zlib-1.1.4/

• /configure

make

cd..

make

make insta11

5. Instalar NTOP

cd ntop

./configure

(29)

make

make insta!!

Para ejecutar Ntop se escribe la siguiente instrucción:

ntop —P /tesis/RC2/ -u root -w 3000 -W 3003 -i ethO -b localhost:4000

Donde:

-P /tesis/RC2/: Directorio en el que está instalado NTOP y en el cual se dejan las tablas

hash.

-w 3000: Para abrir el servidor en el puerto 3000.

u root: Especifica el usuario con el que se va a correr el programa.

-W 3003: Para abrir servidor SSL en el puerto 3003.

i ethO: Para escuchar todo el tráfico que pasa por la tarjeta de red eth0.

b localhost:4000: Donde está el programa puente para el servidor MySQL.

Ntop proporciona una lista amplia de protocolos, por lo que fue necesario filtrar los

protocolos con los que se trabajó, para ello se creó un archivo llamado "protocolos"

donde se especifica la lista de los protocolos a utilizar. Para que N'J'OP presente

información sólo de estos protocolos es necesario agregar a la línea de ejecución la

siguiente instrucción: - p protocolos.lista

NOTA: El filtrado de protocolos no significa que NTOP no monitoreará el resto de

protocolos existentes en la red, si no que los agrupará a estos dentro de la opción

(30)

El archivo protocolo.lista contiene el detalle de los protocolos de Internet que van a ser

monitoreados.

2.3.2 Creación de la base de datos NTOP

Una vez instalado el NTOP se crea la base de datos en la que se va a guardar la

información. Esta base de datos consta de cinco tablas que son:

Hosts: Contiene información de la dirección IP, dirección física, datos enviados, datos

recibidos.

Iptraffic: Especifica la dirección IP y los protocolos de Internet que se encuentran

agrupados en TCP/UDP.

NonlPTraffic: Almacena información de la dirección IP y de los protocolos que no

forman parte del Internet.

NameMapper: Almacena información de la dirección IP y el nombre de la máquina.

TCPsessions: Contiene información de las sesiones que establece cada usuario con un

servidor.

El proceso que se realizó para crear la base de datos es el siguiente:

1. Entrara mysql con:

mysqi —u root

2. Crear la base de datos con la siguiente instrucción:

mysqiadmin create NTOP

(31)

3. Cargar el archivo con extensión ".txt" que contiene la creación de las tablas que

conforman la base de datos:

mysqi NTOP <database/mySQLdefs.txt

Donde:

database:

es el directorio donde se encuentra el arcivo.txt

4. Se ejecuta el script de peri que contiene la conexión a la base de datos:

peri databas e/mySQLserver.pi &

5. Finalmente se ejecuta la herramienta de monitoreo para almacenar la información en la

base de datos:

ntop —P /tesis/RC2/ -u root -w 3000 -W 3003 -i ethO -b iocalhost:4000 —p

protocolos.lista

(32)

CAPÍTULO III

(33)

E1HNTOP

1e •oreo

CAPÍTULO III. MONITOREO DE LA RED DE LA UTPL

La primera tarea a realizar es adquirir el suficiente conocimiento del tráfico que circula por

la red para poder determinar la carga de los servicios que tiene la Universidad, el tiempo de

mayor uso de estos, en especial de los servicios o aplicaciones con los que se va a trabajar.

Para esto se ha planteado los siguientes puntos:

.- Capturar el tráfico generado en la red LAN de la UTPL.

Realizar un análisis de los datos capturados.

3.1 CAPTURA DE DATOS

Los datos obtenidos durante el monitoreo fueron tomados en el nivel de red, transporte y

aplicación. Los paquetes capturados representan todo el tráfico TCP/IP de la red LAN de

la UTPL, en la siguiente figura se representa el esquema de red ]AN a partir de la cual se

[image:33.584.119.539.515.738.2]

tomaron las medidas de tráfico.

(34)

Se realizó un monitoreo en el mes de julio del 2002 y luego en el mes de septiembre del

mismo año, con una máquina con 64 MB, se monitoreó todas las 8 Vlans que habían hasta

ese entonces, pero surgió un inconveniente por fálta de memoria RAM, teniendo que

suspender ci monitorco hasta contar con nuevos recursos hardware.

Para el año 2003 en ci que se realizó un nuevo monitoreo se consideró este inconveniente y

se incrementó la memoria RAM a 512 MB, porque además de haber aumentado el número

de Vlans también se incrementaron las aplicaciones y esto implica la aparición de nuevos

protocolos de Internet, los cuales se detallarán más adelante.

Las nuevas mediciones se realizaron durante el mes de abril del 2003 en los horarios

laborables y no laborables.

Es necesario mencionar que para el análisis de los datos los domingos no se consideran. La

jornada laborable corresponde al horario comprendido entre las 07:30 a las 12:30 y de 15:30

a 18:30, las jornadas no laborables corresponden al horario en el que el personal de la

UTPL ya no se encuentra en sus oficinas.

En la tabla siguiente se muestra un resumen de los días en los que se realizó este

nuonitorc(

Tabla 3.1 Resumen de los días de monitoreo

Durante los días del mes de abril y mayo se realizó un monitoreo a toda la red LAN de la

L1PL con lo que se importaron datos relevantes en cuanto a:

(35)

Tráfico de los protocolos más utilizados en la red.

'l'ráhco total de la red.

, Tráfico total IP.

Con los datos capturados se ha realizado un análisis del tráfico de los protocolos de

Internet que más se utilizan en la UTFL.

3.2 ANÁLISIS DE LOS DATOS

Para el análisis de los datos se consideró dos semanas de monitorco del 14 al 25 de abril del

2003, Lis medidas de tráfico fueron realizadas cada 5 minutos, se ha considerado necesario

monitorear en este lapso de tiempo para tener más exactitud en los datos.

En la gráfica siguiente se indica como se distribuye el tráfico de la red L\N. Esta muestra

fue obtenida con ayuda de la herramienta de monitoreo y corresponde a los 5 minutos pico

de la jornada de la mañana en la que hubo mayor carga en la red. Este tiempo pico

pertenece al día lunes 21 de abril de 11:27 a 11:32.

l'otal 1.8 GB 13,107,921 Pkts

IP 1raffic 1.3 GB [2,127,280 Pkts

Fragrrientcd IP Traffic 0 [0 .00 o

[image:35.584.181.484.487.706.2]

Non IP Iraffic 454.1 Ml

(36)

Como se puede observar en esta hora la mayor cantidad de tráhco corresponde a los

protocolos de Internet.

Los protocolos IP se encuentran agrupados como se muestra a continuación:

Protocol Data Data

TCP 1.3 GB

IMP 2.4 MB

IP 1.3 GB (74.9°)

ICMP 244.7 KB

Other IP 135.9 KB

(R)ARP 203.6 KB

DLC 6.3MB

IPX 24.6 KB

NctBios 415.0 MB

STP 198.3 KB

[image:36.584.143.514.244.627.2]

Other 1.3MB

Fig. 3.3 Detalle de los Protocolos IP y no IP

ln la figura anterior se puede observar que la mayor carga de tráfico es producida por los

protocolos que pertenecen a TCP.

(37)

Los 5 minutos pico de la jornada de la tarde corresponde al día martes 21 de abril desde las

17:48 a 17:53.

Total IP fraffic

Fragmented IP Traftic Non IP Traffic

[image:37.584.194.460.215.445.2]

1.3 GB 13,090,754 Pkts 1.0 GB 12,705,618 Pkts o [O .0u o 208.6 Ml

Fig. 3.4 Distribución de tráfico IP y no IP de la jornada de tarde

Este gráfico al igual que el anterior muestra que la mayor cantidad de triíico ha sido

generado por los protocolos que pertenecen a Internet.

También se realizó un análisis de la carga de trafico que se genera cada 3 minutos a partir

de las 19h00 a 21h00 donde el personal de la UTPL termina sus labores.

El día en el que se encontró mayor tráfico en la red en horas no laborables corresponde al

(38)

Total 197.0 MB L41 1,067 Pkts

IP Traffic 135.9 MB 1270,209 Pkts

Fragmented IP Traffic _o_{0.O

[image:38.584.242.418.548.729.2]

Non IP Traffic _{61.1 M}

Fig. 3.5 Distribución de tráfico IP y no IP en jornadas nocturnas

3.2.1 Análisis de los protocolos de Internet en tiempos pico

Se determinó los minutos pico donde hUI)O mayor trafico de las aplicaciones de Internet

que más se utilizan en la UTPL.

Los protocolos de Internet que mayor carga generan se encuentran agrupados dentro de

I( P/ Ll)P, como se muestra en la tabla siguiente.

Tabla 3.2 Protocolos de Internet agrupados dentro del TCP/UDP

3.4

(39)

Esta tabla corresponde al detalle de los protocolos de Internet de los 5 minutos pico de la

Jornada de la mañana del día lunes 21 de abril desde las 11:27 a 11:32. La tabla anterior se

resume en el diagrama de barras que se muestra a continuación:

c 1 L &)

E—1 Z -. U.. O)

oj

U_ F— 1 l U)

— 1Óc3O)

-o co o.

L

co o. o

D

Fig. 3.6 Protocolos de Internet que mayor carga generan en la jornada de la mañana

El diagrama muestra como en esta mañana la mayor carga de tráfico de Internet ha sido

generada por el protocolo NBios-IP que es un protocolo de uso compartido de ficheros en

Windows, que debe transportarse

entre máquinas utilizando uno de estos protocolos

TCP/IP o UDP/IP.

El detalle de los protocolos de Internet de la jornada de trabajo correspondiente a la tarde

se muestra en el diagrama de barras que se indica a continuación:

0....

= . O)

o co

1-co o.

Li

(40)

En ambas jornada de trabajo los protocolos que más se destacan son: HTTP y NBios-IP,

estos utilizan el mayor ancho de banda con respecto al resto de protocolos ya que generan

una carga considerable en comparación con los demás.

Otro de los protocolos de Internet que no aparece en estas gráficas pero que se ha

observado durante el monitoreo de la red que genera gran cantidad de tráfico es el SSH que

es utilizado en lugar de los protocolos Telnet y FTP.

Con la gráfica 3.6 y 3.7 se corroboran los resultados obtenidos en el monitoreo preliminar el cual se mencionó en el capitulo 1, con lo que coinciden algunos de los protocolos de

mayor uso.

Por tanto, los protocolos con los que se trabajará para la elaboración del modelo serán los

que pertenecen al grupo TCP/UDP.

Como podemos observar durante las dos semanas de monitoreo los protocolos HTTP y el

Nbios-IP siguen predominado con respecto al resto de protocolos.

3.2.2 Análisis del tráfico HTTP y NBios- IP en jornadas laborables y no laborables

Para el análisis de los protocolos de Internet se consideró el detalle de la cantidad de datos

enviados que presenta el software de monitoreo.

Con las muestras que se indican a continuación se podrá observar cuáles son los tiempos

picos en los que mayor tráfico T-f1TP se genera por los usuarios de la LTTI)L.

Se ha considerado trabajar con los horarios de trabajo de la mañana y la tarde, y los días no laborables para observar la diferencia en la carga de tráfico H'ITP en la red.

(41)

.1

Las gráficas siguientes muestran el comportamiento del tráfico HTTP del 23 de abril de

2003 de la jornada de la mañana.

= - 1 0 0 t 1

2 u O E

a)

07:40 - 07:45

08:36 - 08:41

O ₅ _O _O

0 0

c)

d)

[image:41.584.117.525.240.673.2]

10:11 - 10:16

12:25 - 12:30

Fig. 3.8 Tráfico TCP/IP en jornadas laborables

Durante el monitoreo se observo un similar comportamiento en ambos protocolos HITP

y Nbios-1P, por esto se consideró como muestra un día al azar de las dos semanas de

(42)

- a a

Z t! - - }_ E u 3

t o o a

o a o

z u₁ E

Conclusiones del análisis:

A partir de las 7:30 hora de entrada de la jornada de la mañana la mayor carga corresponde

al protocolo HYFP y permanece alto hasta aproximadamente unos 30 minutos, luego de

ello empieza a predominar el protocolo NBios-IP, lo que permite deducir que el tráfico de

Internet queda distribuido entre HTTP y NBios-IP entre las horas intermedias hasta llegar

a la 12:30 donde empieza a incrementar nuevamente el trMico HTTP, y disminuir el

NBios-IP, es preciso recordar que a partir de esta hora el personal administrativo de la jornada

normal de trabajo termina sus labores, pero se debe considerar que algunas personas

continúan trabajando en ciertas oficinas de la Universidad o en las salas de cómputo fuera del horario de trabajo normal.

El comportamiento de estos protocolos es similar para la jornada de la tarde donde a partir

de las 15:40 aproximadamente, empieza a distribuirse la mayor cantidad de tráfico entre los

protocolos antes mencionados, hasta que las personas que laboran en la UTPL terminan la

jornada de la tarde, donde empieza nuevamente a predominar ante todos los protocolos el HTTP como se verá continuación.

Estas muestras fueron obtenidas cada 5 minutos desde las 19:00 a las 19:30

a) _b)

18:58 - 19:03 _{19:27— 19:32}

(43)

o, . a - a a Oi

h- Z 6) - H = S

- = _-ç 1 (0 = Z U)

61 = O 01 £

U) a

-o

O

c)

21:11 - 21:16

Fig. 3.9 Tráfico TCP/IP en jornadas no laborables

De las muestras presentadas y de los datos observados durante el monitorco se puede

decir que luego de las 19:00 el protocolo 1 I'IITP empieza a subir hasta llegar a ser ci que

predomina con respecto al resto de protocolos, a diferencia del

protocolo de aplicación

NetBios-IP baja completamente su carga debido a que a partir de esta hora el personal

administrativo que son los que hacen mayor uso de los recursos compartidos en la red

ya no se encuentran laborando en sus oficinas.

3.2.3 Análisis del tráfico total

Para analizar el tráfico total que circula por la red se consideró 4 muestras, una de ellas fue

capturada el 11 de julio/2002 por un lapso de una hora, la segunda muestra es del 14 de

abril/2003 por una hora, la tercera corresponde al 17 de abril/2003 en un tiempo de 20 minutos y la última muestra corresponde al 22 de abril/2003 por un lapso de 5 minutos.

(44)

Last 60 Hinutes I4verage Throughput 270.0 260.0 250.0 118:8 220.0 210.0 200.0 170.0 160.0 W130.0 : 120.0

L 110.0

1:3

80.0 70.0 60.0 30.0 20.0 10.0 0.0

[image:44.584.136.519.168.394.2]

11,11 _MM

... .. ... ... . . ... .... . ... ... ... . .... ... . . ... ...

Fig. 3.10 Tráfico del 11 de julio de 2002 desde las 07:05 hasta las 08:05

Last 60 Minutes flverage Throughput

110.0 kbps 100.0 Kbps

90.0kbps

-i

1

-30:0 Kbp: 700Kbp 60.0 Kbp 50.0 <bp. L 40.0 kbp 30.0 <bps 20.0 Khp 10.0 kbpE

0.0khp . . . .

Fig. 3.11. Tráfico del 14 de abril de 2003 desde las 17:16 hasta las 18:16

(45)

2.4 2.2 2.1 2.0 1.9 1.8 1.6 1.5 1.4 . 1.2 50 : 1.1

1.0 39.0 36.0 33.0 30.0 27.0 24.0 . 21.0 18.0 15.0 12.0 8.0 6.0 3.0 0.0

En ambas gráficas la cantidad de tráfico generado no pasa de los Kbps, a diferencia de las

siguientes en el que el tráfico sube a los Mbps:

Last 60 Minutos fiveroge Throughput

- - Lfl LC LÇT :-L) P101 [ 1 0) )fl

Fig. 3.12 Tráfico del 17 de abril del 2003 desde las 13:43 hasta las 14:05

Si se compara esta gráfica con la anterior del mes de julio se observa que hay una gran

diferencia en cuanto al tráfico generado, considerando además que la segunda gráfica

pertenece a un horario no laborable.

Una cuarta muestra capturada corresponde a la jornada de la mañana, en la que se observa

una gran diferencia en la cantidad de tráfico con respecto a las tres gráficas anteriores.

last 60 Minutes Average Throughput

EM

(46)

Con todas estas muestras capturadas se concluye que:

Comparando las figs. 3.10 y 3.11 se ve que ambas llegan hasta los Kbps debido al

POCO ITa co que hubo en la red. Al comparar estas figuras con la 3.12 que pertenece a

20 minutos no laborables, se observa una variación en el comportamiento del tráfico.

La cantidad de tráfico que se ha generado el 17 de abril (fig 3.12) llega hasta los

Mbps, muestra que se ha generado en horas en las que el personal administrativo de la

jornada normal de trabajo de la UTPL no se encuentra laborando, en comparación

con la gráfica del 22 de abril (fig 3.13) en donde en un lapso de 5 minutos se ha

llegado a obtener hasta 30 Mhps.

3.3 VALIDACIÓN DE LOS DATOS CAPTURADOS

Para la validación se considero lo siguiente:

Se tomo un archivo de word con un tamaño de 26 KB que reside en la máquina

172.16.7.130, utilizando el SSH se lo subió al servidor 192.188.50.99 y se obtuvieron los

siguientes resultados:

Tabla 3.3 Datos recibidos utilizando el protocolo SSH

(47)

E?

Tabla 3.4 Datos enviados utilizando el protocolo SSH

En la tabla 3.3, el software de monitoreo muestra 60.8 KB para el servidor web

(192.188.50.99) que corresponde al tamaño del archivo, mas la información adicional para

su correcta transmisión como el tamaño de la cabecera del datagrama, el servidor envía una

respuesta de confirmación al usuario (172.16.7.130) con un tamaño de 10.3 13.

Al observar el detalle de los protocolos enviados, existe en el SSH el total de 71.1 KB que

es el resultado de sumar el tamaño de los datos enviados por el usuario y la respuesta del

servidor.

396.7 Kl

NS 1.3 Kl

elnet 29.9 Kl

[bios-IP 3.6 K]

MP 0.5 Kl

H _-) 71.1 Kl

.her

TCP/UDP-sed Prot. 50.3

Tabla 3.5 Resumen datos enviados por protocolos

Una manera de proporcionar una comunicación fiable es enviando una confirmación

(ACK) que es lo que realiza en este caso el servidor (192.188.50.99). Esta respuesta de

conrmación consiste en que cada vez que llega un mensaje al receptor, este devuelve una

(48)

mensaje. Si no le llega esta confirmación pasado un cierto tiempo, el emisor reenvía el

mensaje.

Otra forma de validar los datos que proporciona el software de monitoreo es utilizando el

correo electrónico, el protocolo que interviene en esta validación es el Mail. El proceso

que se realizó fue el siguiente:

Se envío un correo a la siguiente dirección mail: [email protected], con un archivo

adjunto de Excel con tamaño de 26.5 KB

El software de monitoreo presentó los siguientes resultados:

Tabla 3.6 Datos recibidos utilizando el protocolo mail

—Tráfico de1 m Datos

IP Protocolo Mail

172.16.7.130

032.69.135 3.8

Tabla 3.7 Datos enviados utilizando el protocolo mail

En la tabla 3.6 se especifica la cantidad de datos que recibe tanto la máquina que envío el

correo electrónico y el servidor que es el que recibe el mensaje, como se ve el software

muestra una cantidad de 79.6 KB que corresponde al tamaño del mensaje más la cantidad

adicional que le suma por los campos de la trama ethernet, la dirección 172.16.7.130

(49)

NMP

)ther TCP/UDP-ased Prot.

NS

elnet íBios-IP Lail

0.7 Kl 4.3 Ml 5.2 Kl 87.5 KIl 118.9 Kl 83.4 Kl 57.0 Kl

137.6

(emisor) recibe un mensaje de 3.8 KB que corresponde a la respuesta ACK de

confirmación de envío del mensaje.

En la siguiente tabla se ve que la cantidad de datos enviados por el protocolo Mail es de

[image:49.584.206.433.311.512.2]

83.4 KB que corresponde a la suma de los datos de la tabla 3.7.

(50)

CAPITULO IV

(51)

600 500 400 300 200 100 o

Oy

0.

KB

CAPÍTULO IV. CARACTERÍSTICAS DEL TRAFICO DE INTERNET

Una

vez

hecho el análisis de los datos generados en la red de la LJTPL, es necesario

determinar las características del comportamiento del tráfico capturado.

Para determinar estas características del tráhco es necesario muesftearlo y convertirlo en

una serie numérica donde los valores de la serie tienen un significado concreto que será el

tiempo del suceso y la cantidad de información. Estas series son generadas por un proceso

estocástico, entendiéndose por proceso cstocástico

il

conjunto de variables aleatorias Nt)

donde el subíndice t es el tiempo y Xt representa una característica de interés medible en el

tiempo t.

4.1 COMPORTAMIENTO DEL TRÁFICO DE LA RED LAN

En las figuras 4.1, 4.2 y 4.3 se muestra la evolución del tráfico a diferentes escalas de

tiempo (1,3 y 5 minutos). Como se ve, la forma en que se presentan las ráfigas de paquetes

en las 3 muestras son similares (comportamiento fractal).

Tráfico IP del 22 de abril

Tiempo

(52)

Tráfico IP del 22 de abril

ULO

7U0

oo-. -

-KB o:'

ul 1)

[1 -'

y • :bP a.,. .:;' . .t

[image:52.584.176.478.145.358.2]

Tiempo

Fig. 4.2 Evolución del tráfico a escalas de tiempo de 3 minutos

Tráfico IP 25 de abril

o

! ' .

A

T IwpO

Fig. 4.3 Evolución del tráfico a escalas de tiempo de 5 minutos

El término fractal o autosemejante hace referencia a la característica que tiene una serie

estudiada de mantener su estadística más o menos invariable a diferentes escalas temporales

[image:52.584.180.488.454.654.2]

(53)

de agregación (escala de tiempo obtenida a partir de una escala original). Además el tráfico

autosemejante se caracteriza por la presencia permanente de ráfagas a través de diferentes

escalas de tiempo.

Por consiguiente se ha realizado un análisis necesario para primeramente detectar

autosemejanza en el tráfico TCP/IP, y luego escoger el modelo adecuado que se adapte al

comportamiento que presenta el tráfico Internet generado por la red LAN de la

Universidad.

Para demostrar que ci tráfico es de naturaleza fractal es necesario obtener las series

agregadas para indicar que ci comportamiento es similar con respecto a la serie original.

Se trabaja con series agregadas debido a la existencia de múltiples escalas temporales de las

aplicaciones y protocolos de Internet. Con esta finalidad se define la agregación temporal

como:

(rn)

-X (k) - hm (Xkmrn+1 +...

.

+Xkm) ;

t ^

1

donde x(111 ¿

k

es el valor de la nueva serie, construida a partir de la división de x (serie

original) en bloques no superpuestos de m elementos secuenciales, es decir que se crea una

nueva serie en el tiempo obtenida por el promedio de la serie original X.

Para el cálculo de las series agregadas se tomo como serie original los datos capturados los

días 22 al 25 de abril del 2003 con una escala temporal original de 3 minutos, las series

agregadas se calcularon para un m (número de elementos secuenciales) de 2 y 3, la serie

(54)

SERIE

1 ( IM

-ME'

\r l\l Nro KIS Nro KIS Nro KB Nro KIl Nr lI1 Nm 101 Ni 101 1 380.3 21 417.9 41 356.8 61 396.8 81 684.7 101 315.1 121 591.4 141 305.i 2 452.2 22 511.9 42 564.7 62 347.0 82 558.3 102 271.2 122 350.4 142 545.5 3 483.3 23 367.6 43 270.9 63 371.5 83 594.6 103 243.1 123 860.9 143 436.1 4 924.2 24 652.3 44 333,3 64 418.7 84 648.2 104 208.6 124 249.7 144 386.8 5 939.6 25 397.5 45 290.8 65 311.0 85 932.3 105 373.3 125 300.4 145 236.4 6 206.2 26 181.0 46 265.4 66 326.9 86 682,1 106 298.7 126 362.3 146 21.7 7 256.1 27 299.0 47 261.0 67 319.4 87 360.9 107 404.1 127 283.9 147 13.3 8 304. 28 264.9 48 260.0 68 354.2 88 573.2 108 349.5 128 331.5 148 269.7 9 370.8 29 341.2 49 414.3 69 441.7 89 294.8 109 196.1 129 312.9 149 339.3 10 442.8 30 257.2 50 434.5 70 367.20 90 258.5 110 155.6 130 339.4 150 249.7 11 290.6 31 289.3 51 232.4 71 466.9 91 294.9 111 150.3 131 403.5 151 257.9 12 386.1 32 314.0 52 286.9 72 380.8 92 417.0 112 267.7 132 -100.6 152 413.8 13 271.2 33 228.0 53 331.2 73 355.8 93 296.1 113 204.4 133 279.9 153 287.4 14 418.3 34 293.2 54 34.9 74 320.5 94 438.0 114 43 2. 5 134 296.2 154 136.2 15 431.9 35 327.0 55 399.6 75 493.2 95 431.5 115 279.2 135 336.4

16 364.4 36 375.2 56 280.2 76 264.3 96 443.2 116 52 0. 2 136 278.4 17 620.9 3 325.5 57 237.8 77 309.7 97 354.7 117 370.2 137 340.7 18 579.2 38 384.0 58 180.3 78 567.0 98 171.3 118 550.6 138 374.0 19 441.6 39 276.9 59 100.2 79 730.3 99 127.7 119 452.2 139 308.3 20 410.1 -10 344.2 60 233.5 80 667.2 100 209.0 120 364.7 140 378.9

Tabla 4.1 Datos de la serie original

De la serie original se obtienen dos nuevas series llamadas series agregadas que

corresponden a un m2 y m3.

La tabla siguiente muestra los datos de las series agregadas:

(55)

- SERIES AGREGADAS

=2 in=3

1 416.25 21 460.75 6215 61 4-lo.9(

2 03.75 2 3021€ 42 621,4€ 6 555,3€ 2 6900€ 22 352.2 4: 304.13

3 5729€ 23 2781€ 43 807.2( 63 331.35 3 310.53 23 371.7667 43 309.43

4 2804€ 2 260,5€ 44 467.05 6 3072 4 373.17 24 404.9667 4- 381.17

5 4068€ 25 4244€ 45 276.65 65 326.15 5 373.8 25 389.8333 45 304.17

6 338.35 26 259.65 46 355.95 66 402.05 6 5215€ 26 380.3333 46 33 1.03

7344.75 27 339.55 47 367.05 6 288.05 7 4232€ 27 694.0667 47 330.73

8 398.15 2 339.9( 48 437.35 6€ 307.4 8 5106€ 28 600.3667 4 456.13

9 600.05 29 209.05 49 2630€ 69 357.35 9 2925€ 29 658.4333 49 209.13

10 425.85 3€ 166.85 5€ 168.35 7€ 3436€ 10 287.77 30 375.5 5€ 286.23

11 4649€ 31 3719€ 51 293.15 71 425.25 11 2771€ 31 336 51 319,7€

12 509.95 3 395,1€ 52 225.85 7 411.45 12 331,8€ 32 437.5667 51 454€

13 289.25 33 3 18.9 5 53 336,0€ 73 227.05 13 328,8€ 33 217.9

14 281.95 3 3368€ 54 376,8€ 7 221,5€ 14 421,9€ 34 265.1

15 299.2( 35 404.45 55 175.85 75 294,5€ 15 298.33 35 275

16 301.65 36 423.85 56 209,0€ 76 335.85 16 262.13 36 350.7667

17 2606€ 37 338.15 57 318.45 77 211,8€ 17 360. 37 16.3333

18 351,1€ 3 378. 7 5 58 3997€ 18 322,0€ 38 301.5333

19 354.75 39 438.35 59 460,4€ 19 305.87 39 389.8667

[image:55.584.129.531.138.532.2]

20 310.55 4€ 69€€75 60 408.45 20 17 1.33 40 455.8333

Tabla 4.2 Datos series agregadas

Con la gráhea de la serie original Fig 4.4 y las gráficas de las series agregadas Fig 4.5 y 4.6 se observa que no existe mayor diferencia en su forma, corroborando lo explicado en el

(56)

SERIE ORIGINAL

1000

800

600

400

200

o

1 14 27 40 53 66 79 92 105 118 131 144

[image:56.584.206.461.76.751.2]

Nro

Fig. 4.4 Serie original

SERIE AGREGADA m2

1000

1 6 11 16 21 2631 3641 46 51 5661 6671 76

Nro

Fig. 4.5 Serie agregada con un m 2

SERIE AGREGADA m3

800 700 600 500 400 300 200 100

o

1471013161922252831343740434649

Nro.

Fig. 4.6 Serie agregada con m 3

(57)

Del análisis anterior se ve que en todas las muestras (gráficas) el comportamiento es

similar, por lo que cumple con la condición de fractalidad.

Para comprobar que el tráfico es fractal o autosimilar es necesario:

1. Calcular la función de autocorrelación

2. Calcular el coeficiente de Hurst

4.2 ANÁLISIS DE LA FUNCIÓN DE AUTOCORRELACIÓN

"El coeficiente de correlación permite medir el grado de relación entre dos variables y

describe lo que tiende a sucederle a una de ellas si se da un cambio en la otra, éste

coeficiente varía entre 1 y —1, un valor aproximado a 1 implica una fuerte relación positiva entre las dos variables, es decir si el valor de una variable aumenta la otra debe aumentar

también, por el contrario un valor de —1 indica que si una variable aumenta el valor de la

otra disminuirá. Un coeficiente de cero indica que las dos variables no están relacionadas`.

El coeficiente de autocorrelación describe la asociación o relación mutua entre valores de la

misma variable pero en diferentes períodos.

La autocorrelación nos dice que un proceso x es autosimilar si para todo k se cumple que:

r (k) -* r(k) ; V k

Esta condición de autosimilaridad quiere decir que, la autocorrelación del proceso

agregado (serie agregada) tiene la misma forma que el proceso original (serie original). Esto

(58)

implica que ci grado de variabilidad o grado de rúfagas podría ser el mismo a diferentes

escalas de tiempo.

La función de coeficientes de autocorrelación r(k) de cierta señal Y[t] se define como:

k (Y t )(Yk

-rk=

- Y)2 Ir

Donde:

es la media de la serie yt.

k es el desfase entre las observaciones.

m es el número de elementos secuenciales.

En la tabla siguiente se incluyen los valores de los 3 primeros coeficientes de

autocorrelación correspondiente a las series original y agregadas pertenecientes a los datos

de la semana del 22 al 25 de abril.

Tabla 4.3 Autocorrelaciones de la semana del 22 al 25 de abril

(59)

Entre los coeficientes de autocorrelacion de la serie original y de las series agregadas no hay

mucha diferencia, existe una semejanza entre ellos por lo que se puede decir que si

cumple con la condición de fractalidad o autosimilaridad.

Además para comprobar esto se consideró otra muestra que corresponde a los datos de la

semana del 27 al 30 de mayo y se encontraron resultados similares a los del mes de abril. La tabla siguiente muestra el resumen:

Tabla 4.4 Autocorrelaciones de la semana del 27 al 30 de mayo

En ambas tablas se observa como el coeficiente de auto correlación va decreciendo a cero

conforme aumenta k. El análisis de la autocorrelación se lo mencionará más detalladamente

en capítulos posteriores para la identificación del modelo a utilizar.

4.3 ANÁLISIS DEL PARÁMETRO DE HURST

Otra forma de ver si ci tráfico es de naturaleza fractal es calculando el parámetro de Iiurts.

Este parámetro permite medir el grado de autosemejanza o autosimilaridad de un proceso

(60)

Para calcular ci parámetro de Hurst se lo realiza con la estimación del método R/S

denominado Rango Reescalado o análisis R/S, que fue propuesto por Hurts,

El análisis R/S se basa en la construcción de! estadístico R/S que mide el rango de las

desviaciones de las sumas parciales de una serie temporal respecto de su media, dividido

por la desviación típica de la serie. Además este método es útil para determinar la existencia

de dependencia a largo plazo como consecuencia de la tendencia que presentan las

observaciones a desviarse del valor medio durante un período de tiempo más o menos

amplio.

La fórmula que permite calcular el rango reescalado o estadístico R/S se expresa del

siguiente modo:

R/S=1=

SI,

maxi

k _- -

mini

k

n(X

-y

X

,]2

-Donde:

IX Ik

1 : Es una submuestra de tamaño k, formada por k observaciones consecutivas de la

serie.

Xk : Es la media muestral de dicha submuestra.

S:

Es la desviación estándar de la submuestra de tamaño n.

Se denomina rango y es la diferencia entre los valores máximo y mínimo de las sumas parciales de las primeras k desviaciones de cada observación de !a submuestra respecto a su

media muestral.

Para calcular el parámetro de Hurts se consideró los datos de la serie original de la muestra

del mes de abril y de mayo con lo que se obtuvo los siguientes resultados:

(61)

[image:61.585.149.501.442.596.2]

Del 22 - 25 de abril:

Tabla 4.5 Rango Reescalado

Del 27-29demayo:

Tabla 4.6 Rango Reescalado

Una

vez

calculado el rango reescalado se procede a determinar el parámetro de Hurts(H)

que

caracteriza

el comportamiento de la serie, a través de la siguiente expresión:

R

1

-

_{= an}

(62)

Esto quiere decir que el estadístico R/S es igual a una constante a multiplicada por el

número de observaciones que forman la suhmuestra elevado al exponente de Hurts.

Aplicando logaritmo natural en ambos extremos y despejando H se obtiene que:

SI,

L,( n)

En la tabla siguiente se indican los resultados obtenidos del cálculo de H para la serie

original de ambas muestras:

[image:62.584.101.522.214.661.2]

Del 22 al 25 de abril:

Tabla 4.7 Cálculo parámetro de Hurst

Del 27 al 30 de mayo:

Tabla 4.8 Cálculo parámetro de Hurst

Se observa en ambas tablas que el valor del parámetro de Hurst es mayor que 0.5 con lo

que se demuestra que existe autosimilaridad en la serie.

El valor de este parámetro permitirá elegir el modelo adecuado con que se modelara la red

de la Universidad.

[image:62.584.180.488.375.438.2]

(63)

CAPÍTULO V

(64)

CAPÍTULO V. ESTUDIO DE MODELOS DE TRÁFICO

Una vez demostrado que el tráfico Internet presenta una naturaleza auto-similar es decir

fractal, se hace el estudio de los modelos que se pueden aplicar a este tipo de tráfico.

5.1 MODELOS DE TRÁFICO

Los modelos de tráfico estudiados se clasifican de acuerdo al análisis de la función de

autocorrelación que presentan cada uno de ellos. La función de coeficientes de

autocorrelación r(k) de cierta señal Y[t] indica el grado de dependencia lineal que existe

entre una muestra Y[j+l y la k-ésima muestra anterior (Ver fórmula de la función de autocorrelación en el capítulo 4.1)

La señal Y[t] hace referencia a una variable aleatoria física que puede ser: el número de

usuarios conectados, número de bits transmitidos durante cierto intervalo, tiempo entre

paquetes, tamaño del paquete, etc. Para el presente caso se considera el número de bits

transmitidos durante cierto intervalo.

De acuerdo con la forma que el modelo impone a esta función, se puede distinguir algunos

modelos de tráfico como:

,- Modelos incorrelados

Modelos de dependencias a corto plazo

Modelos de dependencias a largo plazo

A continuación se describe brevemente cada uno de ellos, para luego determinar cuál podrá

ser el que mejor se ajuste a los datos obtenidos.

(65)

5.1. 1 Modelos incorrelados

Llamados también ruidos blancos que son una sucesión de variables aleatorias (proceso

estocástico) estadísticamente independientes, es decir que no existe ningún tipo de relación

entre las muestras. Una condición que deben cumplir para que sea ruido blanco es que: la

media sea nula, la varianza debe ser constante y debe haber una ausencia de correlación

entre lo valores correspondientes a períodos diferentes, es decir que r(k)0 para toda k O,

la media t O y la varianza cy2 <

Los modelos incorrelados han sido utilizados para modelar algunos aspectos de la

generación de tráfico como: el tiempo entre llamadas, la duración de la llamada o el tamaño

de los ficheros transmitidos.

Dentro de los modelos incorrelados se incluyen los modelos de Poisson los cuáles se

caracterizan por la ausencia de ráfagas y la baja variabilidad reflejadas en la independencia de

las muestras. La distribución de Poisson es usada para describir situaciones que

conciernen el conteo del número de veces que cierto tipo de evento ocurre en un marco

específico de oportunidades.

5.1.2 Modelos de dependencias a corto plazo

Estos modelos se caracterizan por la ausencia de correlación entre las muestras futuras y las

pasadas.

Dentro de estos modelos estn:

Los procesos markovianos: Donde la correlación viene dada por el hecho de que el

(66)

Markov se caracterizan porque poseen memoria, "Recuerdan" el último evento y esto

condiciona las posibilidades de los eventos futuros. Esta dependencia del evento

anterior distingue a las cadenas de markov de las series de eventos independientes.

- Modelos Autorregresivos: Un modelo autorregresivo es aquel que explica una

variable por su valor en uno o varios períodos anteriores más un término de error,

estableciendo una relación funcional de tipo lineal. Un modelo autorregresivo se

abrevia con la palabra AR, indicando el orden del modelo: AR(p), donde p indica el

número de observaciones retrasadas de la serie temporal analizada.

A continuación se indica un ejemplo de un modelo autorregresivo de orden uno A11(1):

yt = _{+ iYt-i +}

Donde:

yt: Variable a modelar.

yt4: Variable _{Y t}_{rezagada en un periodo es decir es el valor de y en el periodo anterior.}

, : Coeficientes a estimar.

C: Término de error (ruido blanco).

La expresión general de un modelo autorregresivo de orden p: AR(p) es el siguiente:

Yt = o + _{1 +}ct2Y2...++ _{pyt-p +}

Quedando de forma abreviada:

CVp(L) y1

=q: 0

+

Donde ctp(L) se denomina operador polinomial de retardos y se representa como sigue:

(67)

ct(L)=1-

1

L-

2

L2

-

... L

El término L es el operador retardo tal que aplicado al valor de una variable en t, de como

resultado el valor de esa misma variable en

t-1.

LY

₌_Y1

y aplicando sucesivamente p veces retarda el valor en p períodos.

LY, =

>

Modelos de Medias Móviles:

Los modelos de medias móviles permiten predecir

una variable en función de los errores observados en períodos precedentes,

convenientemente ponderados. Un modelo de medias móviles de orden q,

MA(q),

quedará definido como:

yt

= jL+ 6 + + O

2

c

2

+ ...+ _°qt-q

Donde:

Ji:

Es la media del proceso.

9q:

Puede ser positivo o negativo.

De forma abreviada:

Yt =O

q(L)Et

+ _Ji Estos modelos siempre son estacionarios.

La

estacionariedad

se da cuando: