Organización - Análisis de la distribución de las interacciones en la web

del caché en los sitios bajo análisis.

El siguiente paso ha sido analizar el estado del arte en la capa de vista, y viendo si hay o no colecciones de datos. La conclusión es que en esta capa se utilizan herramientas más sofisticadas como Google Analytics o Adobe Omniture, las cuales registran las peticiones de los usuarios. Se ha procedido a recabar datos para varios dominios, y su correspondiente análisis (ver sec- ción 2.2.2). Para poder hacer una correlación entre cliente y servidor, se han buscado juegos de datos que sean de las mismas fechas.

Finalmente, tras los análisis, con los resultados se ha procedido a parame- trizar y caracterizar los comportamientos tanto en cliente como en servidor, para en último paso, correlacionar comportamientos entre capas y extraer hechos que expliquen los comportamientos y correlaciones encontrados.

El análisis estadístico de la información en todos los casos se ha hecho con R. Se ha perseguido corrección a la hora de evaluar cada aspecto, espe- cialmente los de correlación.

1.4. Organización

El capítulo 2 se dedica al estado del arte. En este estado del arte se estudia la importancia de las caches en los sistemas de información actuales y se ilustra la importancia de las políticas de gestión. Estas políticas son dependientes del comportamiento esperado del usuario a la hora de reclamar contenidos. A continuación se justifica la singularidad de Zipf como ejemplo de powerlaw que sirve para modelar el comportamiento de estos usuarios. Se revisa la literatura al respecto para demostrar que: (1) aunque no hay una parametrización uniforme de α, existe una rango de valores que definen dicho α alrededor de 1 y que se han usado para entender el tráfico web hasta ahora; (2) que el hecho de ser una Zipf influencia en la efectividad del tipo de estrategia más utilizada por la cache. Caben varias preguntas de investigación sobre los resultados de Zipf respecto a la influencia del metodo de obtención de datos, de la perspectiva del cliente o del servidor o del impacto de la tecnología en el valor de α.

El capítulo 3 realiza un estudio empírico actualizado de la presencia de la función Zipf en las trazas de servidores de gran tráfico discutiendo el impacto de las tecnologías. El método utilizado para analizar la traza permite deter- minar una nueva parametrización actualizada del parámetro α que resulta ser aproximadamente un 50 % más de lo indicado en la literatura previa. Se realiza también un análisis de la evolución del parámetro α de Zipf a lo largo de las franjas horarias. Este análisis indica que hay una desviación estándar

8 _{Capítulo 1. Introducción}

de 0,07 sobre el alfa encontrado. Parte del estudio incluye el descartar el efecto que puedan tener bots y arañas automáticos en estos resultados.

El capítulo 4 se centra en el análisis del impacto del parámetro α en la configuración de políticas de gestión de caches. Estos resultados se contras- tan con destacados en la bibliografía con el fin de validar resultados actuales y revisar para valores de α superiores a 1 si hay conclusiones diferentes de las observadas. Esto último tiene sentido toda vez que la experiencia regis- trada era que α era aproximadamente 1. Demuestra, mediante una serie de simulaciones basadas en logs reales, qué comportamiento habría que esperar en función de α, qué política puede ser más apropiada.

El rendimiento en algunos casos es inesperado, como con RTVE que con- sigue gestionar el 90 % de las demandas con 21MB de cache. Siendo un sitio web de varios millones de accesos. Este resultado supera con creces a los encontrados en la bibliografía, y se ve explicado por el desarrollo matemático que lo predice, también desarrollado en el capítulo 4.

El capítulo 5 trata el punto de vista del cliente. Los capítulos 3 y 4 han analizado los logs de los servidores atendiendo a todos los elementos de una página (como texto, vídeos, imágenes o guiones). En este capítulo se adop- ta un enfoque distinto, revisando URLs que engloban todos los elementos anteriores. Atendiendo a estos URLs, y analizándolos con el mismo método aplicado en el capítulo 3, se determina que también estas URLs, y por tan- to el comportamiento de los usuarios a la hora de seleccionar las páginas a consumir, siguen una Zipf. Este resultado es original, ya que no hay publica- ciones que analicen las páginas web de los sites debido a que son datos que ningún webmaster publica.

La magnitud del alpha observado supera también el valor alpha identificado en el estado del arte. Esto confirma nuevamente las conclusiones del capítulo 3.

El capítulo 6 se centra en la generación de peticiones desde el lado del cliente. Se plantea si una reordenación de las peticiones en forma de URLs siguiendo otro tipo de distribuciones, como una normal, una uniforme o una Zipf con un alpha menor de 1, generan en el lado del servidor o no una Zipf con valores similares a los obtenidos experimentalmente. Los experimentos realizados indican que, con independencia de cuál sea la distribución de las URLs en el lado del cliente, siempre aparece una Zipf en servidor. La con- clusión es que hay indicios de que la Zipf no depende de cómo se hacen las peticiones desde un cliente, sino de la estructura de la página o del modo en qué se relacionan los objetos web dentre de las páginas web. Este resultado es novedoso, ya que no se ha encontrado ningún estudio ni resultado similar siguiendo el enfoque aquí descrito.

1.4. Organización 9

La tesis concluye con el capítulo 7 con las contribuciones principales y cómo se mejora el estado del arte con el trabajo realizado.

Capítulo 2

Estado del arte

En la introducción se han identificado como objetivos prioritarios el analizar la adecuación de la función Zipf para representar accesos a objetos web desde el lado del servidor y también el análisis desde el lado del cliente. En este estado del arte se aborda la literatura relacionada con ambos aspectos y justifica la necesidad de una revisión de estos resultados.

En el análisis de estas funciones Zipf es importante la motivación original, que está relacionada con las infraestructuras de sistemas de información, y más concretamente, en las cachés dentro de redes de distribución de contenidos. La relación entre cachés y Zipf ya ha sido señalada en la literatura (Al- meida et al., 1996; Breslau et al., 1999). No obstante, dado que parte de experimentación de esta tesis consiste en reproducir políticas de reemplazo en cachés bajo diferentes condiciones, es necesario explicar cómo funcionan las cachés y qué resultados arroja la literatura especializada en este ámbito. Los bancos de prueba para rendimiento de cachés son habituales. Dado que la tesis se centra en la relación entre Zipf y políticas de reemplazo de cachés, la revisión del estado del arte en este punto se centrará en estudios sobre la relación entre el espacio de trabajo y el tamaño de la caché versus el rendimiento de las políticas. Además, como se señalará en este trabajo cuando se revisen las funciones Zipf, los bancos de peticiones que se han usado en los estudios publicados sobre comportamiento de cachés atendiendo a la función Zipf son antiguos (Krashakov et al., 2006). Ello justificará la necesidad de validar las políticas de caché más habituales utilizando colecciones de datos modernas.

La distinción del objeto de estudio, bien sea objetos web o bien páginas web, hace necesario aclarar qué es cada uno en el ámbito de esta tesis. La frecuencia de aparición de uno u otro afecta a la forma de la función Zipf cuya existencia la literatura ha mostrado y que este trabajo de tesis quiere revisar

In document Análisis de la distribución de las interacciones en la web (página 32-37)