Monitorizacion de los servidores Frontier de ATLAS

(1)

Monitorizacion de los servidores Frontier de ATLAS

Julio Lozano Bahilo

¹

Nurcan Ozturk

²

, Javier Sánchez

¹

(1) IFIC València (UV-CSIC), (2) U.T. Arlington

Jornadas Técnicas del IFIC

(2)

Motivación y objetivo

Servidores Frontier:

● Optimizan el acceso a la base de datos de Condiciones (variables del detector ATLAS) de los trabajos de simulación o datos reales. Acceso balanceado y distribuido entre varios

launchpads:

– Servidor Frontier (tomcat) que gestiona la petición y la traslada al squid o a la DB

– Squid que efectúa el caching de datos

● En un 90% de las peticiones los datos se hayan en cache (no hace falta conexión con la base de datos)

● Pero en ocasiones el sistema se sobrecarga y rechaza peticiones o no las procesa adecuadamente

Monitorización de los servidores:

● Usamos los ficheros log que registran toda la información de cada petición como base para entender su rendimiento ➜ Filebeat

● Hemos de extraer la información relevante ➜ Logstash y almacenarla en un sistema adecuado

➜ Elasticsearch DB

● Es necesario disponer igualmente de herramientas de visualización que faciliten el análisis de toda esa información ➜ Kibana

● Establecemos unos parámetros que nos permiten enviar mensajes de alerta cuando los condiciones indican una saturación de algún servidor ➜ Sistema de envio de alertas

● Facilitamos herramientas para shifters ➜ Dashboard Kibana ( )

(3)

Esquema del sistema de monitorización

Usamos logstash-filter-aggregate plugin ➡ agregar información de una única petición (query)

query time, rows,

data size, ...

lock time, ...

SQL query, ...

time, taskid, pandaid, threads, ...

Filebeat : lee y transfiere lineas del fichero log

● Filtrar múltiples lineas del log y agregar informacion

● Añadimos información de las tareas de otras fuentes (Bigpanda)

Logstash : gestiona una cola con las lineas, su filtrado y envía los documentos con las variables requeridas a Elasticsearch

filtro Servidores Frontier:

CERN (10) + Lyon (4) +Triumf (3) atlasfrontier1-stash.cern.ch

(4)

Esquema del sistema de monitorización

● Construimos índice de Elasticsearch en base a los documentos (tuplas de variables) enviados por Logstash

query time, rows,

data size, ...

lock time, ...

SQL query, ...

time, taskid, pandaid, threads, ...

Indexado de documentos en una base de datos

University of Chicago atlasfrontier1-stash.cern.ch

Visualización y búsquedas a través

de página web Una instancia por servidor como

servicio de sistema

(arranca de nuevo en caso de reinicialización de la máquina)

(5)

Estadísticas

CERN: 5.53 M

Lyon: 3.82 M Triumf: 1.43 M

Frecuencia diaria

de peticiones procesadas

(periodo reciente de 20 dias)

TOTAL: 11.32 M

2018-02-13 2018-02-19 2018-02-25 2018-03-03 2018-02-13

4M 4M 8M 1M 2M 4M 8M

(6)

Dashboard

Evolución del máximo numero

de peticiones tratadas simultáneamente

Cached vs. not-cached

id’s de tareas más relevantes No-cached:

- total

- rechazadas - desconexiones

- errores de procesado

(id’s de tareas más relevantes)

http://atlas-kibana-dev.mwt2.org/goto/41558f5f9409747d3d4477f7192f90dd

(7)

Sistema de envio de alertas

●

Tarea recurrente (cron job) que ejecuta un notebook de Jupyter (Python, permite ejecución interactiva)

●

Alertas en caso de:

– Máximo número de peticiones concurrentes por encima de 400 (algo por debajo del límite establecido por los servidores)

– Número de peticiones rechazadas o con desconexión por encima de un valor límite (Suscripción a traves Google doc: https://goo.gl/forms/heIa7rWOcPIJ9iNK2)

Ejemplo:

Mensaje recibido el

24 Feb. a las 17:09

(8)

Conclusiones

Sistema completo de monitorización de servidores Frontier

●

Basado en (B)ELK (Beats, Elasticsearch, Logstash y Kibana)

●

Sistema estable que recoge información de cada una de las peticiones procesada por los servidores Frontier de CERN, Lyon y Triumf (>11M diarias)

●

Opera en tiempo real

●

Permite visualización y estudio masivo de prácticamente todos los detalles de las queries

●

Monitorizacion de los servidores Frontier de ATLAS