• No se han encontrado resultados

Contenido Contexto de la prueba integral: 2. Ficha técnica: 2. Objetivos de la prueba integral: 3. Objetivo general 3. Objetivos específicos 3

N/A
N/A
Protected

Academic year: 2022

Share "Contenido Contexto de la prueba integral: 2. Ficha técnica: 2. Objetivos de la prueba integral: 3. Objetivo general 3. Objetivos específicos 3"

Copied!
6
0
0

Texto completo

(1)

Contenido

Contexto de la prueba integral: 2

Ficha técnica: 2

Objetivos de la prueba integral: 3

Objetivo general 3

Objetivos específicos 3

Resultados obtenidos: 4

Conclusiones y oportunidades de mejora identificadas: 5

Planes de Acción 6

(2)

1. Contexto de la prueba integral:

Alliance Enterprise es consciente de su responsabilidad al ser proveedor crítico para sus clientes del sector financiero y sector real. De acuerdo al compromiso establecido, Alliance programó una prueba integral, para verificar su Plan de Recuperación de Desastres (DRP), su Plan de Administración de Crisis y sus esquemas de comunicación interna y externa simulando un evento de interrupción. De acuerdo a lo anterior, esta prueba se desarrolló de la siguiente forma :

2. Ficha técnica:

En la siguiente tabla, se describe el marco de ejecución de la prueba integral realizada:

Prueba

● Fecha y duración proyectada de la prueba: Del viernes 20 de Septiembre al viernes 25 de Octubre.

● Activación​: Hora de inicio: 11:13 p.m. (19 de Septiembre) a 12:50 a.m. (20 Septiembre).

● Retorno​: Hora de inicio: 9:57 p.m (24 de Octubre) a 11:37 p.m. (24 de Octubre)

● Tipo de Prueba: Prueba de Continuidad de Negocio para la activación de los siguientes planes de respuesta : Plan de Recuperación de Desastres (DRP), Plan de Administración en Crisis y Plan de Comunicación en Crisis, con flujo real de mensajería a través de la estrategia de contingencia desarrollada por Alliance Enterprise.

Productos y Servicios

● El total de los servicios SWIFT y todos los servicios de Valor Agregado Alliensoft.

Escenario simulado

● Indisponibilidad Total del Centro de Cómputo Principal (NAP de las Américas - Miami).

Alcance

● Activación total del Centro de Cómputo de Contingencia Bogotá con el Servicio Swift y Servicios de Valor Agregado Alliensoft.

Etapas

● Comunicación con los clientes:

o Identificar al personal operativo y técnico por parte del cliente para informarle sobre el desarrollo de la prueba.

o Generar estrategias de comunicación a los clientes: antes, durante y después del ejercicio.

● Aplicar los puntos de mejora producto del ejercicio anterior.

o Operar con las nuevas implementaciones en Infraestructura y mejoras en los procesos.

● Iniciar y controlar la contingencia.

● Retornar a la normalidad (dejar todos operativos en el Centro de Cómputo Principal).

● Comunicación interna y externa de la finalización de la prueba.

(3)

● Validación del Cumplimiento de los objetivos de la prueba e identificación de las oportunidades de mejora.

Criterios de Aceptación

● Disponibilidad de los Servicios SWIFT y Alliensoft en menos de 2 horas en el ambiente de contingencia (incluyendo el diagnóstico y aprobación de la activación considerando el cumplimiento de los Acuerdos de Niveles de Servicio ( SLAs) establecidos en nuestros contratos para la solución de incidentes críticos RTO= 2 Horas y RPO= 2 Horas).

● Flujo de mensajería a través del esquema contingente Bogotá por más de una semana.

Participantes

● Clientes con los servicios en contingencia.

● Comité de Contingencia y Manejo de Crisis (CCMC).

● Dirección de Servicios.

● Dirección de Plataforma Tecnológica.

● Gerencias de Administración de Servicios y Soporte.

● Dirección de Riesgos y Control.

3. Objetivos de la prueba integral:

3.1 Objetivo general

Medir y evaluar la capacidad de Alliance Enterprise para responder ante un evento que genere afectación de la infraestructura en el NAP de las Américas y que obligue a la activación de los componentes del Centro de Computo de Contingencia de Bogotá (Triara), operando del 20 de Septiembre al 24 de Octubre, en el sitio de Contingencia (Bogotá) garantizando la correcta disponibilidad de todos los servicios a todos los clientes.

Por tanto se podrían considerar en este escenario:

● Pérdida general del centro de datos principal Miami.

● Falla en los Firewalls de entrada al centro de datos de producción.

● Falla en los dispositivos de red “Switches-NIC-Routers-Etc.”.

● Falla general de componentes que soportan los servicios SWIFT y Valor Agregado.

3.2 Objetivos específicos

● Verificar las comunicaciones activas desde el lugar de producción del cliente hacia el Centro de Datos de Contingencia.

● Cumplir con el Tiempo de Recuperación Objetivo ( ​RTO – Recovery Time Objective

) menor 2 horas para el servicio SWIFT y servicios de Valor Agregado.

● Cumplir con el Punto Objetivo de Recuperación ( ​RPO – Recovery Point Objetive

) de 2 horas para el servicio SWIFT y servicios de Valor Agregado de acuerdo a la disponibilidad de información más reciente en el ambiente de contingencia. En este caso el RPO fue de “0” horas.

(4)

Probar el Plan de Recuperación de Desastres (DRP – Disaster Recovery Plan

) que contiene las actividades y estrategias de recuperación de Alliance Enterprise para asegurar la continuidad de los servicios del Service Bureau, en caso de interrupción, cumpliendo con los acuerdos de servicio establecidos con los clientes.

● Probar los Planes de Administración y Comunicación en Crisis que nos permitan tomar decisiones y generar una coordinación adecuada y oportuna, así como una comunicación asertiva al interior de nuestra compañía y con nuestros clientes.

● Capacitar al Comité de Contingencia y Manejo de Crisis, Equipo de Manejo de Incidentes, cargos críticos de la compañía y a los Clientes, en los procedimientos del Plan de Administración de Crisis, Plan de Recuperación de Desastres y Plan de Comunicación en Crisis.

● Validar las actividades documentadas en los procedimientos (por ejemplo el minutograma), la información de los cargos críticos y el árbol de llamadas de la compañía.

4. Resultados obtenidos:

Para el desarrollo del ejercicio, se realizó la simulación de un incidente de indisponibilidad que quedó registrado en nuestra herramienta Service Desk Plus, el cual serviría para realizar un diagnóstico del escenario y una solicitud al Comité de Contingencia y Manejo de Crisis para la activación de los planes respectivos según el diagnóstico.

De acuerdo a lo anterior, el Comité aprobó la activación de los planes de recuperación de desastres, así como los de Administración y Comunicación en crisis. El proceso de movilización al centro de datos de contingencia, se llevó a cabo el jueves 19 de Septiembre a las 11:13 p.m. posterior a la aprobación de la activación. El Recovery Time Objective (RTO) se calculó desde el reporte de la falla simulada establecida a las hasta la disponibilidad de los servicios de Swift Alliance Access y de los servicios de Valor Agregado de la siguiente forma:

Etapa Hora Tiempo

ejecutado Observaciones Desactivación controlada del Centro de

Cómputo Principal (Simulación de falla en el Nap de las Américas).

Hora 10:03 p.m. 1h:09 minutos.

Proceso de Desactivación controlada del NAP.

Aprobación del CCMC de la Activación del Plan de Recuperación del Desastres y comunicación a los clientes.

Hora 11:13 p.m. 1h:37 minutos RTO

Los servicios Swift y Alliensoft, estuvieron disponibles a la 12:50 a.m. del 20 de Septiembre. El tiempo transcurrido desde el reporte de la falla hasta la recuperación total de los servicios teniendo en cuenta las actividades ejecutadas, determinan el Tiempo de Recuperación Objetivo RTO:

Total RTO 1h:37 Minutos RTO

El tiempo total del RTO fue de 1 hora y 37 minutos considerado desde la declaración de la falla, hasta la disponibilidad total de los servicios Swift y Alliensoft para nuestros clientes. Lo anterior, va en línea con los acuerdos de niveles de servicio ofrecidos por Alliance Enterprise en caso de presentarse un incidente catalogado como crítico.

El Punto Objetivo de Recuperación (​RPO

) obtenido gracias a los backups incrementales y al esquema de replicación en línea, fue de “0” minutos, es decir, se contó con la totalidad de la información para los

(5)

servicios SWIFT y Alliensoft que estaba en el centro de computo de Miami, cumpliento igualmente el compromiso establecidos en los SLA’s.

Las labores de movilización y activación del centro de Cómputo de Contingencia de Bogotá, se realizaron entre 4 Administradores de Servicios, con el fin de capacitar y fortalecer el entrenamiento cruzado entre el personal.

La Gerencia de Administración de Servicios y Soporte, realizó la coordinación en la activación de los planes de respuesta DRP y Comunicación en Crisis. De igual forma, el Comité CMCC realizó su rol durante la administración de la crisis.

El equipo de plataforma tecnológica, soportó las maniobras requeridas sobre la infraestructura.

El equipo de manejo de incidentes sumado al comité de contingencia los cuales intervinieron en la toma de decisiones, activación de los planes de respuesta y retorno estaba compuesto por 18 personas de Alliance Enterprise.

Durante el día viernes 20 de Septiembre, hubo flujo de mensajería normal para los clientes realizando transacciones de forma exitosa con el apoyo y monitoreo de nuestro personal de soporte. Este día, la totalidad de nuestros clientes estuvieron en el ambiente de contingencia durante todo el día.

La contingencia duró 35 días calendario, con flujo de mensajería probando la capacidad de los servicios e infraestructura tecnológica así como la capacidad de los procesos operativos que hacen parte de este plan de respuesta. Durante las semanas planeadas en el ambiente contingencia se implementaron proyectos de infraestructura tecnológica en el ambiente de producción que buscaban, renovar, fortalecer y robustecer la disponibilidad así como la mejora del servicio.

El retorno al ambiente de producción se realizó de forma controlada el jueves 24 de Octubre y tomó 1 hora 39 minutos. El viernes 25 de Octubre todos los clientes estaban operativos de forma correcta en el ambiente de producción.

4.1 Conclusiones y oportunidades de mejora identificadas:

La prueba integral desarrollada permitió verificar el esquema de contingencia actual de Alliance Enterprise a nivel técnico y procedimental, así como el modelo de gobierno que permitiría enfrentar un incidente de crisis. Los planes de respuesta tales como Administración y Comunicación en Crisis y el DRP, fueron activados de acuerdo a los procedimientos establecidos para la ida y su retorno. Por tanto según el ejercicio realizado, se obtuvieron los siguientes resultados y oportunidades de mejora identificados:

● Los clientes tuvieron una participación total del 100% en la prueba, teniendo en cuenta la disponibilidad de los servicios desde el viernes 20 de Septiembre al jueves 24 de Octubre durante todo el día con flujo de mensajería productiva en nuestro centro alterno de contingencia de Bogotá.

● Los servicios ofrecidos Swift y Alliensoft, tuvieron una cobertura del 100% durante el tiempo en que se mantuvo la operación en el centro alterno.

● El Tiempo de Recuperación Objetivo (RTO) se cumplió antes del tiempo establecido en los acuerdos de niveles de servicio SLA’s (antes de 2 horas)

● El Punto Objetivo de Recuperación (RPO) se cumplió antes del tiempo establecido en los acuerdos de niveles de servicio SLA’s (antes de 2 horas), es decir la contingencia se realizó sin pérdida de datos.

● Nuestros clientes y el personal de Alliance Enterprise fueron capacitados y entrenados para enfrentar un incidente de acuerdo al escenario del alcance establecido.

● El fortalecimiento en la segregación de funciones en el SAA, generaron la participación de otro administrador de servicios, el cual fue incluido como personal crítico.

● Se requieren pruebas controladas con los clientes mínimo anuales, sobre sus VPN y los servicios contratados, previos a la prueba (ida a contingencia).

(6)

● Esta prueba se realizó con el backup de personal como entrenamiento cruzado en las labores operativas más críticas con resultados exitosos.

● Durante el proceso de activación de la contingencia, se identificaron actividades faltantes que hacen parte del proceso de activación y retorno.

NOTA: El presente informe fue generado de acuerdo a los tiempos contabilizados por parte de la Dirección de Riesgos y Control quienes fungen como revisores independientes con respecto a los tiempos establecidos por parte de las áreas de Administración de Servicios, Soporte y Plataforma Tecnológica para establecer el RTO de paso a contingencia y el fallback de retorno a producción. De acuerdo a los tiempos contabilizados se genera el presente informe. De igual forma se establecen con las áreas involucradas los planes de acción para la mejora del plan..

4.2 Planes de Acción

Los siguientes son planes de acción identificados que permiten fortalecer los planes de respuesta:

Plan de acción Fecha de ejecución

1. Debido al fortalecimiento de la segregación de funciones en el SAA, se requiere de la participación operativa adicional de un Administrador de Servicios dentro del esquema de personal crítico.

30 de Noviembre 2019

2. Teniendo en cuenta las nuevas actividades identificadas en el proceso de activación de la contingencia, se deben

incorporar en los documentos respectivos. 30 de Noviembre 2019

3. Es necesario adicionar en el DRP, pruebas parciales durante la verificación de las VPN de los clientes, que permitan evidenciar la operación de los servicios de forma controlada, previo al proceso de activación.

30 de Noviembre 2019

Referencias

Documento similar

Esta U.D.A. de Podología nace con la voluntad de dar respuesta a la necesidad de contribuir a la integración de conocimiento, actitudes y habilidades en la formación de

De la Salud de la Universidad de Málaga y comienza el primer curso de Grado en Podología, el cual ofrece una formación generalista y profesionalizadora que contempla

A nivel nacional la legislación básica en materia fitosanitaria se constituye en torno a la Ley 43/2002 , de 20 de noviembre, de Sanidad Vegetal , al Real Decreto 739/2021, de 24

La combinación, de acuerdo con el SEG, de ambos estudios, validez y fiabilidad (esto es, el estudio de los criterios de realidad en la declaración), verificada la

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de

La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..