Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres con VMware

(1)

Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres

con VMware

VMware vForum, 2014

(2)

Temas del programa

•

Definición del problema

•

Definiciones

•

Tecnologías de VMware que proporcionan continuidad del negocio (BC) y recuperación ante desastres (DR)

– vSphere High Availability y vSphere App HA.

– vSphere Fault Tolerance.

– vSphere Data Protection y vSphere Data Protection Advanced.

– Disponibilidad de vCenter.

– vSphere Replication.

– vCenter Site Recovery Manager.

– vCenter Infrastructure Navigator.

•

Más información

(3)

Continuidad del negocio de TI

(4)

¿De verdad es un problema?

(5)

¿Qué diferencia hay?

Prevención de

desastres

Recuperación ante

desastres

Planificado

o imprevisto

(6)

Diferencia entre recuperación ante desastres y continuidad del negocio

Ejemplo: Martes, 23 de agosto de 2011 a las 13:51, hora EDT. Terremoto de magnitud 5,8 cerca de Mineral, Virginia (EE. UU.)

¿Se necesitó la funcionalidad de recuperación ante desastres?

No

¿Se interrumpió la continuidad del negocio?

¡POR SUPUESTO!

(7)

Diferencia entre tolerancia a fallos y alta disponibilidad

•

Tolerancia a fallos

– Capacidad para recuperarse ante la pérdida de componentes.

– Ejemplo: avería de una unidad de disco duro.

•

Alta disponibilidad

Porcentaje de tiempo de actividad en un año

Tiempo de inactividad en un año

99 3,65 días

99,9 8,76 horas

99,99 52 minutos

99,999 «cinco nueves» 5 minutos

X

(8)

RTO, RPO y MTD

•

Objetivo de tiempo de recuperación (RTO)

– El tiempo que se debe tardar en realizar la recuperación.

•

Objetivo de punto de recuperación (RPO)

– Cantidad de datos que se pueden perder.

•

Tiempo de inactividad máximo tolerable (MTD)

– Tiempo de inactividad que puede transcurrir antes de que se produzcan pérdidas significativas.

– Ejemplos: económicas, de reputación.

(9)

Cómo aportar alta disponibilidad a un servicio de aplicaciones

•

vSphere HA

•

NUEVO: vSphere App HA

(10)

VMware vFabric™ tc Server

vSphere App HA ^Nuevo

Basado en políticas

Protección de aplicaciones comerciales

(11)

vSphere App HA

Clúster de vSphere HA

Dispositivo virtual de

vFabric Hyperic

Dispositivo virtual de

vSphere App HA

Agentes de Hyperic que

se ejecutan en las MV

vCenter Server

vSphere vSphere vSphere vSphere

Nuevo

(12)

vSphere App HA ^Nuevo

(13)

vSphere High Availability: aspectos importantes

•

El objetivo de tiempo de recuperación (RTO) se mide en minutos (no en segundos).

•

Requiere almacenamiento compartido.

•

Prácticas recomendadas.

– Aplicar control de admisión: política basada en porcentajes.

– Prueba de rendimiento tras un fallo mediante el modo de mantenimiento de host.

– Respuesta de aislamiento: dejar en estado encendido.

– Redundancia de red y almacenamiento.

(14)

vSphere Fault Tolerance (FT)

•

Sin tiempo de recuperación ni pérdida de datos:

– Solo para fallos de hardware de host;

– No protege contra fallos del sistema operativo y las aplicaciones.

•

Funciona bien con vSphere High Availability y vSphere App HA.

•

¿Por qué no conviene usar vSphere FT?

– Requisitos de recursos: ¿la carga de trabajo realmente lo necesita?

– La máquina virtual contiene varias CPU; consulte BCO5065 .

– No hay instantáneas de máquina virtual: se necesita un agente para copias de seguridad.

(15)

vSphere Data Protection (copia de seguridad y restauración)

•

¿Con agentes? ¿Sin agentes? ¡Las dos opciones!

– Sin agentes para la mayoría de las cargas de trabajo: es mejor simplificar.

– Agentes para determinadas aplicaciones.

•

vSphere Data Protection (VDP) Advanced

– Copia de seguridad y recuperación de VMware para VMware.

– Basado en la tecnología consolidada y probada de EMC Avamar™.

– Copia de seguridad y restauración de máquinas virtuales sin agentes.

– Agentes para protección granular de aplicaciones de nivel 1.

(16)

vSphere Data Protection ^Nuevo

(17)

vSphere Data Protection Advanced: aspectos importantes

•

Se ha diseñado para entornos de pequeña y mediana empresa.

•

Utiliza vSphere API for Data Protection (VADP): instantáneas de máquinas virtuales, función de seguimiento de bloques modificados (CBT).

•

Utiliza Windows VSS en VMware Tools.

•

Funciona bien con vSphere High Availability, no con vSphere Fault Tolerance.

•

RDM: virtual, sí; físico, no.

•

¿Sirve para la recuperación ante desastres?

– Puede ser; depende de los objetivos de tiempo y punto de recuperación.

(18)

vSphere Data Protection Advanced: aspectos importantes

•

Prácticas recomendadas

– Rellenar previamente DNS, usar siempre FQDN.

– Gestionar las instantáneas de máquina virtual.

– Evitar su implementación en almacenamiento lento.

– No apagar directamente, realizar siempre un cierre controlado del sistema.

– No programar copias de seguridad durante el intervalo de mantenimiento.

(19)

Disponibilidad de vCenter

•

Ejecutar la aplicación vCenter Server en una máquina virtual.

•

Ejecutar la base de datos de vCenter Server en una máquina virtual.

•

¿Se pueden ejecutar las dos en la misma máquina virtual?

•

Proteger mediante vSphere High Availability.

– Establecer la prioridad alta para el reinicio de vCenter y la máquina virtual de base de datos.

– Activar la supervisión de aplicaciones y sistemas operativos invitados.

•

vSphere App HA puede proteger la base de datos de SQL Server.

(20)

Disponibilidad de vCenter

•

Realizar copia de seguridad de máquina virtual y base de datos de vCenter Server.

– Copia de seguridad en el nivel de imágenes para la máquina virtual de vCenter Server.

– Copia de seguridad en el nivel de aplicaciones, mediante un agente para realizar la copia de seguridad de la base de datos.

•

¿Por qué no conviene utilizar vSphere FT para vCenter Server?

– vCenter Server requiere un mínimo de 2 vCPU.

– vSphere FT no protege contra fallos de aplicaciones.

•

¿Hay que replicar vCenter Server y sus máquinas virtuales de base

de datos?

(21)

vSphere Replication: recuperación ante desastres

•

Herramienta nativa integrada en la plataforma.

•

Replicación de hipervisor previa a la máquina virtual que se gestiona en vCenter.

Posibilidad de seleccionar el objetivo de punto

de recuperación, de 15 minutos

a 24 horas.

Posibilidad de seleccionar el almacén de datos

de destino

(independiente del tipo de disco).

(22)

Replicación entre sitios

vCenter Server

ESXi

NFC VRA

ESXi

NFC VRA ESXi

NFC VRA

Almacena miento Almacenamiento

(VMDK1)

vCenter Server

ESXi

NFC VRA

ESXi

NFC VRA ESXi

NFC VRA Dispositivo

de VR

Dispositivo de VR

Almacena miento Almacenamiento

VMDK1

vCenter Server vCenter Server

(23)

Cuatro pasos para la recuperación completa

Haga clic con el botón derecho y seleccione Recover.

Elija una carpeta de destino.

Elija un recurso de destino.

Haga clic en Finish.

Validará sus elecciones a medida que las realice.

(24)

Nueva función: retención de réplicas históricas

vSphere VR Agent

Tras la recuperación, utilice Snapshot Manager para revertir a puntos anteriores.

La retención de varios momentos específicos permite revertir

a estados correctos conocidos anteriores.

(25)

Después de la conmutación por error, se presentan varios momentos específicos (MPIT) como instantáneas de máquina virtual

Para revertir a momentos anteriores, se utiliza Snapshot Manager, una interfaz que todos los administradores utilizan sin problemas desde hace muchos años.

(26)

vSphere Replication: interoperabilidad

 vSphere FT:

no funciona con

vSphere Replication

• vSphere FT entra

en conflicto con el nivel de filtro de disco vSCSI.

 vSphere Data Protection

• En la mayoría de los casos, ¡sin problemas!

• Si utiliza VSS… es fundamental que sea la versión 5.5.

 HA, vMotion, DRS

 Storage vMotion y Storage DRS

• ¡Ya compatibles!

(27)

vSphere Replication: prácticas recomendadas

•

Objetivo de punto de recuperación (RPO)

– ¡Exclusivamente lo necesario!

– No solo porque sea posible…

•

Objetivo de tiempo de recuperación (RTO)

– ¡No lo establezca! Sin pruebas

ni automatización; proceso manual.

•

VSS: ¡exclusivamente si es necesario!

•

Consideraciones de ancho de banda

– Resulta muy complicado determinarlo.

Antes, ejecutar localmente una prueba de bucle cerrado.

•

¿RDM?

– Es preferible no utilizarlas.

Si es imprescindible, utilice opciones compatibles

con el entorno virtual.

•

Importante: no mezclar ABR

con vSphere Replication.

(28)

Site Recovery Manager (SRM)

• Motor de recuperación ante desastres.

• Herramienta que utiliza datos replicados externamente

(basados en VR o en matrices) para acortar el RTO del plan de continuidad del negocio (BCP).

• Producto que permite probar, automatizar y planificar

una recuperación ante desastres repetible y personalizable.

¿En qué consiste?

• No es un motor de replicación.

• No es una herramienta para sistemas que requieren un RPO casi instantáneo.

• No es un clúster ampliado de prevención de desastres.

¿En qué no consiste?

(29)

Componentes principales de SRM

Replicación

vCenter Server

SRM Server

 Una instancia de vCenter Server

(Windows o VCVA) por sitio, mismas versiones

 Una instancia de SRM Server por sitio, mismas versiones

 Hosts de vSphere,

recomendamos mismas versiones por sitio (antes de vSphere 5.x solo si se usa la replicación basada en matrices)

Compatibilidad con vSphere Essentials Plus y ediciones superiores

vCenter Server

(30)

Opciones de replicación de SRM

•

SRM puede utilizar TANTO la replicación basada en matrices COMO vSphere Replication.

•

SRM «verá» las máquinas virtuales independientes protegidas con

vSphere Replication.

•

Si es necesario, SRM puede instalar vSphere Replication a partir de cero.

Concentr.

LUN 2

Web Aplicación de múltiples niveles

BD Apl.

vSphere Replication

Replicación basada en almacenamiento

LUN 1

Web

BD Apl.

Aplicación de múltiples niveles

(31)

Flujos de trabajo de recuperación

• Plan de recuperación definido por el usuario.

• Minimización de errores.

Automatización de la conmutación por error

• Entorno de pruebas aislado.

• Aumento de la confianza en el proceso.

de recuperación ante desastres.

Pruebas de conmutación por error sin interrupciones

• Sin pérdida de datos.

• Migración operativa.

Migración planificada

• Nueva protección de las máquinas.

virtuales y migración inversa.

Automatización de la

conmutación por recuperación

(32)

Interoperabilidad de SRM

•

Funciona con vSphere Replication y replicación basada en matrices (ABR).

•

Acepta copias de seguridad, VADP, etc.

•

vSphere HA no presenta ningún problema en absoluto.

•

Acepta vMotion y DRS.

•

Acepta Storage vMotion y

Storage DRS, pero no siempre:

– Dependencia de la replicación

•

vSphere FT: precaución.

– Solo con la replicación basada en matrices. El estado de FT no se recupera.

•

Web y vSphere Client.

(33)

SRM: algunas prácticas recomendadas

Sin carácter exhaustivo

Se dispone de gran cantidad de material de soporte en blogs, vmware.es y sitios técnicos.

Importantes

Diseño del almacenamiento.

Configuración de la red de pruebas.

Realizar pruebas con frecuencia.

Asignar a vCenter el tamaño correcto.

La más

importante

Realizar un análisis del impacto

empresarial. RPO, RTO, coste del tiempo

de inactividad, interdependencias, carácter esencial de las

aplicaciones, prioridades, unidades de conmutación por error, factores externos pasados por alto, adopción por parte del equipo ejecutivo…

(34)

Grupos de protección (PG)

• Cuantos más PG, más granularidad de pruebas/conmutación por error

– Las pruebas de recuperación ante desastres son más fáciles, se necesitan menos recursos.

– Incluir en la conmutación por error solo lo que sea necesario.

– Más configuración/complejidad.

• Cuantos menos grupos de protección, menor complejidad

– Menos LUN, PG, planes de recuperación.

– Menos flexibilidad.

• Halle el equilibrio adecuado entre flexibilidad y simplicidad.

Menos LUN, PG Menos complejidad Menos flexibilidad

Más LUN/PG Más complejidad Más flexibilidad Combinación

adecuada de complejidad y flexibilidad Varía según el cliente

La mayoría de las

interrupciones del servicio son parciales (no afectan al centro de datos

completo): realice el diseño en consecuencia.

(35)

Red de pruebas

– Utilice una red de área local virtual (VLAN) o una red aislada para el entorno de pruebas.

• La opción predeterminada «Auto» no permite la comunicación de las máquinas virtuales entre hosts.

– En SRM, se puede especificar un conmutador virtual distinto para las pruebas que para la ejecución.

• Se especifica en el plan de recuperación.

(36)

vSphere Infrastructure Navigator

(37)

VMware: varios niveles de protección

SQL

vSphere HA/FT

Sitio A

(38)

VMware: varios niveles de protección

SQL

vSphere HA/FT VDPA

Sitio A

(39)

VMware: varios niveles de protección

SQL

vSphere HA/FT

VR/SRM

SQL

VDPA

Sitio A Sitio B

(40)

Recursos adicionales

(41)

Más información

• Participe en un laboratorio de prácticas online

• Solicite una demostración

• Instale una versión de evaluación durante 60 días

(42)

Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres con VMware