• No se han encontrado resultados

PROTECCIÓN DE BIG DATA

N/A
N/A
Protected

Academic year: 2021

Share "PROTECCIÓN DE BIG DATA"

Copied!
18
0
0

Texto completo

(1)

PROTECCIÓN DE BIG DATA

Soluciones de protección de datos para Hadoop y el lago de

datos empresarial

RESUMEN

La analítica de big data en las empresas está madurando rápidamente, lo que impulsa resultados del negocio transformadores para las empresas. Al mismo tiempo, las aplicaciones de big data suelen entrar en producción sin una estrategia de protección de datos sólida. Hadoop es la infraestructura de big data líder. Las empresas piden una versión de protección de datos integral para Hadoop que abarque desde el respaldo hasta la recuperación ante desastres. Este informe analiza cómo Data Domain Boost de Dell EMC for Enterprise Applications, parte de la familia de Dell EMC Data Protection Suite, proporciona la primera verdadera funcionalidad de aplicación de respaldo para Hadoop, que ofrece al administrador de Hadoop un conjunto de comandos de la CLI para ejecutar sus propias operaciones de respaldo y recuperación para el almacenamiento con protección de Data Domain. También tiene impacto sobre las opciones de protección de datos de Isilon, Networker y Elastic Cloud Storage (ECS) para respaldar otros componentes del lago de datos.

(2)

La información de esta publicación se proporciona “tal cual”. EMC Corporation no se hace responsable ni ofrece garantía de ningún tipo con respecto a la información de esta publicación y específicamente renuncia a toda garantía implícita de comerciabilidad o capacidad para un propósito determinado.

El uso, la copia y la distribución de cualquier software de EMC descrito en esta publicación requieren la licencia de software correspondiente.

EMC2, EMC y el logotipo de EMC son marcas registradas o marcas comerciales de EMC Corporation en los Estados Unidos y en otros países. Todas las demás marcas comerciales incluidas/utilizadas en este documento pertenecen a sus respectivos propietarios. © Copyright 2016 EMC Corporation. Todos los derechos reservados. Publicado en México, 10/16, informe técnico, H13932.4

EMC considera que la información de este documento es precisa en el momento de su publicación. La información está sujeta a cambios sin previo aviso.

(3)

TABLA DE CONTENIDO

RESUMEN ...5

El reto ... 5

Descripción general de la solución ... 5

INTRODUCCIÓN ...5

Público al que va dirigido ... 5

TRABAJOS EN SEGUNDO PLANO ...5

¿Qué es un lago de datos? ... 5

Hadoop es la base de la mayoría de los lagos de datos ... 6

Cloudera Enterprise ... 6

Hortonworks Data Platform ... 7

Modelos de implementación de Hadoop comunes ... 7

La protección de datos es el obstáculo para la adopción de big data de las empresas ... 8

RESPALDO Y RECUPERACIÓN DE HADOOP CON LAS SOLUCIONES DE

PROTECCIÓN DE DATOS DE DELL EMC ...9

Consideraciones específicas del respaldo de Hadoop ... 9

Descripción general del alto nivel del almacenamiento con protección de Dell

EMC Data Domain ... 9

Dell EMC DD Boost for Enterprise Applications ... 9

Puesta en funcionamiento de los respaldos de Hadoop con DD Boost for

Enterprise Applications ... 11

Beneficios de DD Boost for Enterprise Applications para Hadoop ... 12

OTRAS SOLUCIONES DE PROTECCIÓN DEL LAGO DE DATOS DE DELL EMC ... 12

Descripción general de otras soluciones de protección del lago de datos de Dell EMC ... 12

Opciones de almacenamiento de destino de Dell EMC ... 12

Descripción general del alto nivel del almacenamiento NAS de escalamiento

horizontal de Dell EMC Isilon ... 13

Descripción general de alto nivel de Dell EMC Elastic Cloud Storage (ECS) ... 13

Protección de datos de copia distribuida de Hadoop a ECS ... 13

Beneficios del uso de la protección de datos de copia distribuida de Hadoop para ECS ... 14

Descripción general de instantáneas de Isilon administradas por la administración

de instantáneas de NetWorker ... 14

Instantáneas de Isilon administradas por la administración de instantáneas de

NetWorker para Data Domain ... 14

(4)

Beneficios de usar instantáneas de Isilon administradas por NetWorker para

Data Domain ... 15

Instantáneas de Isilon administradas por la administración de instantáneas de

NetWorker para Isilon ... 15

Beneficios de usar instantáneas de Isilon administradas por NetWorker para Isilon ... 16

Instantáneas de Isilon administradas por la administración de instantáneas de

NetWorker para ECS ... 16

Beneficios de usar instantáneas de Isilon administradas por NetWorker para ECS ... 17

BENEFICIOS PARA EL CLIENTE ... 17

(5)

5

RESUMEN

La analítica de big data en las empresas está madurando rápidamente, lo que impulsa resultados del negocio transformadores para las empresas. Es cuestión de tiempo para que la analítica de big data impulse las decisiones de negocios de las empresas y, de esa manera, se convierta en la nueva aplicación de misión crítica. En la actualidad, a medida que los casos de uso de big data maduran rápidamente, suelen ingresar a producción sin una estrategia de protección de datos sólida. Los enfoques de respaldo desarrollados internamente que aprovechan las instantáneas y la replicación alcanzan sus límites frente a las expectativas de confiabilidad,

disponibilidad y capacidad de servicio de nivel empresarial que son la norma para otras cargas de trabajo. Hadoop es la infraestructura de big data líder, y el hecho de que no cuente con respaldo y recuperación ante desastres verdaderos no es algo que ignoren las empresas que usan las soluciones para proteger otras aplicaciones en su ambiente. Las empresas piden una versión de protección de datos integral para Hadoop que abarque desde el respaldo hasta la recuperación ante desastres.

Dell EMC® ha superado el reto con DD Boost for Enterprise Applications®, que forma parte de la familia de Dell EMC Data Protection Suite®, para ofrecer una aplicación de respaldo especialmente diseñada para Hadoop. Ahora, los administradores de Hadoop pueden respaldar y recuperar sus datos de Hadoop con interfaces de usuario nativas hacia y desde sistemas Data Domain®,

el almacenamiento con protección de Dell EMC líder del mercado.

EL RETO

De forma nativa, Hadoop carece de una verdadera funcionalidad de respaldo de un punto en el tiempo. A pesar de que ofrece funcionalidades de replicación e instantáneas, estas no son lo suficientemente resistentes a errores de software, datos dañados o errores humanos. La falta de funcionalidades empresariales de respaldo y recuperación ante desastres para Hadoop es un inhibidor para la adopción de Hadoop en las empresas. A medida que las aplicaciones de big data cobran más importancia, el riesgo de la pérdida de datos o tiempo muerto pasa a ser significativo para las empresas. Por lo tanto, las empresas quieren que sus datos de Hadoop estén protegidos para SLA similares como cargas de trabajo de TI generalizadas.

DESCRIPCIÓN GENERAL DE LA SOLUCIÓN

Dell EMC proporciona una estrategia de protección de datos eficaz para abordar los retos asociados con Hadoop y otros ambientes de big data. Este informe analiza DD Boost for Enterprise Applications, cuya licencia se otorga como parte de la familia de Dell EMC Data Protection Suite, y varias otras opciones de soluciones de protección del lago de datos empresarial de Dell EMC, entre ellas:

• Sistemas Hadoop desarrollados con distribuciones de Cloudera y Hortonworks y administrados mediante herramientas de línea de comandos e interfaces de usuario de administración nativas como Cloudera Manager y Hortonworks Ambari.

• Compatibilidad con clústeres de Hadoop creados con el almacenamiento DAS local o sistemas de almacenamiento compartido, como Dell EMC Isilon®.

• Uso de construcciones nativas de Hadoop e integración en el sistema de archivos de Hadoop.

• Otros productos de Dell EMC (p. ej., NetWorker®, Isilon, almacenamiento con protección de Data Domain y Elastic Cloud Storage® [ECS]) para respaldar Hadoop y otras infraestructuras de big data.

INTRODUCCIÓN

El propósito de este informe técnico es proporcionar información general sobre por qué el lago de datos y, en particular, la protección de Hadoop, es cada vez más importante, y describir las diversas soluciones de protección que Dell EMC tiene para ese fin. Este informe ayudará a los clientes a lograr altos niveles de valor comercial y eficiencia operacional con su implementación del lago de datos y sus infraestructuras de big data.

PÚBLICO AL QUE VA DIRIGIDO

Este informe técnico está dirigido a administradores de TI y Hadoop, ingenieros de sistemas, partners y miembros de la comunidad de servicios profesionales de Dell EMC que desean conocer mejor e implementar soluciones de protección del lago de datos empresarial de Dell EMC.

TRABAJOS EN SEGUNDO PLANO

¿QUÉ ES UN LAGO DE DATOS?

En términos simples, un lago de datos es un único repositorio central, que recopila datos de una amplia variedad de orígenes y, a la vez, alimenta muchas aplicaciones analíticas. Los lagos de datos están compuestos por una combinación de datos estructurados,

(6)

semiestructurados y no estructurados. Diversas aplicaciones de analítica consumen datos en este "lago", lo que permite obtener eficiencia mediante la reutilización y la coherencia de los datos. Los lagos de datos se desarrollaron a partir de los almacenes de datos empresariales (EDW), pero, a diferencia de los EDW, los lagos de datos no requieren un esquema anticipado. Gracias a esto, pueden admitir nuevas infraestructuras de analítica como Hadoop, bases de datos NoSQL, etc. que pueden analizar estos nuevos orígenes de datos. Esta flexibilidad permite a los clientes agregar fácilmente y aprovechar muchos otros orígenes de datos, gracias a lo cual pueden tomar mejores decisiones de negocios en función de sus datos.

Los lagos de datos agregan una variedad de orígenes de datos, desde las aplicaciones empresariales tradicionales hasta nuevos orígenes de datos estructurados y semiestructurados, como se ilustra en la figura 1 que aparece a continuación.

HADOOP ES LA BASE DE LA MAYORÍA DE LOS LAGOS DE DATOS

Hadoop es una plataforma de datos de código abierto para la administración de grandes volúmenes de datos desde una variedad de orígenes de datos, a escala y con velocidad. Administrado por Apache Software Foundation, Hadoop inicialmente tuvo una rápida adopción por parte de las grandes empresas web. Con el surgimiento de distribuciones compatibles comercialmente de empresas como Cloudera y Hortonworks, ahora Hadoop también está experimentando una rápida adopción en todo tipo de empresas. Hadoop se destaca en el procesamiento distribuido de grandes conjuntos de datos en los clústeres de servidores genéricos. Es especialmente bueno para procesar y analizar grandes cantidades de datos no estructurados y semiestructurados entrantes, además de los orígenes de datos estructurados tradicionales. Estas cualidades han impulsado la popularidad de Hadoop como una plataforma de analítica. Los estudios de mercado afirman que aproximadamente un 60 % de los sistemas de big data emplean Hadoop, lo que la convierte en la plataforma de big data más popular.

Muchos sistemas de big data también involucran bases de datos para datos semiestructurados y no estructurados, que en muchos casos se alimentan de datos en un sistema Hadoop (el lago de datos) y, de manera opcional, envían los resultados de vuelta al lago de datos. Por lo tanto, la mayoría de las implementaciones de lago de datos giran en torno a Hadoop.

CLOUDERA ENTERPRISE

Cloudera Enterprise (CDH), que se muestra en la figura 2 a continuación, incluye en un paquete Apache Hadoop junto con una serie de otros proyectos de código abierto y es una de las distribuciones de Hadoop comerciales populares utilizadas por las empresas. El monitoreo del clúster, la administración y las operaciones se realizan desde la interfaz del usuario de Cloudera Manager.

(7)

HORTONWORKS DATA PLATFORM

La plataforma de analítica de Hortonworks (se muestra en la figura 3 a continuación) que se basa en Apache Hadoop también es popular entre las empresas. Incluye componentes de Apache Hadoop para una amplia variedad de sistemas de analítica:

procesamiento en lotes, streaming y procesamiento en tiempo real. El monitoreo, la administración y las operaciones se realizan desde la interfaz del usuario de Hortonworks Ambari. Hortonworks también se centra en la adición de funciones de seguridad a Hadoop.

MODELOS DE IMPLEMENTACIÓN DE HADOOP COMUNES

Independientemente de la distribución, existen tres maneras comunes en las que se puede implementar Hadoop que se muestran en la figura 4 que aparece a continuación.

Figura 2: Cloudera Enterprise

(8)

LA PROTECCIÓN DE DATOS ES EL OBSTÁCULO PARA LA ADOPCIÓN DE BIG DATA DE LAS

EMPRESAS

Con la analítica de big data a punto de convertirse en la siguiente aplicación empresarial de misión crítica, las empresas exigen un nivel sólido de soluciones de recuperación ante desastres, recuperación y respaldo para sus sistemas de big data, en particular, Hadoop. Sin embargo, en la actualidad, Hadoop carece de una verdadera funcionalidad nativa de respaldo de un punto en el tiempo. A pesar de que ofrece funcionalidades de replicación e instantáneas, estas no son lo suficientemente resistentes a errores de software, datos dañados o errores humanos. A pequeña escala, en sistemas experimentales, las instantáneas y la replicación pueden ser suficientes como estrategia de respaldo y recuperación ante desastres.

Cuando las empresas hablan de poner las aplicaciones en producción, tienen expectativas específicas en cuanto a la confiabilidad, el tiempo de actividad y la capacidad de recuperación de la aplicación. Allí es donde las instantáneas y la replicación como estrategia de protección de datos ya no son suficientes. Las siguientes son algunas de las ventajas y desventajas de estos enfoques:

Ventajas Desventajas

Instantáneas • Recuperación rápida

• Brindan protección contra errores humanos

• Se incorporan en Hadoop

• Consumo de almacenamiento: consumen el almacenamiento primario costoso

• Tediosas para administrar a escala

• Se encuentran el almacenamiento primario (el mismo dominio de falla)

Replicación • Copia en otro sistema

• Se incorpora en Hadoop •• Requiere tecnologías similares No es una defensa contra errores de software, errores humanos o daños de datos

• No es una copia en un punto en el tiempo

Los objetivos fundamentales de una estrategia de respaldo son:

1. Crear una copia en un punto en el tiempo real de los datos originales en otro sistema distinto 2. Permitir que se pueda realizar la recuperación a un punto en el tiempo óptimo conocido

Como puede ver, los recursos primitivos incorporados de Hadoop no son una verdadera versión de respaldo. Las empresas que usan productos de respaldo para sus otras aplicaciones de TI se dan cuenta de esto y piden una verdadera funcionalidad de respaldo para Hadoop. Con la creciente importancia de la analítica y la dependencia de ella en la toma de decisiones de negocios, el costo del tiempo de inactividad o la pérdida de datos pueden ser significativos. Allí nace la necesidad de una funcionalidad de respaldo y recuperación para Hadoop.

(9)

RESPALDO Y RECUPERACIÓN DE HADOOP CON LAS SOLUCIONES DE PROTECCIÓN

DE DATOS DE DELL EMC

CONSIDERACIONES ESPECÍFICAS DEL RESPALDO DE HADOOP

Existen diferencias fundamentales entre el diseño de Hadoop y el de los sistemas empresariales tradicionales:

• Hadoop está diseñado para ser un sistema de escalamiento horizontal, basado en clústeres de servidores y almacenamiento genéricos, tolerante a fallas en componentes individuales. Está diseñado para procesar datos en paralelo en varios servidores o "nodos".

• El sistema de archivos Hadoop (HDFS) es un sistema distribuido por naturaleza. Los archivos almacenados en HDFS se dividen en bloques que se dispersan entre los nodos en el sistema.

• Los clústeres de Hadoop se implementan más comúnmente en los discos locales del servidor (también denominados almacenamiento DAS). Los sistemas de almacenamiento compartidos (NFS), como Dell EMC Isilon, son otra manera de implementar Hadoop, gracias a la integración nativa de Isilon con HDFS.

• HDFS ofrece alta disponibilidad mediante la replicación de cada bloque a varios nodos (por lo general, 3 veces) para brindar redundancia.

• Los sistemas Hadoop son operados y administrados por administradores dedicados. Por lo tanto, es probable que el respaldo y la recuperación de Hadoop sean responsabilidad de los administradores de Hadoop, no de los administradores de respaldo o almacenamiento.

Por consiguiente, el respaldo de HDFS requiere que la aplicación de respaldo esté integrada en HDFS y el nodo de administración del clúster (también denominado nodo de nombre). Los volúmenes de datos en HDFS pueden ser grandes, lo que requiere la transferencia de datos en paralelo para mantener las ventanas de respaldo en un tamaño razonable.

DESCRIPCIÓN GENERAL DEL ALTO NIVEL DEL ALMACENAMIENTO CON PROTECCIÓN DE DELL

EMC DATA DOMAIN

Los sistemas de almacenamiento con protección de Dell EMC Data Domain ofrecen velocidad y eficiencia líderes del sector con un rendimiento de hasta 68 TB/h, lo que permite que más respaldos se completen más rápido y que disminuya la presión sobre las ventanas de respaldo. Los sistemas Data Domain aprovechan la deduplicación de longitud variable para minimizar los requisitos de disco y garantizar que los datos lleguen a un disco ya deduplicado. Esto reduce los requisitos de almacenamiento de respaldo y archivo entre 10 y 30 veces en promedio, lo cual hace que el disco sea una alternativa rentable a la cinta. Como los datos en disco están disponibles en línea y en sitio durante períodos de retención más prolongados, las operaciones de restauración y recuperación resultan más rápidas y confiables. Esta eficiencia permite que los sistemas Data Domain protejan hasta 150 PB de capacidad lógica para datos de respaldo y archivo en un solo sistema.

Data Domain Boost (DD Boost) es una función que mejora el rendimiento del respaldo en hasta un 50 %, reduce el consumo de ancho de banda en hasta un 99 %, mejora el éxito del respaldo a través de la agregación de vínculos automática y la conmutación por error de rutas, y ofrece otras ventajas en comparación con los respaldos mediante NFS.

Los sistemas Data Domain están diseñados como el almacenamiento de último recurso, desarrollado para garantizar que pueda recuperar sus datos con confianza. La arquitectura de invulnerabilidad de datos de Data Domain está integrada en el sistema operativo de Data Domain (DD OS) para proporcionar la mejor defensa del sector contra los problemas de integridad de datos. Para obtener información adicional sobre sistemas Data Domain, consulte la Hoja de datos de Dell EMC Data Domain, El valor para el negocio de

Data Domain Boost y el Informe técnico de arquitectura de invulnerabilidad de datos de Dell EMC Data Domain.

DELL EMC DD BOOST FOR ENTERPRISE APPLICATIONS

DD Boost for Enterprise Applications está disponible como componente de la familia de Dell EMC Data Protection Suite. DD Boost for Enterprise Applications ofrece respaldo y recuperación verdaderos de punto en el tiempo de datos al almacenamiento con protección de Dell EMC Data Domain mediante el protocolo de DD Boost y utiliza a agentes de aplicación cuando se integra con las aplicaciones: Agente de aplicación de Microsoft, agente de aplicación de base de datos y agente de aplicación de Hadoop. El agente de aplicación de Hadoop se utiliza al proteger las cargas de trabajo de big data. Al aprovechar la eficiencia del almacenamiento y la confiabilidad de los sistemas Data Domain con el protocolo DD Boost eficiente en la red, DD Boost for Enterprise Applications ofrece al administrador de Hadoop un conjunto de comandos de la CLI para ejecutar su propio respaldo y recuperación.

Los puntos técnicos destacados de DD Boost for Enterprise Applications y la solución de respaldo basada en Data Domain para ambientes de Hadoop son:

• Respaldo y recuperación verdaderos de un punto en el tiempo de datos de Hadoop a un sistema Data Domain.

(10)

10

• La integración de HDFS de manera transparente funciona en la redundancia de almacenamiento de 3 vías para respaldar una copia coherente de los datos.

• Usa construcciones de Hadoop estándar (por ejemplo, MapReduce, distcp) para generar los agentes de DD Boost distribuidos para paralelizar la transferencia de datos a un sistema Data Domain.

• Eficiencia de ancho de banda de DD Boost, envía solo datos únicos por medio de la red.

• Simplicidad de administración y uso de herramientas. No es necesario implementar o administrar agentes de DD Boost individuales. El administrador de Hadoop realiza el respaldo y la recuperación desde la consola de administración de clúster de Hadoop.

• DD Boost for Enterprise Applications ofrece un conjunto de comandos de Linux para el respaldo, recuperación, búsqueda de archivos, retención, etc. Cada administrador de Hadoop puede usar fácilmente estos comandos e incorporarlos a otros flujos de trabajo.

• Las operaciones de respaldo se pueden programar y automatizar mediante Oozie.

• Registro de auditoría de cambios de configuración

La siguiente tabla ilustra los puntos destacados sobre DD Boost for Enterprise Applications para la protección de datos de Hadoop: Orígenes de respaldo Directorios de HDFS y tablas de HBase

Cloudera Manager y Hortonworks Ambari

Las políticas de respaldo pueden asociarse entre estos orígenes y un sistema Data Domain de destino.

Destino(s) de respaldo Uno o más sistemas Data Domain con licencias de DD Boost Configuraciones de

almacenamiento compatibles Almacenamiento de conexión directa (DAS) local del servidor y sistemas de almacenamiento compartidos (NAS) (por ejemplo, Dell EMC Isilon) Interfaz de usuario Aplicación de la línea de comandos de Linux

Distribuciones compatibles Cloudera Enterprise 5.4 y versiones posteriores

Plataforma de Hortonworks Data 2.2 y versiones posteriores Calendarización

y automatización Ninguno. La programación se puede realizar mediante Oozie o cron

DD Boost for Enterprise Applications requiere un mínimo de configuración y se instala solo en el nodo de nombre del clúster de Hadoop. Está estrechamente integrado en el sistema de archivos Hadoop y aprovecha la arquitectura de procesamiento distribuido de escalamiento horizontal de Hadoop para paralelizar la transferencia de datos de Hadoop al sistema Data Domain. DD Boost proporciona una transferencia de datos eficiente en la red con deduplicación en el cliente, y Data Domain proporciona eficiencia de almacenamiento mediante deduplicación y compresión. Esa combinación hace que sea el método más eficiente para transferir grandes cantidades de datos de un clúster de Hadoop a un sistema Data Domain destino. Las construcciones de Hadoop internas estándar como la copia de archivos distribuida y las instantáneas de HDFS/HBase se aprovechan para llevar a cabo las tareas.La figura 5 a continuación muestra un clúster de Hadoop con una implementación de DD Boost for Enterprise Applications.

(11)

PUESTA EN FUNCIONAMIENTO DE LOS RESPALDOS DE HADOOP CON DD BOOST FOR

ENTERPRISE APPLICATIONS

Alto nivel de aprovisionamiento y configuración del flujo de trabajo:

• Instale la aplicación en el nodo de nombre del clúster de Hadoop.

• Aprovisione uno o más sistemas Data Domain (destinos de respaldo). Los sistemas Data Domain existentes que respaldan otras cargas de trabajo también pueden recibir respaldos de DD Boost for Enterprise Applications, siempre que se ejecuten en DD OS 6.0 y versiones posteriores.

• Los sistemas Data Domain de destino deben tener una o más unidades de almacenamiento aprovisionadas para que reciba los flujos de respaldo de DD Boost for Enterprise Applications.

• La autenticación de Kerberos (si está habilitada en el clúster de Hadoop) debe estar habilitada en este momento.

Flujos de trabajo de operaciones de respaldo y recuperación de alto nivel:

• Un directorio de HDFS o una tabla de HBase que se respaldará asociado a un sistema Data Domain de destino y una unidad de almacenamiento donde se almacenarán los respaldos. Este es el paso de aprovisionamiento de respaldo.

• Las características de tiempo de retención también se especifican cuando se aprovisionan los respaldos.

• De manera opcional, también puede especificar un sistema Data Domain secundario (o remoto) que recibirá los respaldos replicados del sistema de respaldo de Data Domain primario.

• Una vez aprovisionado, el comando de respaldo respaldará el directorio de HDFS o la tabla de HBase a la unidad de almacenamiento y el sistema Data Domain aprovisionado. El proceso de respaldo utiliza instantáneas de HDFS en el transcurso de su trabajo, por lo tanto, asegúrese de que las instantáneas están habilitadas para que los directorios o tablas se respalden.

• Cuando se requiere una restauración, se puede enumerar el catálogo de respaldo en el sistema Data Domain de destino con los comandos de enumeración de respaldos para seleccionar el punto de restauración. El comando de restauración se utiliza para restaurar el directorio de HDFS o la tabla de HBase de interés de regreso al HDFS.

• Debido a la integración de HDFS, los respaldos se ejecutan como trabajos DistCp de HDFS al sistema Data Domain, y los trabajos de restauración son trabajos DistCp en la dirección inversa. Una diferencia importante es que este proceso se ejecuta de forma transparente en segundo plano sin que el usuario tenga que administrar alguna parte de este proceso.

• Los respaldos y las restauraciones aprovechan internamente DD Boost, con sus beneficios exclusivos de la deduplicación, el grupo de interfaces dinámicas y el cifrado del protocolo TLS.

El conjunto de comandos para la protección de Hadoop incluye:

Configuración de

Data Domain • Agregar/eliminar el sistema Data Domain Navegación por la configuración

• Probar la conectividad del sistema Data Domain Aprovisionamiento

de respaldo • Asociar un directorio HDFS o de la tabla de HBase de origen con un destino de Data Domain

• Establecer la hora de retención

• Establecer el sistema de destino de Data Domain (fuera del sitio) secundario

Respaldo • Respaldar el directorio de HDFS/la tabla de HBase

• Respaldar la configuración del recurso maestro Restauración • Restaurar el directorio de HDFS/la tabla de HBase

• Restaurar un subdirectorio del respaldo

• Restaurar la configuración del recurso maestro Búsqueda de

archivos • Búsqueda de subdirectorios/archivos en el respaldo Búsqueda en el respaldo mediante expresiones regulares Administración de la

retención • Cambiar la retención absoluta Cambiar la retención relativa

Vencimiento

(12)

Lista de respaldos • Mostrar un respaldo único

• Enumerar respaldos por [filtro de intervalo/fecha]

• Configuración de lista Eliminación • Eliminar un solo respaldo

• Eliminar respaldos por [filtro de intervalo/fecha]

Kerberos

Habilitar/deshabilitar la autenticación de Kerberos

BENEFICIOS DE DD BOOST FOR ENTERPRISE APPLICATIONS PARA HADOOP

DD Boost for Enterprise Applications proporciona una verdadera solución de respaldo y recuperación para datos de Hadoop. El respaldo y la recuperación son administrados por los administradores de Hadoop desde las herramientas de administración

de clústeres, mediante las herramientas nativas de Hadoop. Es un flujo de trabajo de respaldo centrado en la aplicación y, por lo tanto, es una curva de aprendizaje fácil. La experiencia general es del uso de una aplicación de respaldo, en lugar de administrar

instantáneas o administrar la replicación mediante scripts personalizados.

La integración profunda con HDFS permite que se utilicen construcciones y herramientas estándar de Hadoop, como MapReduce, Yarn y distcp, para respaldar y recuperar datos desde y hacia Data Domain.

DD Boost proporciona una transferencia de datos eficiente en la red con deduplicación en el cliente, y Data Domain proporciona eficiencia de almacenamiento mediante deduplicación y compresión. Esa combinación hace que sea el método más eficiente para transferir grandes cantidades de datos de un clúster de Hadoop a un sistema Data Domain destino. Por otro lado, el usuario no es responsable de administrar agentes Boost o los montajes de NFS de forma individual, lo que mejora la facilidad de uso. La

administración de agentes de manera individual por nodo no es una estrategia escalable para sistemas de escalamiento horizontal, como Hadoop.

OTRAS SOLUCIONES DE PROTECCIÓN DEL LAGO DE DATOS DE DELL EMC

DESCRIPCIÓN GENERAL DE OTRAS SOLUCIONES DE PROTECCIÓN DEL LAGO DE DATOS DE DELL

EMC

Dell EMC ofrece varias opciones de solución para la protección del lago de datos empresarial: Instantáneas de Isilon administradas por la administración de instantáneas de Dell EMC NetWorker para implementaciones de almacenamiento compartido y Dell EMC Elastic Cloud Storage. Estas soluciones se ilustran en la figura 6 a continuación y se explican más detalladamente durante el resto de este informe.

OPCIONES DE ALMACENAMIENTO DE DESTINO DE DELL EMC

Como se describe más detalladamente en los párrafos siguientes, las soluciones de protección del lago de datos empresarial de Dell EMC, que se muestran en la figura 6, pueden aprovechar Dell EMC Data Domain, Dell EMC Isilon o Dell EMC Elastic Cloud Storage (ECS) como almacenamiento de destino en función de una serie de factores que incluyen la accesibilidad, la eficiencia del

(13)

almacenamiento y las necesidades de capacidad. Los sistemas Data Domain son ideales para las cargas de trabajo que tienen una buena deduplicación (bases de datos, archivos, etc.) y ofrecen ahorros de almacenamiento a través de la compresión y deduplicación de longitud variable líder del sector. Isilon es una buena opción para los conjuntos de datos que no tienen una buena deduplicación (video, voz, etc.) y proporciona almacenamiento eficiente y rentable desde un solo sistema. ECS es una buena opción para cargas de trabajo de objetos en la escala de nube (Exabytes).

DESCRIPCIÓN GENERAL DEL ALTO NIVEL DEL ALMACENAMIENTO NAS DE ESCALAMIENTO

HORIZONTAL DE DELL EMC ISILON

Las soluciones de almacenamiento de escalamiento horizontal de Dell EMC Isilon están diseñadas para las empresas que deseen administrar sus datos, no su almacenamiento. Los sistemas de almacenamiento de Isilon son eficientes y fáciles de instalar, administrar y escalar a prácticamente cualquier tamaño. Y, a diferencia del almacenamiento empresarial tradicional, las soluciones Isilon conservan su simplicidad sin importar la cantidad de capacidad de almacenamiento agregada, el rendimiento requerido ni los cambios futuros en las necesidades del negocio. Isilon reta a las empresas a considerar su almacenamiento de una manera diferente porque, cuando lo hagan, se darán cuenta de que, con Dell EMC Isilon, existe una alternativa mejor y más simple.

Gracias a la exitosa combinación del original sistema operativo Isilon OneFS, el hardware de alto rendimiento estándar en el sector y un eficiente software de administración de almacenamiento y datos, Isilon ofrece un portafolio completo de soluciones de

almacenamiento innovadoras que impulsan el valor del negocio para los clientes, pues permite optimizar aplicaciones, flujos de trabajo y procesos de misión crítica. El almacenamiento de Isilon permite a las empresas y organizaciones de investigación de todo el mundo administrar grandes cantidades cada vez mayores de datos de una forma altamente escalable, fácil de administrar y rentable. Cada solución Isilon está diseñada para acelerar la productividad del flujo de trabajo y reducir los gastos operacionales y de capital, a la vez que se escala sin inconvenientes el almacenamiento de forma paralela al crecimiento de los datos de misión crítica. Para obtener información adicional sobre Isilon, consulte la Hoja de datos de Dell EMC Isilon.

DESCRIPCIÓN GENERAL DE ALTO NIVEL DE DELL EMC ELASTIC CLOUD STORAGE (ECS)

Los clientes buscan continuamente arquitecturas más eficientes para administrar el crecimiento de hiperescala actual. El nuevo Elastic Cloud Storage (ECSTM) Appliance, con tecnología de Dell EMC ViPR®, proporciona una infraestructura de almacenamiento de hiperescala completa que está diseñada para cumplir con los requisitos de las aplicaciones modernas. Independientemente del tamaño de su organización, ECS Appliance le permite ofrecer servicios de almacenamiento de nube competitivos y crecer fácilmente. ECS Appliance ofrece el perfil de costos, la simplicidad y la escala de los servicios de nube pública a cualquier organización, con la confianza, la responsabilidad y el soporte que espera de Dell EMC. El ECS Appliance ayuda a que:

• Los científicos de datos aceleren las iniciativas de big data

• Los proveedores de nube presten servicios competitivos de almacenamiento de nube a escala

• Las empresas y los desarrolladores de software aceleren el desarrollo

ECS Appliance permite a empresas de cualquier tamaño aprovechar el almacenamiento de hiperescala y los ahorros de la nube combinando la eficiencia de ViPR con una plataforma de hardware genérico de escalamiento horizontal, bajo costo y alta densidad. ECS Appliance está disponible en diversos factores de forma que pueden implementarse y expandirse de manera incremental, de modo que cada cliente pueda elegir el tamaño adecuado para sus necesidades inmediatas y su crecimiento proyectado. Ahora los clientes pueden optimizar su solución según sus necesidades de aplicaciones y de acceso, lo cual les brinda la flexibilidad y el control que desean. Para obtener más información sobre Elastic Cloud Storage, consulte la Hoja de datos de Dell EMC ECS.

PROTECCIÓN DE DATOS DE COPIA DISTRIBUIDA DE HADOOP A ECS

Esta sección proporciona más detalles sobre el aprovechamiento de la utilidad de copia distribuida (DistCp) nativa diseñada en HDFS (sistema de archivos de Hadoop) para el respaldo de la restauración de datos desde un lago de datos de almacenamiento

y procesamiento integrados a un Elastic Cloud Storage Appliance en las instalaciones.

Los clientes elegirán usar ECS como el almacenamiento de destino para esta solución teniendo en cuenta los 3 factores principales: 1. ¿Ya sabe que sus datos no obtendrían ahorros considerables de almacenamiento de la deduplicación de longitud variable

y la compresión que pueden proporcionar los sistemas Data Domain? 2. ¿Necesita la hiperescala que proporciona ECS? (Exabytes)

3. ¿Necesita accesibilidad de objetos/HDFS?

DistCp (copia distribuida) es una herramienta estándar que se incluye con todas las distribuciones y versiones de Hadoop que pueden utilizarse para copiar todos los directorios de Hadoop. DistCp se ejecuta como un trabajo de MapReduce para realizar copias de archivos en paralelo, utiliza por completo sus sistemas si así lo desea. También hay una opción para limitar el ancho de banda a fin de controlar el impacto en otras tareas.

(14)

Esta solución puede utilizarse de 2 formas diferentes.

1. Un enfoque toma una instantánea de HDFS desde la aplicación de Hadoop y la mueve mediante DistCp al almacenamiento de destino.

2. El segundo enfoque utiliza DistCp directamente en el almacenamiento de destino. La ventaja del primer enfoque es que la aplicación se libera después de que finaliza la instantánea.

En este escenario de protección del lago de datos, el administrador de Hadoop utiliza DistCp para realizar respaldos completos con NFS por Ethernet para un ECS Appliance en las instalaciones.

El método estándar para restaurar un respaldo DistCp de ECS a la infraestructura de Hadoop tradicional es ejecutar DistCp en la dirección inversa. Esto se realiza simplemente mediante un intercambio de las rutas de origen y destino. Puede realizar restauraciones completas o parciales, y las restauraciones pueden dirigirse a la ubicación original o una ubicación alternativa.

Los clientes tienen la opción de aprovechar la replicación de ECS a un ECS Appliance diferente instalado en un segundo sitio para una protección de recuperación ante desastres adicional. Las restauraciones de DistCp entonces se pueden realizar desde el segundo sitio de ECS Appliance para la recuperación ante desastres.

BENEFICIOS DEL USO DE LA PROTECCIÓN DE DATOS DE COPIA DISTRIBUIDA DE HADOOP

PARA ECS

Los clientes verán los importantes beneficios de la protección del lago de datos de copia distribuida para Elastic Cloud Storage. En primer lugar, y lo más importante, esta solución de protección del lago de datos empresarial proporciona protección de datos contra pérdida o daños de nivel empresarial para Hadoop. Esta solución también proporciona la visibilidad directa del administrador de Hadoop y el control sobre la protección del lago de datos.

ECS Appliance permite a empresas de cualquier tamaño aprovechar el almacenamiento de hiperescala y los ahorros de la nube combinando la eficiencia de ViPR con una plataforma de hardware genérico de escalamiento horizontal, bajo costo y alta densidad. ECS Appliance puede implementarse y expandirse de manera incremental, para que pueda elegir el tamaño adecuado para sus necesidades inmediatas y su crecimiento proyectado. ECS le permite optimizar su solución de protección del lago de datos en función de sus aplicaciones, requisitos de almacenamiento y necesidades de acceso, lo que le brinda la flexibilidad y el control que desea. Si un cliente ya utiliza Elastic Cloud Storage para otras necesidades, entonces los mismos procesos y conocimientos pueden aprovecharse para la protección del lago de datos.

DESCRIPCIÓN GENERAL DE INSTANTÁNEAS DE ISILON ADMINISTRADAS POR LA ADMINISTRACIÓN

DE INSTANTÁNEAS DE NETWORKER

Las instantáneas de Isilon administradas por la administración de instantáneas de NetWorker, que se muestra a la derecha en la figura 6, se aplican a las implementaciones del lago de datos donde el procesamiento y el almacenamiento están separados y la capa HDFS se está ejecutando en el almacenamiento compartido. Dado que utiliza almacenamiento compartido, los clientes pueden aprovechar todas las funcionalidades de administración de datos que están incorporadas en esa capa de almacenamiento. Esto significa que los clientes pueden aprovechar la funcionalidad de instantáneas de Isilon administradas por NetWorker y también pueden realizar las transferencias al almacenamiento con protección de Data Domain. Una transferencia se refiere a la ejecución de un respaldo de una instantánea para un dispositivo de almacenamiento con protección secundario mediante NDMP. Por lo general, esto se realiza cuando la retención más prolongada de datos es un requisito.

INSTANTÁNEAS DE ISILON ADMINISTRADAS POR LA ADMINISTRACIÓN DE INSTANTÁNEAS DE

NETWORKER PARA DATA DOMAIN

Esta sección proporciona más detalles sobre el aprovechamiento de la administración de instantáneas de EMC NetWorker para la protección del lago de datos en implementaciones donde el procesamiento y el almacenamiento están separados y la capa HDFS se está ejecutando en el almacenamiento de Isilon. Dado que utiliza almacenamiento compartido de Isilon, puede aprovechar todas las funcionalidades de administración de datos de Isilon que están incorporadas en la capa de almacenamiento. En este escenario de protección del lago de datos, NetWorker administra las instantáneas de Isilon que luego se transfieren a un sistema de

almacenamiento de Data Domain en las instalaciones.

Los clientes elegirán usar sistemas Data Domain como el almacenamiento con protección de destino para esta solución teniendo en cuenta los 3 factores principales:

1. ¿Se beneficiarán sus datos de la deduplicación de longitud variable de Data Domain y los beneficios del almacenamiento de compresión?

2. ¿Cumple la escalabilidad del almacenamiento de Data Domain con sus necesidades? (Terabytes) 3. ¿NFS cumple con sus requisitos de accesibilidad?

(15)

El administrador de NetWorker puede definir una política para automatizar el proceso de protección de datos, incluido el inicio de una instantánea en el sistema Isilon del lago de datos y, a continuación, una ejecución de una actualización de esa instantánea con el servidor de cintas NDMP por Ethernet para un sistema Data Domain en las instalaciones. El sistema Data Domain recopila los datos de la instantánea y realiza la compresión y deduplicación de longitud variable.

NetWorker mantiene catálogos para todos los respaldos, instantáneas y clones, lo que hace que las restauraciones para esta solución de protección del lago de datos sean simples y directas. NetWorker también puede administrar la retención de instantáneas. Para realizar una restauración, el administrador de NetWorker puede simple y rápidamente restaurar desde la instantánea inicial, o puede seleccionar uno de los savesets de respaldo de NDMP que se transfirieron al sistema Data Domain y, a continuación, restaurarlo en el sistema primario de Isilon con NDMP por Ethernet. La restauración a partir de la instantánea ofrece el beneficio de un RTO más rápido, mientras que la recuperación desde el respaldo en un Data Domain proporciona un acceso rápido a RPO más largos. NetWorker puede realizar restauraciones completas o parciales, y las restauraciones pueden dirigirse a la ubicación original o una ubicación alternativa en el mismo dispositivo.

Los clientes tienen la opción de aprovechar la replicación controlada de NetWorker a un sistema Data Domain independiente instalado en un segundo sitio para una protección de recuperación ante desastres adicional. Entonces, se podrían realizar restauraciones de NetWorker desde el sistema Data Domain del segundo sitio para recuperación ante desastres.

BENEFICIOS DE USAR INSTANTÁNEAS DE ISILON ADMINISTRADAS POR NETWORKER PARA DATA

DOMAIN

Los clientes obtendrán los beneficios importantes de la administración de NetWorker de instantáneas de Isilon para la protección del lago de datos para un sistema Data Domain. En primer lugar, y lo más importante, esta solución de protección del lago de datos empresarial proporciona protección de datos contra pérdida o daños de nivel empresarial para Hadoop y RTO superiores.

La administración de instantáneas de NetWorker simplifica el proceso de protección de datos mediante la automatización de las instantáneas del arreglo y las transferencias a Data Domain. Esta solución de protección de datos proporciona múltiples opciones de recuperación, incluida la recuperación desde la instantánea inicial y desde savesets de transferencia en el almacenamiento con protección de Data Domain.

La arquitectura de invulnerabilidad de datos de Data Domain proporciona la mejor protección de datos en su clase, lo que garantiza que se pueden recuperar datos desde su lago de datos cuando sea necesario y que los datos pueden ser confiables. Los sistemas Data Domain proporcionan eficiencia del almacenamiento a través de la deduplicación de longitud variable y la compresión, lo que por lo general reduce los requisitos de almacenamiento entre 10 y 30 veces. Los sistemas Data Domain también son muy rápidos, capaces de recopilar hasta 68 TB/h de datos, lo que minimiza el tiempo que demora en completar respaldos de protección del lago de datos. Si el cliente ya usa sistemas NetWorker o Data Domain para otras necesidades de protección de datos, entonces los mismos procesos y conocimientos pueden aprovecharse para la protección del lago de datos. Y, por último, NetWorker se puede aprovechar para administrar la replicación de Data Domain eficiente de ancho de banda a un sistema Data Domain en un segundo sitio para recuperación ante desastres opcional.

INSTANTÁNEAS DE ISILON ADMINISTRADAS POR LA ADMINISTRACIÓN DE INSTANTÁNEAS DE

NETWORKER PARA ISILON

Esta sección proporciona más detalles sobre el aprovechamiento de la administración de instantáneas de Dell EMC NetWorker para la protección del lago de datos en implementaciones donde el procesamiento y el almacenamiento están separados y la capa HDFS se está ejecutando en el almacenamiento de Isilon. Dado que utiliza almacenamiento compartido de Isilon, puede aprovechar todas las funcionalidades de administración de datos de Isilon que están incorporadas en la capa de almacenamiento. En este escenario de protección del lago de datos, NetWorker administra las instantáneas de Isilon que luego se replican a un sistema de

almacenamiento de Data Domain en las instalaciones.

Los clientes elegirán usar las instantáneas de Isilon y replicar la protección para esta solución teniendo en cuenta los 4 factores principales:

1. ¿Ya sabe que sus datos no obtendrían ahorros considerables de almacenamiento de la deduplicación de longitud variable y la compresión que pueden proporcionar los sistemas Data Domain?

2. ¿Es posible para proteger la cantidad de datos que se deben proteger dentro de las ventanas de respaldo asignadas? 3. ¿Cumple la escalabilidad de almacenamiento de Isilon con sus necesidades? (Petabytes)

4. ¿Dispone su organización de los requisitos de accesibilidad de NFS/SMB (CIFS)/HDFS?

El administrador de NetWorker puede definir una política para automatizar el proceso de protección de datos, incluido el inicio de una instantánea en el sistema Isilon del lago de datos y controlar la replicación de esa instantánea de Isilon con Isilon SyncIQ a un segundo sistema Isilon en las instalaciones. El segundo sistema Isilon almacenará una copia de los datos de la instantánea que se han replicado mediante Isilon SyncIQ y NetWorker.

(16)

NetWorker mantiene catálogos para todos los respaldos, instantáneas y clones, lo que hace que las restauraciones para esta solución de protección del lago de datos sean simples y directas. NetWorker también puede administrar la retención de instantáneas. Para realizar una restauración, el administrador de NetWorker puede simplemente restaurar desde la instantánea inicial o puede seleccionar una de las instantáneas que se replicaron en el sistema Isilon de destino y, a continuación, restaurarla en el sistema Isilon primario. NetWorker puede realizar restauraciones completas o parciales, y las restauraciones pueden dirigirse a la ubicación original o una ubicación alternativa en el mismo dispositivo.

En un escenario de replicación remota, NetWorker además puede coordinar y administrar la transferencia de NDMP a un sistema de Data Domain u otro destino de respaldo en el sitio remoto, lo que descarga por completo el respaldo del sistema Isilon de producción. Esto permite realizar respaldos semanales o trimestrales de conjuntos de datos más grandes sin afectar la producción diaria.

BENEFICIOS DE USAR INSTANTÁNEAS DE ISILON ADMINISTRADAS POR NETWORKER PARA ISILON

Los clientes obtendrán los beneficios importantes de la administración de NetWorker de instantáneas de Isilon para la protección del lago de datos para almacenamiento de Isilon. En primer lugar, y lo más importante, esta solución de protección del lago de datos empresarial proporciona protección de datos contra pérdida o daños de nivel empresarial para Hadoop y RTO superiores. La administración de instantáneas de NetWorker simplifica el proceso de protección de datos mediante la automatización de las instantáneas iniciales y el proceso de replicación a un Isilon secundario. Esta solución de protección de datos proporciona múltiples opciones de recuperación, incluida la recuperación desde la instantánea inicial en el sistema Isilon de origen y desde instantáneas replicadas en el segundo sistema Isilon. Además, la capacidad de transferencia a un sistema Data Domain permite una retención más prolongada y mayor protección contra el daño de datos y desastres. El proceso de instantánea, replicación y transferencia puede controlarse mediante una sola política.

Isilon es una plataforma ideal para Hadoop y otras aplicaciones de big data. Usa codificación de eliminación para proteger los datos con más del 80 % de la eficiencia del almacenamiento, en contraste con el HDFS tradicional con un 33 % de eficiencia del

almacenamiento. Isilon tiene varias clases de tipos de nodos. Esto permite que diferentes niveles de Isilon estén optimizados para cargas de trabajo particulares.

Si el cliente ya utiliza Isilon o NetWorker para otras necesidades, entonces los mismos procesos y pericia pueden aprovecharse para esta solución de protección del lago de datos. La administración de instantáneas de NetWorker es una función integrada en NetWorker que utiliza flujos de trabajo e interfaz del usuario comunes para instantáneas y respaldo. Y, por último, NetWorker se puede

aprovechar para administrar la replicación de Isilon a otro sistema Isilon en un segundo sitio para recuperación ante desastres opcional.

INSTANTÁNEAS DE ISILON ADMINISTRADAS POR LA ADMINISTRACIÓN DE INSTANTÁNEAS DE

NETWORKER PARA ECS

Esta sección proporciona más detalles sobre el aprovechamiento de la administración de instantáneas de Dell EMC NetWorker para la protección del lago de datos en implementaciones donde el procesamiento y el almacenamiento están separados y la capa HDFS se está ejecutando en el almacenamiento de Isilon. Dado que utiliza almacenamiento compartido de Isilon, puede aprovechar todas las funcionalidades de administración de datos de Isilon que están incorporadas en la capa de almacenamiento. En este escenario de protección del lago de datos, NetWorker administra las instantáneas de Isilon que luego se transfieren a un Elastic Cloud Storage (ECS) Appliance en las instalaciones.

Los clientes elegirán usar ECS como el almacenamiento de destino para esta solución teniendo en cuenta los 3 factores principales: 1. ¿Ya sabe que sus datos no obtendrían ahorros considerables de almacenamiento de la deduplicación de longitud variable

y la compresión que pueden proporcionar los sistemas Data Domain? 2. ¿Necesita la hiperescala que proporciona ECS? (Exabytes)

3. ¿Necesita accesibilidad de objetos/HDFS?

El administrador de NetWorker puede definir una política para automatizar el proceso de protección de datos, incluido el inicio de una instantánea en el sistema Isilon del lago de datos y, a continuación, una ejecución de una transferencia de esa instantánea de Isilon mediante las API de ECS por Ethernet para un ECS Appliance en las instalaciones.

NetWorker mantiene catálogos para todos los respaldos, instantáneas y clones, lo que hace que las restauraciones para esta solución de protección del lago de datos sean simples y directas. NetWorker también puede administrar la retención de instantáneas. Para realizar una restauración, el administrador de NetWorker puede simplemente restaurar desde la instantánea inicial o puede seleccionar uno de los savesets que se transfieren al sistema de ECS y restaurarlo al sistema Isilon primario con las API de ECS por Ethernet. NetWorker puede realizar restauraciones completas o parciales, y las restauraciones pueden dirigirse a la ubicación original o una ubicación alternativa en el mismo dispositivo.

Los clientes tienen la opción de aprovechar la replicación controlada de NetWorker a un ECS Appliance diferente instalado en un segundo sitio para protección de recuperación ante desastres adicional. Las restauraciones de NetWorker entonces se pueden realizar desde el segundo sitio de ECS Appliance para la recuperación ante desastres.

(17)

BENEFICIOS DE USAR INSTANTÁNEAS DE ISILON ADMINISTRADAS POR NETWORKER PARA ECS

Los clientes obtendrán los beneficios importantes de la administración de NetWorker de instantáneas de Isilon para la protección del lago de datos para la solución Elastic Cloud Storage. En primer lugar, y lo más importante, esta solución de protección del lago de datos empresarial proporciona protección de datos contra pérdida o daños de nivel empresarial para Hadoop y RTO superiores. La administración de instantáneas de NetWorker simplifica el proceso de protección de datos mediante la automatización de las instantáneas iniciales y las transferencias a ECS. Esta solución de protección de datos proporciona múltiples opciones de recuperación, incluida la recuperación desde la instantánea inicial y desde savesets de transferencia en el almacenamiento de ECS.

ECS Appliance permite a empresas de cualquier tamaño aprovechar el almacenamiento de hiperescala y los ahorros de la nube combinando la eficiencia de ViPR con una plataforma de hardware genérico de escalamiento horizontal, bajo costo y alta densidad. ECS Appliance puede implementarse y expandirse de manera incremental, para que pueda elegir el tamaño adecuado para sus necesidades inmediatas y su crecimiento proyectado. ECS le permite optimizar su solución de protección del lago de datos en función de sus aplicaciones, requisitos de almacenamiento y necesidades de acceso, lo que le brinda la flexibilidad y el control que desea. Si el cliente ya usa NetWorker o Elastic Cloud Storage para otras necesidades, entonces los mismos procesos y pericia pueden aprovecharse para la protección del lago de datos.

BENEFICIOS PARA EL CLIENTE

Como se mencionó anteriormente, todas las soluciones de protección del lago de datos empresarial presentadas en este documento proporcionan la tan necesaria protección de datos empresariales contra pérdida y daño de datos para Hadoop. Dell EMC ofrece a los clientes opciones para seleccionar la mejor solución de protección del lago de datos según el tamaño de su lago de datos, sus tipos de datos, sus requisitos de accesibilidad, su almacenamiento existente y su pericia sobre la protección de datos.

Las opciones de soluciones de protección del lago de datos empresarial que se describen en este informe y que aprovechan los sistemas Data Domain como el destino de almacenamiento con protección proporcionan beneficios adicionales que son exclusivos de Data Domain. La arquitectura de invulnerabilidad de datos de Data Domain proporciona la mejor protección de datos, lo que garantiza que se pueden recuperar datos desde su lago de datos cuando sea necesario y que los datos pueden ser confiables. Los sistemas Data Domain proporcionan eficiencia del almacenamiento a través de la deduplicación de longitud variable y la compresión, lo que por lo general reduce los requisitos de almacenamiento entre 10 y 30 veces. Los sistemas Data Domain también son muy rápidos, capaces de recopilar hasta 68 TB/h de datos, lo que minimiza el tiempo que demora en completar respaldos de protección del lago de datos. Si el cliente ya usa Data Domain para otras necesidades de protección de datos, entonces los mismos procesos y pericia se pueden aprovechar para proteger su lago de datos.

DD Boost for Enterprise Applications, que forma parte de la familia de Dell EMC Data Protection Suite, ofrece protección de datos de Hadoop. Además, los clientes de Hadoop se benefician con Data Domain al usar la potencia de DD Boost con el rendimiento de respaldo superior a NFS, los requisitos de ancho de banda reducidos y la mejora del balanceo de carga y la confiabilidad. De esta manera, DD Boost for Enterprise Applications ofrece una mejor experiencia del usuario mediante la integración en la administración de clúster de Hadoop, el sistema de archivos Hadoop y el aprovechamiento de las construcciones de nativas de Hadoop.

Las opciones de soluciones de protección del lago de datos empresarial que se describen en este informe y que aprovechan los sistemas Isilon como el destino de almacenamiento proporcionan su propio conjunto adicional de beneficios únicos para el cliente. Isilon utiliza la codificación de borrado para proteger los datos con una eficiencia de almacenamiento superior al 80 %, en contraste con el HDFS tradicional, con solo 33 % de eficiencia de almacenamiento. Isilon tiene varias clases de tipos de nodos, lo que permite que se optimicen diferentes niveles de Isilon para cargas de trabajo particulares. Si su organización ya usa Isilon o para otras

necesidades, entonces de los mismos procesos y conocimientos pueden aprovecharse para estas opciones de solución de protección de lago de datos.

Las opciones de solución de protección del lago de datos empresarial que se describen en este informe y que aprovechan Elastic Cloud Storage (ECS) como el destino de almacenamiento proporcionan ventajas de accesibilidad y escalabilidad. ECS Appliance permite a empresas de cualquier tamaño aprovechar el almacenamiento de hiperescala y los ahorros de la nube combinando la eficiencia de ViPR con una plataforma de hardware genérico de escalamiento horizontal, bajo costo y alta densidad. ECS le permite optimizar su solución de protección del lago de datos en función de sus aplicaciones, requisitos de almacenamiento y necesidades de acceso, lo que le brinda la flexibilidad y el control que desea. Y, por último, si su organización ya usa Elastic Cloud Storage para otras necesidades, entonces los mismos procesos y pericia pueden aprovecharse para la protección del lago de datos.

Las soluciones de protección del lago de datos empresarial que se describen en este informe y que aprovechan NetWorker proporcionan una serie de ventajas adicionales, independientemente de la opción de almacenamiento utilizada. El administrador de NetWorker puede definir políticas de protección de datos que automatizarán todas las actividades de instantánea y transferencia, lo que hace que las operaciones diarias sean simples y eficaces. NetWorker también proporciona control sobre la retención de respaldos, instantáneas y transferencias, lo que minimiza el esfuerzo manual de retención. Las opciones de solución de NetWorker también incluyen la capacidad de recuperar desde instantáneas de Isilon además de los savesets de transferencia que proporciona un RTO superior y máxima flexibilidad.

(18)

CONCLUSIÓN

Este informe indicó que los casos de uso de big data han madurado, proporcionó una definición del lago de datos y explicó por qué los clientes ahora demandan soluciones de protección del lago de datos de nivel empresarial serias. Como líder de opinión en soluciones de big data, Dell EMC ha presentado en este informe una estrategia de protección de datos y varias opciones de solución de

protección de datos para proteger Hadoop y otros lagos de datos. Dell EMC ofrece a los clientes elegir qué enfoque de solución y qué opción de almacenamiento de destino cumple mejor con sus necesidades de escalabilidad y accesibilidad, y puede aprovechar cualquier almacenamiento interno existente o la pericia en protección de datos que ya tenga.

Para obtener más información sobre big data de Dell EMC, Hadoop y las soluciones de lago de datos empresarial, consulte nuestra página de soluciones de big data en Dell.com y estos recursos adicionales:

Hoja de datos del sistema operativo de Dell EMC Data Domain

Hoja de datos de la familia de productos de almacenamiento de escalamiento horizontal Dell EMC Isilon Hoja de datos de Dell EMC ECS Appliance con la tecnología de ViPR

Informe técnico de la arquitectura de invulnerabilidad de datos de Dell EMC Data Domain

Hoja de datos de Dell EMC NetWorker

Referencias

Documento similar

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

diabetes, chronic respiratory disease and cancer) targeted in the Global Action Plan on NCDs as well as other noncommunicable conditions of particular concern in the European

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Apache Hadoop es actualmente la herramienta libre más utilizada para el análisis de Big Data, si bien también existen alternativas diseñadas para problemas específicos y, por

Este trabajo pretende aprovechar este crecimiento del Machine Learning para crear y entrenar desde cero un modelo de red neuronal que sea capaz de clasificar imágenes de