Pros y contras de cada técnica - Usar efectivamente las utilidades de movimiento de datos de HA

7.3 Usar efectivamente las utilidades de movimiento de datos de HADOOP

7.3.5 Pros y contras de cada técnica

La Tabla resalta los beneficios y desventajas de estas técnicas. Tabla. Pros y Contras

Técnica Pros Contras

1. Exportar localmente y cargar

localmente

Uso fácil

Método eficiente para usar con datos de tabla de dimensiones que reside en el nodo de admin

Requiere que el espacio del sistema de archivos aloje el archivo de datos de exportación en los servidores de origen y de destino

Si los datos son distribuidos en todos los nodos de datos en un depósito, tal vez no pueda usar eficientemente los recursos del sistema de nodo de datos, así que este no es un método recomendable durante una renovación grande de tablas de hechos.

2. Exportar localmente y cargar

remotamente

Uso fácil Requiere espacio del sistema de archivos en el servidor de origen

Mientras se realiza la carga remotamente desde un servidor de origen, los procesos de carga usan los recursos del sistema de servidor de origen, así que esto no es ideal la mayoría de las veces cuando el servidor de origen es el servidor de producción

3. Exportar remotamente y cargar

localmente

Uso fácil requiere espacio del sistema de archivos en el servidor de destino

sistema del servidor de destino, así que no hay preocupaciones en el rendimiento de producción, asumiendo que sólo hay informes ejecutándose en el sistema de producción y realizando la exportación con nivel de aislamiento de lectura sin confirmar

4. Exportar y cargar usando el conducto

No requiere espacio del sistema de archivos para almacenar el archivo de datos ni el servidor de origen ni en el de destino

Si el conducto se interrumpe en el medio, la única forma de empezar a progresar es iniciar la exportación y la carga desde cero.

5. Exportación paralela y carga paralela

Muy rápida en comparación con cualquier otra técnica para grandes tablas de hechos que tienen los datos distribuidos en todas las particiones

No necesita una gran parte de espacio en disco en un sistema de archivos

Hace uso del espacio en cada sistema de archivos del nodo de partición

Hace uso de los recursos de sistema equitativamente en todos los nodos de datos

Este método requiere espacio en el sistema de archivos para almacenar los datos exportados en el origen así como en los sistemas de archivos del nodo de partición de datos de destino.

Esta técnica necesita crear enlaces dinámicos y estructura de directorios para cada partición en los servidores de origen y de destino.

8 DESARROLLO

DE

APLICACIONES

DE HADOOP EN

ENTORNOS

DE

DESARROLLO

INTEGRADOS

En un entorno de desarrollo integrado (IDE), puede utilizar distintas herramientas y lenguajes para desarrollar aplicaciones que accedan a datos de HADOOP para z/OS.

Tanto si desarrolla aplicaciones de escritorio o basadas en la web, HADOOP ofrece opciones para trabajar con varios lenguajes de programación, estilos de desarrollo de aplicaciones y sistemas operativos. HADOOP proporciona herramientas para desarrollar aplicaciones en entornos de desarrollo Java y Microsoft. Las tres áreas principales del soporte de desarrollo de HADOOP en entornos de desarrollo integrados son WebSphere Studio, Microsoft Visual Studio y IBM® Data Studio.

WebSphere Studio

La integración de HADOOP con WebSphere Studio proporciona desarrollo para procedimientos almacenados y funciones definidas por el usuario, además de la integración con el entorno de desarrollo J2EE. Este IDE facilita el desarrollo de funciones del lado del servidor, aplicaciones J2EE y aplicaciones de servicio web dentro del mismo entorno de desarrollo.

Microsoft Visual Studio

La integración con Microsoft Visual Studio proporciona la integración de desarrollo del lado del servidor y aplicaciones de HADOOP. En este IDE, los programadores de aplicaciones pueden crear aplicaciones que utilicen soporte de Microsoft.

IBM Data Studio

IBM Data Studio es un entorno de desarrollo de bases de datos integrado diseñado para desarrolladores de aplicaciones y administradores de bases

de datos. Puede utilizar IBM Data Studio para desarrollar y probar rutinas, generar y desplegar servicios web centrados en datos, crear y ejecutar consultas de SQL y XQuery y desarrollar y optimizar aplicaciones Java. IBM Data Studio está diseñado para trabajar con IBM Optim pureQuery Runtime.

Rational Developer for System z

Rational Developer for System z puede mejorar la eficacia y proporciona ayuda en la carga de trabajo combinada integrada o el desarrollo compuesto. Utilizando Rational Developer for System z puede acelerar el desarrollo de aplicaciones web, aplicaciones COBOL y PL/I tradicionales, servicios web e interfaces basadas en XML.

El acceso desde estas herramientas se realiza mediante todas las API que se utilizan normalmente, que son JDBC y ODBC, OLE DB, ADO.NET y ADO.

Con estas opciones de acceso, los programadores de aplicaciones pueden utilizar muchas otras herramientas de desarrollo actuales, incluyendo el editor básico y el soporte de línea de mandatos, para desarrollar aplicaciones HADOOP.

• WebSphere Studio Application Developer

IBM WebSphere Studio Application Developer proporciona soporte global para desarrollar aplicaciones que accedan a HADOOP.

• HADOOP Development add-in for Visual Studio .NET

Puede utilizar HADOOP Development add-in for Microsoft Visual Studio .NET para ampliar la integración con el entorno de desarrollo de Microsoft Visual Studio .NET.

• Herramientas de desarrollo de aplicaciones de estación de trabajo

Existe una amplia variedad de herramientas disponibles para realizar tareas como, por ejemplo, consultar una base de datos.

Estas herramientas incluyen herramientas basadas en ODBC tales como Lotus Approach, Microsoft Access, Microsoft Visual Basic, Microsoft Excel y muchas otras.

• IBM Mashup Center

Utilice IBM Mashup Center para crear mashups utilizando datos de una base de datos HADOOP for z/OS. Un mashup es una aplicación web ligera que se crea combinando información de varias fuentes para entregar contenido nuevo.

In document hadoop (página 47-51)