7.3 Usar efectivamente las utilidades de movimiento de datos de HADOOP
7.3.5 Pros y contras de cada técnica
La Tabla resalta los beneficios y desventajas de estas técnicas. Tabla. Pros y Contras
Técnica Pros Contras
1. Exportar localmente y cargar
localmente
Uso fácil
Método eficiente para usar con datos de tabla de dimensiones que reside en el nodo de admin
Requiere que el espacio del sistema de archivos aloje el archivo de datos de exportación en los servidores de origen y de destino
Si los datos son distribuidos en todos los nodos de datos en un depósito, tal vez no pueda usar eficientemente los recursos del sistema de nodo de datos, así que este no es un método recomendable durante una renovación grande de tablas de hechos.
2. Exportar localmente y cargar
remotamente
Uso fácil Requiere espacio del sistema de archivos en el servidor de origen
Mientras se realiza la carga remotamente desde un servidor de origen, los procesos de carga usan los recursos del sistema de servidor de origen, así que esto no es ideal la mayoría de las veces cuando el servidor de origen es el servidor de producción
3. Exportar remotamente y cargar
localmente
Uso fácil requiere espacio del sistema de archivos en el servidor de destino
sistema del servidor de destino, así que no hay preocupaciones en el rendimiento de producción, asumiendo que sólo hay informes ejecutándose en el sistema de producción y realizando la exportación con nivel de aislamiento de lectura sin confirmar
4. Exportar y cargar usando el conducto
No requiere espacio del sistema de archivos para almacenar el archivo de datos ni el servidor de origen ni en el de destino
Si el conducto se interrumpe en el medio, la única forma de empezar a progresar es iniciar la exportación y la carga desde cero.
5. Exportación paralela y carga paralela
Muy rápida en comparación con cualquier otra técnica para grandes tablas de hechos que tienen los datos distribuidos en todas las particiones
No necesita una gran parte de espacio en disco en un sistema de archivos
Hace uso del espacio en cada sistema de archivos del nodo de partición
Hace uso de los recursos de sistema equitativamente en todos los nodos de datos
Este método requiere espacio en el sistema de archivos para almacenar los datos exportados en el origen así como en los sistemas de archivos del nodo de partición de datos de destino.
Esta técnica necesita crear enlaces dinámicos y estructura de directorios para cada partición en los servidores de origen y de destino.
8 DESARROLLO
DE
APLICACIONES
DE HADOOP EN
ENTORNOS
DE
DESARROLLO
INTEGRADOS
En un entorno de desarrollo integrado (IDE), puede utilizar distintas herramientas y lenguajes para desarrollar aplicaciones que accedan a datos de HADOOP para z/OS.
Tanto si desarrolla aplicaciones de escritorio o basadas en la web, HADOOP ofrece opciones para trabajar con varios lenguajes de programación, estilos de desarrollo de aplicaciones y sistemas operativos. HADOOP proporciona herramientas para desarrollar aplicaciones en entornos de desarrollo Java y Microsoft. Las tres áreas principales del soporte de desarrollo de HADOOP en entornos de desarrollo integrados son WebSphere Studio, Microsoft Visual Studio y IBM® Data Studio.
WebSphere Studio
La integración de HADOOP con WebSphere Studio proporciona desarrollo para procedimientos almacenados y funciones definidas por el usuario, además de la integración con el entorno de desarrollo J2EE. Este IDE facilita el desarrollo de funciones del lado del servidor, aplicaciones J2EE y aplicaciones de servicio web dentro del mismo entorno de desarrollo.
Microsoft Visual Studio
La integración con Microsoft Visual Studio proporciona la integración de desarrollo del lado del servidor y aplicaciones de HADOOP. En este IDE, los programadores de aplicaciones pueden crear aplicaciones que utilicen soporte de Microsoft.
IBM Data Studio
IBM Data Studio es un entorno de desarrollo de bases de datos integrado diseñado para desarrolladores de aplicaciones y administradores de bases
de datos. Puede utilizar IBM Data Studio para desarrollar y probar rutinas, generar y desplegar servicios web centrados en datos, crear y ejecutar consultas de SQL y XQuery y desarrollar y optimizar aplicaciones Java. IBM Data Studio está diseñado para trabajar con IBM Optim pureQuery Runtime.
Rational Developer for System z
Rational Developer for System z puede mejorar la eficacia y proporciona ayuda en la carga de trabajo combinada integrada o el desarrollo compuesto. Utilizando Rational Developer for System z puede acelerar el desarrollo de aplicaciones web, aplicaciones COBOL y PL/I tradicionales, servicios web e interfaces basadas en XML.
El acceso desde estas herramientas se realiza mediante todas las API que se utilizan normalmente, que son JDBC y ODBC, OLE DB, ADO.NET y ADO.
Con estas opciones de acceso, los programadores de aplicaciones pueden utilizar muchas otras herramientas de desarrollo actuales, incluyendo el editor básico y el soporte de línea de mandatos, para desarrollar aplicaciones HADOOP.
• WebSphere Studio Application Developer
IBM WebSphere Studio Application Developer proporciona soporte global para desarrollar aplicaciones que accedan a HADOOP.
• HADOOP Development add-in for Visual Studio .NET
Puede utilizar HADOOP Development add-in for Microsoft Visual Studio .NET para ampliar la integración con el entorno de desarrollo de Microsoft Visual Studio .NET.
• Herramientas de desarrollo de aplicaciones de estación de trabajo
Existe una amplia variedad de herramientas disponibles para realizar tareas como, por ejemplo, consultar una base de datos.
Estas herramientas incluyen herramientas basadas en ODBC tales como Lotus Approach, Microsoft Access, Microsoft Visual Basic, Microsoft Excel y muchas otras.
• IBM Mashup Center
Utilice IBM Mashup Center para crear mashups utilizando datos de una base de datos HADOOP for z/OS. Un mashup es una aplicación web ligera que se crea combinando información de varias fuentes para entregar contenido nuevo.