• No se han encontrado resultados

3.2. HERRAMIENTAS ETL

3.2.3. TALEND OPEN STUDIO (TOS)

Talend Open Studio (TOS) es una herramienta Software Libre que permite modelar transformaciones de datos de forma visual, básicamente es una herramienta ETL (Extract Transform and Load – Extracción Transformación y Carga). Entre los usos que se le puede dar a esta herramienta es muy útil para realizar migraciones de datos, crear tablas de dimensiones, o sincronizar aplicaciones a nivel de base de datos.

Talend Open Studio utiliza interfaz gráfica basada, en modelos y soltar para crear el proceso de manipulación de datos. Muchos tipos de medidas disponibles para conectarse a bases de datos importantes y para tratar varios tipos de archivos (CSV, Excel). Talend Open Studio facilita la construcción de consultas en bases de datos mediante la detección de relaciones entre tablas [38].

3.2.3.1. ANTECEDENTES

Creada en octubre 2006 en Francia compañía muy joven, Talend Open Studio es una herramienta de integración de Software Libre; tiene una comunidad de desarrolladores más pequeña que la de Pentaho, debido a un comienzo posterior, y es financiada por la

empresa Talend y por aportaciones de capital de varios fondos de inversión que garantizan su futuro.

Talend Open Studio es una herramienta de integración de datos que incluye nuevas funcionalidades interesantes con el deseo de llegar a convertirse en el primer ETL totalmente integrado y está diseñada en Eclipse, permite hacer transformaciones con un aceptable entorno gráfico, tiene mecanismos de depuración y control sobre los procesos realizados, también puede realizar proyectos en dos tipos de lenguaje Java y Perl [1].

3.2.3.2. ARQUITECTURA DE TALEND OPEN STUDIO

Talend Open Studio proporciona una fácil solución para la tarea de extraer, pasar datos desde diferentes orígenes y destinos, trata la información de múltiples maneras, y permiten almacenar dicha información en el repositorio.

Contamos con la existencia de numerosos componentes que nos serán de gran utilidad a la hora de construir nuestro flujo de tareas, ya que nos permiten trabajar con numerosos objetos que realizan diferentes operaciones con: Bases de Datos, Ficheros .csv, Operaciones por FTP, etc.

Figura III-8 Arquitectura de Talend Open Studio

Referente a los componentes de la arquitectura que se muestran en la figura III-8, a continuación se explica en forma detallada cada uno de ellos:

Diseñador TOS (TOS Designer)

Diseñador TOS es una herramienta gráfica que se puede utilizar para crear y mantener paquetes de integración de datos. Diseñador TOS está disponible para crear un proyecto ETL Talend Open Studio.

Modelo de Negocio (Business Modeler)

La aplicación Business Modeler de Talend Open Studio aprovecha una propuesta descendente (de lo general a lo particular) que permite a los grupos de interés de las líneas de negocio involucrarse en los procesos de integración de datos, el Business Modeler ofrece una visualización no técnica del business muy fácil, realizando los diversos procesos que se va a realizar en el job de trabajo; incluyendo sistemas, procesos, conexiones de forma gráfica.

Job Designer

La aplicación Job Designer de Talend Open Studio proporciona tanto una vista gráfica como una vista funcional de los procesos de integración de datos. El Job Designer permite realizar los procesos de integración y transformaciones de datos, se crean

fácilmente arrastrando y soltando los objetos que se encuentran en la paleta de componentes entrada (input) y salida de datos (output) de los diferentes orígenes y destinos de datos.

Repositorio Organizado (HostedRepository)

En el Repositorio de metadatos centraliza la información de todos los proyectos y garantiza la coherencia en todos los procesos de integración. Los metadatos relacionados con los sistemas origen y destino de los procesos de integración se cargan fácilmente en el repositorio de metadatos a través de una avanzada introspección de bases de datos o archivos, facilitada por diversos asistentes.

Depuración en Tiempo Real (Depuration in Real Time)

Talend Open Studio incluye características de prueba, depuración y ajuste que facilitan el seguimiento en tiempo real de los datos que fluyen a través de los procesos de transformación, cuando un trabajo de integración se ejecuta a través del interfaz del diseñador del trabajo (en modo gráfico) la estadística se exhibe en el tiempo real, demostrando el número de filas procesadas y de filas rechazadas, así como el rendimiento de procesamiento (filas por segundo) permitiendo evitar cualquier embotellamiento en el proceso inmediatamente.

Metadatos (Metadata)

Es el lugar donde vamos a definir los metadatos del proyecto. Son definiciones de componentes que luego vamos a poder reutilizar en todos los procesos de diseño de las transformaciones. Por ejemplo, en el metadatos podremos definir conexiones a bases de datos, recuperar los esquemas de una base de datos. Esto nos permite tener los elementos definidos en un único sitio y reutilizarlos a lo largo de los procesos. El repositorio de metadatos centraliza la información de todos los proyectos y garantiza la coherencia en todos los procesos de integración. Los metadatos relacionados con los sistemas origen y destino de los procesos de integración se cargan fácilmente en el repositorio de metadatos a través de utilidades avanzadas de análisis de la base de datos o archivos, facilitada por diversos asistentes [4].

REQUISITOS PREVIOS A LA INSTALACIÓN DE TOS Requisitos mínimos de hardware

o Procesador de arquitectura Pentium de 2.0 GHZ. o 768 MB de memoria RAM.

o Disco Duro con al menos 2 GB libres. Requisitos de software

o Java run Time Enviroment 5 o posteriores. o MySQL versión 5 o posteriores [42]. 3.2.3.3. CARACTERÍSTICAS

a) Migración de datos.

b) Las transformaciones son prácticamente a base de código (de momento Perl y java).

c) Controla la documentación del proyecto y cuenta con una papelera de reciclaje. d) Utiliza un Interfaz Gráfico de Usuario:

1. Implementado en Eclipse RC.

e) Genera código Java o Perl que puede ser ejecutable sobre una gran variedad de plataformas.

f) No soporta el desarrollo multiusuario en el mismo entorno de desarrollo de trabajo.

g) En sí, se puede decir que Talend Open Studio consiste en extraer los datos de orígenes distintos, como por ejemplo base de datos, ficheros, aplicaciones, aplicando las transformaciones a estos datos y en transmitir los resultados a los repositorios de datos.

h) Herramienta poco intuitiva y difícil de entender.

i) Al estar financiado por una firma de capital privado, existe un mínimo riesgo de que si se deja de inyectar capital puede provocarse el parón en las mejoras del producto y la no compatibilidad con nuevas versiones de bases de datos.

j) No tiene proceso automático de separación y redistribución de datos lo cual puede generar cuellos de botella [14].

1. Tareas programadas.

2. Diseño del modelo de negocio.

l) Los principales transformadores con los que cuenta la herramienta es: 1. Diseño de dimensiones.

2. Diseño de tablas FAC (Construcción mediante arrastrar y soltar componentes).

Documento similar