¿Qué es Kettle?
¿Para qué sirve?
Principales características
Instalación
Ejemplos de uso - DEMO
Herramienta de ETL (extracción, transformación y
carga) Open Source.
Creado por Matt Casters - @mattcasters
Adquirido por Pentaho en 2006. Actualmente se
llama Pentaho Data Integration (PDI).
Desarrollado integramente en Java.
Licencia GNU LGPL.
Última versión estable 4.1.0 (30-11-2010).
Versión en desarrollo 4.2.0-RC1 (01-07-2011).
Integración de datos
Carga de datawarehouses y datamarts
Limpieza de datos (data cleansing)
Análisis y perfilado de datos (data profiling)
Migración de datos entre Bases de datos
Exportar datos de Bases de datos a archivos
planos
Etc, etc ...
GUI muy avanzada.
Soporte para gran cantidad de fuentes de información.
Basado en dos tipos de objetos diferentes:
Transformaciones
Trabajos
Las T&T utilizan un lenguaje descriptivo (XML).
Cuenta con herramientas y utilidades para crear,
administrar y ejecutar T&T.
Permite extender las funcionalidad mediante el desarrollo
de Plugins propios.
Fuentes de información
Excel
Bases de datos (+40):
- PostgreSQL
- MySql
- Informix
- dBase III, IV o 5
- Firebird SQL
- IBM DB2
- MS SQL Server
- MS Access
- Oracle
- SAP ERP System
- Teradata
- LucidDB
- Hypersonic
- Apache Derby
- etc, etc ...
Xml
Txt / CSV
RSS
Salesforce
Transformaciones
Orientación a los Datos. Representa una tarea ETL.
Es una colección de “pasos”. Cada paso es una operación
particular sobre datos.
Los “pasos” se conectan entre sí a través de “saltos”, que
indica cual será el flujo de los datos.
Trabajos
Orientación a la Tarea y a los Datos.
Usualmente un Trabajo se compone de una o más
Transformaciones/Trabajos, que serán ejecutadas
secuencialmente.
La ejecución de cada “Entrada de Trabajo” presenta una
salida de status, que puede ser analizada para la realización
de diferentes acciones.
Spoon: IDE gráfico para crear T&T.
Kitchen: herramienta de línea de comandos
para ejecutar Trabajos.
Pan: herramienta de línea de comandos para ejecutar
Transformaciones.
Carte: servidor liviano para ejecutar T&T en host remotos.
Herramientas y utilidades para crear,
administrar y ejecutar T&T
Pre-requisitos
- JRE (o JDK) 5.x o superior.
Descarga
-
http://sourceforge.net/projects/pentaho/files/
- Carpeta “Data Integration”
- Versión 4.1.0 – 106.5 MB
- Versión 4.2.0-RC1 – 225.3 MB
Después de descomprimir el archivo
Ejemplos de uso - DEMO
Los ejemplos fueron extraidos del libro Pentaho Data Integration 4
Cookbook – María C. Roldán. (http://www.packtpub.com/support)
01 - leer un archivo txt.
02 - escribir un archivo txt.
03 - leyendo un archivo simple XML.
04 - leyendo un archivo excel.
05 - generando datos de ejemplo para testeo.
06 - cargando datos desde txt en una base postgresql.
07 - leyendo datos desde una base postgresql y exportarlos a un txt.
08 - programando una funcionalidad a medida.
09 - enviando e-mails con archivos adjuntos.
10 - copiando o moviendo uno a más archivos.
Libros - Información
Wiki SIU Pentaho:
http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart
Foro SIU Comunidad:
http://comunidad.siu.edu.ar/index.php?board=49.0
---Sitio de PDI - Kettle:
http://kettle.pentaho.com/
Foros Pentaho:
http://forums.pentaho.com/
Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6
Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9
Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: