IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Les ETL open source : Une réelle alternative aux solutions propriétaires

Les ETL Open Source : Une réelle alternative aux solutions propriétaires


précédentsommairesuivant

IV-B. Présention de Pentaho Data Integration

Pentaho Data Integration est l'ETL de la suite décisionnelle Open Source Pentaho.
Cet ETL, « Kettle » à l'origine, est le fruit du travail de Matt Casters, un consultant BI qui l'a développé à l'origine pour ses propres besoins au début des années 2000.

Courant 2006, Matt Casters rejoint la société Pentaho, et « Kettle » devient « Pentaho Data Integration ».

Les nouvelles versions s'enchaînent alors à un rythme soutenu. La prochaine version est la 3.0.2 qui doit sortir courant Février 2008.

Contrairement à Talend Open Studio, Pentaho Data Integration est un « moteur de transformation » ETL: les données traitées et les traitements à effectuer sont parfaitement séparés. (on parle de « meta-data driven » ETL)

Les traitements sont stockés dans un référentiel (repository) qui peut être soit au format XML (fichiers plats), soit dans une base de données (ce qui permet notamment le partage entre plusieurs designers).

Tout comme Talend Open Studio, de nombreux types de SGBD sont supportés (une trentaine) ainsi que tous les types de fichiers plats (Csv, délimité, Excel, XML).

Pentaho Data Integration dipose d'une interface graphique « Spoon » (basée sur SWT), depuis laquelle on peut créer deux types de traitements :

  • des transformations : celles-ci constituent les traitements de base d'intégration de données avec toutes les étapes (steps) nécessaires à l'extraction, la transformation, et le chargement des données.
  • des tâches (jobs) : ceux-ci permettent le séquencement de plusieurs transformations avec des fonctionnalités plus orientés « EAI » : gestion des erreurs, envoi de mails de notification, transferts FTP/SFTP, exécution de scripts shell ou SQL, etc...
Image non disponible

Caractéristiques de Pentaho Data Integration :

  • Un produit sous licence GNU disponible sur plusieurs systèmes d'exploitation :
Image non disponible
  • Une suite de 3 composants: L'interface graphique « Spoon », les déclencheurs en mode batch pour les transformations (« Pan ») et les jobs (« Kitchen »).
  • Une installation simple (un dossier à décompresser) => un environnement d'exécution JAVA 1.5 suffit
  • La possibilité de prévisualiser les flux de données traitées, et ceci pour une étape donnée.
  • La possiblité d'exécuter les traitements sur le poste local, un serveur distant, ou un ensemble de serveurs (exécution en « grappe »; clustering)
  • La possibilité de logger les traitements dans une base de données spécifique.
  • L'intégration parfaite avec la plate-forme décisionnelle Pentaho. Par exemple, les flux de données en provenance de l'ETL peuvent servir à alimenter des rapports ou des dashboards en temps réel.

Spoon, l'interface graphique de création des transformations et jobs :

Image non disponible
Image non disponible

Spoon, le suivi des traitements « real time » :

Image non disponible

Briques de traitements de données (liste non exhaustive) :

Step Etape Description
Extraction depuis EXCEL Image non disponible Extraction de données depuis un ou plusieurs onglets d'un fichier XLS
Extraction depuis ACCESS Image non disponible Extraction de données depuis une table d'une base Access
Extraction depuis une base de données Image non disponible Extraction de données depuis une table d'un SGBD (Oracle, MySql, Postgres, SQLServer, DB2, AS400, SAP, etc...) : 30 SGBD supportés via JDBC et/ou ODBC
Extraction depuis un fichier Image non disponible Extraction de données depuis un fichier CSV ou de type « délimité »
Extraction depuis un fichier XML Image non disponible Extraction de données depuis un fichier XML
Extraction depuis un annuaire Image non disponible Extraction de données depuis un annuaire de type LDAP
Alimentation base de données Image non disponible Insertion ou mise à jour d'une table d'un SGBD (insert/update)
Recherche dans base de données Image non disponible Recherche des enregistrements dans une base de données selon une liste de valeurs
Recherche dans un flux Image non disponible Recherche des enregistrements dans un flux de données selon une liste de valeurs
Normalisation Ligne Image non disponible Normalise des informations
Dénormalisation ligne Image non disponible Dénormalisation de lignes
Ajout séquence Image non disponible Ajoute une séquence (calculée ou récupérée depuis une base de données)
Filtrage de ligne Image non disponible Permet de diriger les flux de données vers 2 cibles différentes selon un ou plusieurs critères
Agrégation de données Image non disponible Permet de réaliser des calculs d'agrégation sur un ensemble de lignes (somme, moyenne, min, max, count, etc...)
Calculs Image non disponible Permet de créer des données calculées à partir des données traitées

Stockage des traitements au format XML :

Les jobs et transformations sont stockés dans un meta-langage, qui peut être soit stocké au format XML, soit dans une base de données.

Image non disponible

précédentsommairesuivant