Les ETL Open Source : Une réelle alternative aux solutions propriétaires


précédentsommairesuivant

I. Introduction

Depuis quelques années, des ETL Open Source ont fait leur apparition au milieu de la multitude des ETL propriétaires (voir liste en annexe 1).
Ces ETL ont notamment profité de l'émergence de l'OSBI (« Open Source Business Intelligence ») et de l'apparition de nouvelles solutions décisonnelles Open Source ambitieuses et déjà matures.

Des sociétés telles que Pentaho (www.pentaho.fr), SpagoBI (www.spagobi.org), JasperIntelligence (www.jasperforge.org), Talend (www.talend.com) ont ainsi contribué à l'émergence et la démocratisation de ces ETL Open Source.

Parmi ceux-ci, nous avons voulu effectuer une analyse comparative détaillée de deux d'entre eux :

  • « Pentaho Data Integration » (« Kettle » à l'origine)
  • « Talend Open Studio »

Ces deux ETL Open Source nous paraissent en effet à l'heure actuelle les plus intéressants en termes :

  • de fonctionnalités proposées,
  • de maturité,
  • de pérennité.

Pentaho Data Integration (« PDI ») et Talend Open Studio (« TOS ») peuvent répondre de façon équivalente à la plupart des ETL propriétaires disponibles sur le marché.

Atol Conseils et Développements est ainsi en mesure de vous apporter conseil, support et assistance dans la la mise en oeuvre de projets spécifiques utilisant l'un de ces 2 ETL Open Source.

Vous trouverez en Annexe 2 un exemple de projet réalisé avec Pentaho Data Integration.

II. Qu'est-ce qu'un « ETL » ?

ETL est l'acronyme de « Extract - Transform -Load ».

Un ETL permet ainsi l' Extraction, la Transformation et le Chargement de données depuis des sources diverses (bases de données, fichiers) vers des cibles préalablement définies.

Image non disponible

De nombreux systèmes de gestion de bases de données sont supportés nativement en lecture/écriture (Oracle, MS Sql Server, DB2, Postgresql, MySql,...).

De nombreux types de fichiers peuvent également être lus ou écrits: Csv, Excel, Txt, Xml, ...

Notons que la plupart des ETL disposent d'une interface graphique permettant l'élaboration des différents scénarios d'intégration.

Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception que de la maintenance des traitements de données.

Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre l'alimentation des datawarehouses (entrepôts de données).

Ces derniers servent de supports pour l'analyse des données sous plusieurs formes :

  • Rapports et états,
  • Tableaux de bords (dashboards, balanced scorecard),
  • Indicateurs de performance (« KPIs »),
  • Analyse multi-dimensionnelle (OLAP) ,
  • Analyse exploratoire (Data-Mining).
Image non disponible

Ainsi, les ETL proposent dans la plupart des cas des fonctionnalités propres à l'alimentation des datawarehouses :

  • Création de clées techniques (« Surrogate keys »)
  • Mise à jour de type « dimension Lente » (« Slow Changing Dimension »)
  • Agrégation de données
  • Alimentation de base multidimensionnelles (tables de faits et dimensions)

Les volumes de données traités sont toujours très importants, ainsi les critères de performance sont primordiaux dans le choix d'un ETL.


précédentsommairesuivant

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants : Viadeo Twitter Facebook Share on Google+