I. Introduction▲
Depuis quelques années, des ETL open source ont fait leur apparition au milieu de la multitude des ETL propriétaires (voir liste en annexe 1).
Ces ETL ont notamment profité de l'émergence de l'OSBI (« open source Business Intelligence ») et de l'apparition de nouvelles solutions décisionnelles open source ambitieuses et déjà matures.
Des sociétés telles que Pentaho (www.pentaho.fr), SpagoBI (www.spagobi.org), JasperIntelligence (www.jasperforge.org), Talend (www.talend.com) ont ainsi contribué à l'émergence et la démocratisation de ces ETL open source.
Parmi ceux-ci, nous avons voulu effectuer une analyse comparative détaillée de deux d'entre eux :
- « Pentaho Data Integration » (« Kettle » à l'origine) ;
- « Talend Open Studio ».
Ces deux ETL open source nous paraissent en effet à l'heure actuelle les plus intéressants en termes :
- de fonctionnalités proposées ;
- de maturité ;
- de pérennité.
Pentaho Data Integration (« PDI ») et Talend Open Studio (« TOS ») peuvent répondre de façon équivalente à la plupart des ETL propriétaires disponibles sur le marché.
Atol Conseils et Développements est ainsi en mesure de vous apporter conseil, support et assistance dans la la mise en œuvre de projets spécifiques utilisant l'un de ces deux ETL open source.
Vous trouverez en Annexe 2 un exemple de projet réalisé avec Pentaho Data Integration.
II. Qu'est-ce qu'un « ETL » ?▲
ETL est l'acronyme de « Extract - Transform -Load ».
Un ETL permet ainsi l' Extraction, la Transformation et le Chargement de données depuis des sources diverses (bases de données, fichiers) vers des cibles préalablement définies.
De nombreux systèmes de gestion de bases de données sont supportés nativement en lecture/écriture (Oracle, MS Sql Server, DB2, Postgresql, MySql…).
De nombreux types de fichiers peuvent également être lus ou écrits : Csv, Excel, Txt, Xml…
Notons que la plupart des ETL disposent d'une interface graphique permettant l'élaboration des différents scénarios d'intégration.
Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception que de la maintenance des traitements de données.
Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre l'alimentation des datawarehouses (entrepôts de données).
Ces derniers servent de supports pour l'analyse des données sous plusieurs formes :
- rapports et états,
- tableaux de bord (dashboards, balanced scorecard) ;
- indicateurs de performance (« KPI ») ;
- analyse multidimensionnelle (OLAP) ;
- analyse exploratoire (Data-Mining).
Ainsi, les ETL proposent dans la plupart des cas des fonctionnalités propres à l'alimentation des datawarehouses :
- création de clés techniques (« Surrogate keys ») ;
- mise à jour de type « dimension Lente » (« Slow Changing Dimension ») ;
- agrégation de données ;
- alimentation de bases multidimensionnelles (tables de faits et dimensions).
Les volumes de données traités sont toujours très importants, ainsi les critères de performance sont primordiaux dans le choix d'un ETL.