Les ETL open source : Une réelle alternative aux solutions propriétaires

VI. Annexe 1▲

Société	ETL	Commentaire
Abinitio	Abinitio
Altova	Mapforce
Attunity	Integration Suite
Barracuda software	Barracuda Integrator
Benetl	Benetl	Freeware
Business Objects	Data Integrator
Cast Iron Systems	Cast Iron Integration Appliance
CA	Data integrator
OpenSys	Clover ETL	open source
Cognos	Decisionstream
Corporator	Transformer
CoSORT	CoSORT ETL tools
Crossflo Systems	DataExchange
Datacyr Corporation	DataCyr Transform
Data Exchanger	Data Exchanger
DataHabitat	DH ETL
Datamirror	Datamirror
D2K	D2K
Embarcadero	DTStudio
Enhydra	Octopus	open source
ETL Solutions ltd	Transformation Manager
ETI	ETI Solution
GammaSoft	data'distribution
Group 1	Data Flow
Hummingbird	Genio
Information Builders	iWay
IBM	Websphere DataStage
Ikan	MetaSuite
Informatica	PowerCenter	Market leader
iSoft	Amadea
Microsoft	DTS	Ceased to exist
Microsoft	Integration Services	Bundled with SQL server
Oracle	Warehouse Builder
Oracle	Sunopsis
Pentaho	Pentaho Data integration	open source
Pervasive	Data Junction
Pervasive	Data Integrator & Business Integrator
Platinum	Info Pump	Acquired by CA.
Powershift	Manheim
Sagent Technology	Sagent Solution	Acquired by Group 1
SAS	Data integration	Previously ETL/Studio
Solonde	Warehouse Workbench	Acquired by Sybase
Sterling Commerce	Gentran Integration Suite
Sunopsis	Data Conductor	Acquired by Oracle
Sybase	Data Integration Suite & Data Federation
Syncsort	DMExpress
Talend	Talend Open Studio	open source
WisdomForce™	FastReader

VII. Annexe 2▲

VII-A. Un besoin et un projet client▲

En 2007, en lien direct avec l'explosion des cours des céréales, il a été décidé de mettre en place un service en ligne de « Bourse aux céréales » afin de permettre aux céréaliers d'avoir un minimum de garanties concernant les prix de vente et d'achat des céréales.

C'est dans ce contexte que l'ETL Pentaho Data Integration a été mis en place pour récupérer les cotations EuroNext MATIF du blé, du colza et du maïs, et ainsi permettre une mise à jour quotidienne des services de bourse disponible sur une trentaine d'extranets.

VII-B. Mise en place technique▲

La syntaxe des fichiers XML à traiter est la suivante :

Le job permet :

de récupérer par FTP les fichiers XML ;
de lancer le traitement et l'intégration des données dans l'entrepôt central ;
de notifier par mail le bon déroulement (ou non) des traitements ;
d'exécuter des ordres SQL pour indiquer à l'application l'heure des traitements et le bon déroulement de ceux-ci.
Détail du job du step 2 :

Détail du job du step 3 :

Mise à jour en parallèle des 30 serveurs extranets :

VII-C. Résultat sur un extranet▲

Le résultat du traitement d'intégration de données permet de visualiser quotidiennement à partir de 19h45 les cours de clôture du MATIF sur chacun des extranets.

Les données sont présentées de façon tabulaire et graphique :

VII-D. Feedback sur l'utilisation de « Pentaho Data Integration »▲

Dans ce contexte métier très précis, voici les éléments que l'on peut retirer de l'utilisation d'un ETL open source :

Phase de Conception/Développement :

L'utilisation de Pentaho Data Integration est très simple et intuitive, il n'y a pratiquement aucun code à écrire pour la conception et la définition des traitements d'intégration.

Il y a donc des gains conséquents en terme de développement, malheureusement on ne peut pas s'affranchir de l'analyse (!)

La documentation, les « samples » fournis avec l'outil et le site de Pentaho Data Integration (kettle.pentaho.org) permettent bien souvent de trouver la solution à un point de blocage.

Les fonctions de prévisualisation de l'ETL permettent de tester efficacement les traitements lors de la phase de développement.

Phase d'installation :

Il suffit d'installer Pentaho Data Integration sur le serveur cible (décompression d'un zip, installation de java 1.5 si besoin), puis ensuite de planifier les traitements batch (via crontab sous Linux).

Le déploiement des jobs peut se faire par recopie du « repository » de DEV sur le serveur de PROD (remontée du dump de la bdd du repository kettle)

Phase de production :

Chaque jour, les mails de notification permettent d'être informés du bon déroulement des traitements.

À ce jour, aucun « plantage » n'a été constaté depuis la mise en production effectuée le 23 mai 2007.

Maintenance :

La maintenance évolutive ou corrective est grandement simplifiée du fait de la vision graphique des traitements et du découpage de ceux-ci en briques élémentaires.

Si jamais un jour il faut aller chercher les données via webservice, il suffira de remplacer l'étape « parsing XML » par un «webservice call »

Coûts de licences :

Aucun