IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Les ETL open source : Une réelle alternative aux solutions propriétaires

Les ETL Open Source : Une réelle alternative aux solutions propriétaires


précédentsommairesuivant

IV-A. Présentation de Talend Open Studio

Talend Open Studio est développé par Talend (www.talend.com), une société française dynamique et relativement jeune. La première version de « Talend Open Studio » a vu le jour au 2ème semestre 2006, et la version actuelle est la 2.3.

Talend Open Studio est un ETL du type « générateur de code ». Pour chaque traitement d'intégration de données, un code spécifique est généré, ce dernier pouvant être en Java ou en Perl. Les données traitées et les traitements effectués sont donc intimement liés.

Talend Open Studio utilise une interface graphique, le « Job Designer » (basée sur Eclipse RCP) qui permet la création des processus de manipulation de données :

Image non disponible

De nombreux types d'étapes sont disponibles pour se connecter aux principaux SGBD (Oracle, DB2, MS SQL Server, PostgreSQL, MySQL,...) ainsi que pour traiter tous les types de fichiers plats (CSV, Excel, XML), aussi bien en lecture qu'en écriture.

Talend facilite la construction des requêtes dans les bases de données en détectant le schéma et les relations entre tables.

Un référentiel permet de stocker les méta-données afin de pouvoir les exploiter dans différents jobs.

Par exemple on peut sauvegarder le type et le format des données d'entrée d'un fichier CSV afin de pouvoir les exploiter ultérieurement.

Une gamme complète de composants :

Le Job Designer intègre une « Component Library »: une palette graphique de composants et connecteurs.

Les processus d'intégration sont construits simplement en déposant des composants et connecteurs sur le diagramme, en dessinant leurs connexions et relations, et en modifiant leurs propriétés.

La plupart de ces propriétés peut être issue des métadonnées déjà définies.

La Component Library inclut plus de 80 composants et connecteurs, fournissant des fonctions basiques telles que des associations, transformations, agragation et recherches; des fonctions spécialisées comme le filtrage de données, le multiplexage de données...

Cette librairie supporte tous les principaux SGBDR, formats de fichiers, annuaires LDAP...

La Component Library peut facilement être complétée en utilisant des langages standards tels que Perl, Java ou SQL.

Des traces et statistiques d'exécution en temps réel :

La conception très visuelle des "jobs" permet de présenter des statistiques d'exécution en temps réel ou encore de tracer les données transitant ligne à ligne dans les composants de la chaîne de traitement.

Quand un job d'intégration est lancé via le Job Designer (en mode graphique), il est possible d'afficher les statistiques de traitement en temps réel, montrant le nombre de lignes traitées et rejetées, ainsi que la vitesse d'exécution (lignes par secondes). On peut ainsi repérer immédiatement les goulots d'étranglement.

Il est aussi possible d'activer un mode de traçage, qui affiche pour chaque ligne le comportement adopté et montre le résultat des transformations. Les fonctionnalités de debogage traditionnelles sont évidemment disponibles.

Image non disponible

L'enrichissement des traitements par ajout de code spécifique :

La totalité du code généré par Talend Open Studio, quelque soit le langage cible, est toujours visible et accessible depuis l'environnement de conception.

On peut bien sûr implémenter des spécificités « métiers » propres aux données traitées, ceci en ajoutant de nouvelles « routines ».

Exemple de code généré par Talend Open Studio :

Image non disponible

Intégration dans les suites décisionnelles Open Source :

Talend est partenaire des éditeurs des suites décisionnelles SpagoBI et JasperIntelligence.


précédentsommairesuivant