Les ETL open source : Une réelle alternative aux solutions propriétaires
Les ETL Open Source : Une réelle alternative aux solutions propriétaires
Publié le 25 juin 2008
II. Qu'est-ce qu'un « ETL » ?
II. Qu'est-ce qu'un « ETL » ?
ETL est l'acronyme de « Extract – Transform -Load ».
Un ETL permet ainsi l' Extraction, la Transformation et le Chargement de données depuis des sources
diverses (bases de données, fichiers) vers des cibles préalablement définies.

De nombreux systèmes de gestion de bases de données sont supportés nativement en lecture/écriture (Oracle,
MS Sql Server, DB2, Postgresql, MySql,...).
De nombreux types de fichiers peuvent également être lus ou écrits: Csv, Excel, Txt, Xml, ...
Notons que la plupart des ETL disposent d'une interface graphique permettant l'élaboration des différents
scénarios d'intégration.
Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception que de la
maintenance des traitements de données.
Les ETL sont communément utilisés dans l'informatique décisionnelle afin de permettre l'alimentation des
datawarehouses (entrepôts de données).
Ces derniers servent de supports pour l'analyse des données sous plusieurs formes :
- Rapports et états,
- Tableaux de bords (dashboards, balanced scorecard),
- Indicateurs de performance (« KPIs »),
- Analyse multi-dimensionnelle (OLAP) ,
- Analyse exploratoire (Data-Mining).

Ainsi, les ETL proposent dans la plupart des cas des fonctionnalités propres à l'alimentation des
datawarehouses :
- Création de clées techniques (« Surrogate keys »)
- Mise à jour de type « dimension Lente » (« Slow Changing Dimension »)
- Agrégation de données
- Alimentation de base multidimensionnelles (tables de faits et dimensions)
Les volumes de données traités sont toujours très importants, ainsi les critères de performance sont
primordiaux dans le choix d'un ETL.