![]() |
Licence Creative Commons by-nc-nd
(Paternité, pas d'utilisation commerciale, pas de modification) |
Talend Open Studio for Data Integration est une solution d’intégration de données open source flexible et puissante. C'est un ETL (Extract Transform Load) open source basé sur Eclipse.
Il permet d'interagir avec les données de votre Système d'Information, les intégrer, les mettre en forme, les transformer, ...
L'interface générale vous permet de créer des "jobs" qui contiendront le workflow voulu, un workflow étant un ensemble d'activités qui s’enchaînent via l'utilisation de "composants". Comme dans un système standard d'entrée / sortie, vous avez des composants en entrée (input) et en sortie (output) qui vous permettent d'obtenir le résultat voulu (export CSV, envoi d'email pour indiquer les erreurs le cas échéant, etc). Ces composants s'interfacent entre eux via un ensemble d'"interactions" (linéaire, en cas d'erreur, en parallèle).
Un exemple typique est le fait de vouloir alimenter une base de données à partir d'autres bases tout en adaptant les données à votre convenance. Pour ce faire, vous créez un ou plusieurs "jobs", puis des composants d'entrée de base de données (tMysqlInput
par exemple), puis vous récupérez le contenu de la table désirée pour laquelle vous transformez vos données (par exemple, passer d'un champ texte vers un champ date) via un composant de type tMap
dont le résultat en sortie alimentera une autre base de données (tPostgresqlOutput
par exemple).
Une fois terminé, il ne vous reste plus qu'à exécuter le job soit en mode débogage soit en mode normal, ce dernier étant évidemment plus rapide, avec les variables d'entrée voulues (nom de la base, nom du serveur, autres paramètres) en utilisant des variables de "contextes". En effet, vos "jobs" peuvent être paramétrés, et vous pouvez également avoir différents types de "contextes" (par exemple dév, pré-prod, prod).
Une des fonctionnalités les plus intéressantes est le fait de pouvoir générer des scripts en Perl ou Java pour exécuter vos "jobs" directement sur vos serveurs. Ainsi vous pouvez les exporter et les planifier pour s'exécuter aux heures voulues. Vous pouvez même créer un "job" qui sera en écoute d'une modification (par exemple modification d'un fichier) et qui sera alors exécuté lorsque cet événement surviendra.
Talend Open Studio vous permet de créer et de générer toute la documentation de votre projet. Il utilise, pour cela, le formalisme UML. Vous pouvez indiquer des commentaires, des informations sur chaque composant de votre projet.
Etant basé sur Eclipse, vous pouvez aussi intégrer votre propre code à votre projet. Vous pouvez également y intégrer des classes ou objets ce qui vous permet de les utiliser sur plusieurs jobs différents.
Talend Open Studio permet également de traiter des problématiques proches de l'intégration des données, comme des projets de MDM (Master Data Management) et de qualité de données.
Compatible avec quasiment tous les standards du marché, une liste est visible sur :
http://www.talendforge.org/components/
Si, toutefois, un composant n'existait pas, vous pouvez le créer vous-même et le proposer à la communauté (http://www.talendforge.org).
En cas de difficultés, il y a pléthore d'informations sur le Web :
http://www.talendforge.org
https://help.talend.com
Talend étant une entreprise française, vous n'aurez donc pas de difficultés à trouver des informations dans la langue de Molière.
Logiciel Java
Eclipse
Éditeur professionnel, communauté associée.
Basé sur Eclipse, forte communauté d'utilisateurs et de contributeurs. De plus, Talend est une entreprise en expansion et propose tout un ensemble de services tiers, autour de l'ESB en particulier (services qui, si cela vous intéresse, sont payants).
Entre autres utilisateurs institutionnels, on peut citer :
- L'Université Toulouse 1.
- L'INRA.
Une multitude de composants existent :
http://www.talendforge.org/components/
Un projet intéressant à créer serait d'avoir un composant IHM qui permettrait d'exporter une fonctionnalité présente sur Talend Open Studio (lorsque le job est exécuté depuis Open Studio), mais actuellement non présente quand le job est exporté et exécuté, qui est de renseigner les paramètres d'entrée du job. Ce composant afficherait une IHM dynamique permettant à l'utilisateur de saisir ces paramètres (une fenêtre avec les différents types de variables en entrée tel qu'un calendrier pour les dates, une zone de saisie pour le texte, un champ adresse IP ou DNS pour le serveur, etc).
Principalement via Talend Exchange (informations sur http://www.talendforge.org/) :
http://www.talendforge.org/exchange/